文章 "神经网络变得轻松(第八部分):关注机制"

 

新文章 神经网络变得轻松(第八部分):关注机制已发布:

在之前的文章中,我们已经测试了组织规划神经网络的各种选项。 我们还研究了自图像处理算法中借鉴而来的卷积网络。 在本文中,我建议研究关注机制,它的出现为开发语言模型提供了动力。

分析烛条品种图表时,我们定义了趋势和倾向,并判定出它们的交易范围。 这意味着,我们从总体图中选择一些对象,然后将注意力集中在这些对象上。 我们知晓对象会影响未来的价格行为。 为了实现这种方法,早在 2014 年,开发人员就提出了第一种算法,该算法可以分析输入和输出序列元素[8] 之间的依赖性,并高亮显示。 所提议的算法称为“泛关注机制”。 最初提议将其用在递归网络机器翻译模型之中,以便解决长句子翻译中的长期记忆问题。 这种方式大大改善了之前研究的基于 LSTM 模块[ 4 ] 的递归神经网络的结果。

采用递归网络的经典机器翻译模型由两个模块组成:编码器和解码器。 第一个模块将源语言中的输入序列编码为上下文向量,第二个模块将结果上下文解码为目标语言中的单词序列。 当输入序列的长度递增时,第一个单词对最终句子上下文的影响会递减。 后果就是,翻译品质下降。 采用 LSTM 模块略微增加了模型的效能,但它们仍然有限。 


一般性关注机制的作者建议采用附加层来累积输入序列的所有循环模块的隐藏状态。 进而,在序列解码期间,该机制应评估输入序列每个元素对输出序列当前字词的影响,并向解码器建议与上下文最相关的部分。

作者:Dmitriy Gizlyk

 
在我看来,在果核 上咀嚼变形金刚是文章作者的一项高水平的炫酷技能
 
培训结果无法保存。因此,文章的价值接近于零。
 
Maxim Dmitrievsky:
果核 上燃烧变形金刚,在我看来是很高的等级)文章作者的酷炫技能
吃醋了?P.2.
 
不过,测试结果 还是比前一篇文章要差。请作者就此发表意见。
 
Maxim Dmitrievsky:
在我看来,在果核 上咀嚼变形金刚是一项等级很高的技能)文章作者的酷炫技能

完全同意。第一篇文章引起了我对各种 5S )的模糊怀疑,但在拧开内核后,我只想无情地赞扬作者))))。


Andriy Konovalov:
测试结果 还是比前一篇文章差。我希望作者能就此发表评论。

这篇文章所反映的内容,还不到作者在这篇文章中可以说、可能也想说的内容的 5%。如果你只看到这 5%,而没有尝试在其他任务中进行实验,那么这篇文章就没有什么用处。

至少,你需要进行广泛的多方面测试。

 
Aleksey Mavrin:

这篇文章所反映的内容,还不到作者通过这篇文章所能表达和想表达的内容的 5%。如果你只看到了这 5%,而没有尝试在其他任务中进行实验,那么这篇文章就没什么用处了。

至少,你需要进行广泛的多方面测试。

这就是我试图用另外 0.5% 的信息来激怒作者的原因。在前几篇文章的结尾,作者将自己的结果与前几篇文章进行了比较。

对我来说,利用注意力机制 来预测交易信号的尝试才是我特别感兴趣的。毕竟,如果这种方法被认为是最有效的文本生成方法(GPT 确实有奇效),那么我们就可以期待它在处理其他类型的序列(数字系列报价)时也能有效。

当然, 对于Self-Attention 的多线程实现,我们还是要向作者表示感谢和敬意。

 

一些概念性问题很有意思:
这种自我注意 系统与简单的全连接层有什么不同,因为在全连接层中,下一个神经元也可以访问之前的所有神经元?它的关键优势是什么?我无法理解,尽管我已经读了很多关于这个主题的讲座。
 
我不是这篇论文的作者,但以下是我找到的对你的问题的回答:

Ключевое отличие механизма Self-attention от простого полносвязного слоя заключается в способности Self-attention динамически выделять различные части входных данных. В отличие от полносвязного слоя, который обрабатывает все входы одинаково, Self-attention присваивает различные веса разным частям входных данных, фокусируясь на более релевантных частях для выполнения задачи.

这种动态加权提供了该机制的主要优势:提高了模型对输入序列元素之间关系的敏感度,从而改善了需要理解上下文的任务的性能。

 
Rashid Umarov #:
我不是这篇文章的作者,但这是我找到的对您的问题的回答:
我也看到了这个机器翻译,但还是有些不正确。
如果用人类语言重述,意思如下:"SA 机制是全连接神经网络的发展,与 PNN 的关键区别在于,PNN 分析的基本元素是单个神经元的输出,而 SA 分析的基本元素是一定的上下文向量"?我说的对吗,或者还有其他关键区别?
 
DeadMorose777 #:
我也见过这种机器翻译,但还是有些不对。 如果改用人类语言,意思如下:"SA 机制是全连接神经网络的发展,与 PNN 的关键区别在于,PNN 分析的基本元素是单个神经元的输出,而 SA 分析的基本元素是一定的上下文向量"?我说的对吗,还是还有其他关键区别?

向量来自递归网络,因为翻译文本时输入的是字母序列。而 SA 有一个编码器,可以将原始向量转换成长度更短的向量,尽可能多地承载原始向量的信息。然后,这些向量会被解码,并在每次迭代训练时相互叠加。也就是说,这是一种信息压缩(上下文选择),即在算法看来,所有最重要的东西都会被保留下来,而且这个主要的东西会被赋予更大的权重。

事实上,这只是一种架构,不要在这里寻找神圣的意义,因为它在时间序列上的效果并不比普通的 NN 或 LSTM 好多少。