文章 "神经网络变得轻松(第八部分):关注机制" - 页 2

 
Maxim Dmitrievsky #:

矢量来自递归网络,因为要翻译文本,需要输入一系列字母。但 SA 有一个编码器,可以将原始向量转换成一个更短的向量,尽可能多地承载原始向量的信息。然后,这些向量会被解码,并在每次迭代训练时相互叠加。也就是说,这是一种信息压缩(上下文选择),即在算法看来,所有最重要的东西都会保留下来,而且这个主要的东西会被赋予更高的权重。

事实上,这只是一种架构,不要在这里寻找神圣的意义,因为它在时间序列上的效果并不比普通的 NN 或 LSTM 好多少。

向量只是一组连续的数字。这个术语与递归 NN 无关,甚至与一般的机器学习无关。这个术语绝对适用于任何需要数字顺序的数学问题:甚至是学校的算术题。
如果你需要设计一些不同寻常的东西,那么寻找神圣的意义是最重要的事情。市场分析的问题不在于模型本身,而在于这些(市场)时间序列的噪声太大,无论使用什么模型,它都会提取出与它所蕴含的信息完全一样多的信息。可惜,这还远远不够。要增加 "提取 "的信息量,就必须增加初始信息量。而正是当信息量增加时,EO 最重要的特点--可扩展性和适应性--才会凸显出来。
 
DeadMorose777 #:
向量是一组连续的数字。这个术语与循环 HH 无关,甚至与一般的机器学习无关。这个术语绝对适用于任何需要数字顺序的数学问题:甚至是学校的算术题。 ,如果你需要设计一些不同寻常的东西,寻找神圣的意义是最重要的事情。市场分析的问题并不在于模型本身,而在于这些(市场)时间序列的噪声太大,无论使用什么模型,都会提取出与所蕴含的信息完全一样多的信息。可惜,这还远远不够。要增加 "提取 "的信息量,就必须增加初始信息量。而正是当信息量增加时,EO 最重要的特点--可扩展性和适应性--才会凸显出来。

这一术语与处理序列的递归网络有关。它只是使用了注意力机制形式的加法,而不是 lstm 中的门。如果你长期吸食 MO 理论,就能自行得出大致相同的结论。

问题不在模型上--100%同意。但任何TC构造算法都可以以某种方式形式化为NS架构:)这是一条双行道。
 
DeadMorose777 注意 系统与简单的全连接层有什么不同,因为在全连接层中,下一个神经元也可以访问之前的所有神经元?它的关键优势是什么?我无法理解,尽管我读过很多关于这个主题的讲座

这里存在着很大的 "意识形态 "差异。简而言之,全链接层将整套源数据作为一个整体进行分析。即使是一个参数的微小变化,也会被模型评估为全新的东西。因此,对源数据的任何操作(压缩/拉伸、旋转、添加噪音)都需要对模型进行重新训练。

正如你们所注意到的,注意力机制是通过向量(数据块)来工作的,在这种情况下,更正确的说法是嵌入(Embeddings)--在源数据的分析数组中,一个单独对象的编码表示。在 Self-Attention 中,每个嵌入都会被转换成 3 个实体:查询、键和值。实质上,每个实体都是对象在某个 N 维空间中的投影。需要注意的是,每个实体都要训练不同的矩阵,因此投射到不同的空间。查询(Query)和键(Key)用于评估原始数据中一个实体对另一个实体的影响。对象 A 的点积 Query 和对象 B 的点积 Key 显示了对象 A 对对象 B 的依赖程度。由于一个对象的 Query 和 Key 是不同的向量,因此对象 A 对 B 的影响系数将不同于对象 B 对 A 的影响系数。依赖(影响)系数用于形成得分矩阵,该矩阵由 SoftMax 函数按查询对象进行归一化。归一化矩阵乘以价值实体矩阵。运算结果被添加到原始数据中。这可以理解为为每个实体添加了一个序列上下文。这里我们需要注意的是,每个实体都会得到一个单独的上下文表示。

然后对数据进行归一化处理,使序列中所有对象的表示都具有相似的外观。

通常情况下,会使用多个连续的 "自我关注 "层。因此,区块输入和输出的数据内容会有很大不同,但大小相似。

变换器是针对语言模型提出的。这是第一个不仅能学会逐字翻译源文本,还能根据目标语言的语境重新排列单词的模型。

此外,由于采用了上下文感知数据分析技术,Transformer 模型还能忽略断章取义的数据(对象)。

 
Dmitriy Gizlyk #:

这里存在着很大的 "意识形态 "差异。简而言之,全链路层将整组输入数据作为一个整体进行分析。即使是一个参数的微小变化,也会被模型评估为全新的东西。因此,对源数据的任何操作(压缩/拉伸、旋转、添加噪音)都需要对模型进行重新训练。

正如你们所注意到的,注意力机制是通过矢量(数据块)来工作的,在这种情况下,将其称为嵌入(Embeddings)更为正确--嵌入是源数据分析阵列中一个独立对象的编码表示。在 Self-Attention 中,每个嵌入都会被转换成 3 个实体:查询、键和值。实质上,每个实体都是对象在某个 N 维空间中的投影。需要注意的是,每个实体都要训练不同的矩阵,因此投射到不同的空间。查询(Query)和键(Key)用于评估原始数据中一个实体对另一个实体的影响。对象 A 的点积 Query 和对象 B 的点积 Key 显示了对象 A 对对象 B 的依赖程度。由于一个对象的 Query 和 Key 是不同的向量,因此对象 A 对 B 的影响系数将不同于对象 B 对 A 的影响系数。依赖(影响)系数用于形成得分矩阵,该矩阵由 SoftMax 函数按查询对象进行归一化。归一化矩阵乘以价值实体矩阵。运算结果被添加到原始数据中。这可以理解为为每个实体添加了一个序列上下文。这里我们需要注意的是,每个对象都会得到一个单独的上下文表示。

然后对数据进行归一化处理,使序列中所有对象的表示都具有相似的外观。

通常情况下,会使用多个连续的 "自我关注 "层。因此,区块输入和输出的数据内容会有很大差异,但大小相似。

变换器是针对语言模型提出的。这是第一个不仅能学会逐字翻译源文本,还能根据目标语言的语境重新排列单词的模型。

此外,由于采用了上下文感知数据分析技术,Transformer 模型还能忽略断章取义的数据(对象)。

非常感谢!您的文章为我们理解如此复杂的主题提供了很大帮助。

您的知识深度真的令人惊叹。