文章 "神经网络变得轻松（第八部分）：关注机制"

DeadMorose777 2024.02.17 17:23 #11

Maxim Dmitrievsky #:

矢量来自递归网络，因为要翻译文本，需要输入一系列字母。但 SA 有一个编码器，可以将原始向量转换成一个更短的向量，尽可能多地承载原始向量的信息。然后，这些向量会被解码，并在每次迭代训练时相互叠加。也就是说，这是一种信息压缩（上下文选择），即在算法看来，所有最重要的东西都会保留下来，而且这个主要的东西会被赋予更高的权重。

事实上，这只是一种架构，不要在这里寻找神圣的意义，因为它在时间序列上的效果并不比普通的 NN 或 LSTM 好多少。

向量只是一组连续的数字。这个术语与递归 NN 无关，甚至与一般的机器学习无关。这个术语绝对适用于任何需要数字顺序的数学问题：甚至是学校的算术题。
如果你需要设计一些不同寻常的东西，那么寻找神圣的意义是最重要的事情。市场分析的问题不在于模型本身，而在于这些（市场）时间序列的噪声太大，无论使用什么模型，它都会提取出与它所蕴含的信息完全一样多的信息。可惜，这还远远不够。要增加 "提取 "的信息量，就必须增加初始信息量。而正是当信息量增加时，EO 最重要的特点--可扩展性和适应性--才会凸显出来。

[删除] 2024.02.17 17:29 #12

DeadMorose777 #:
向量是一组连续的数字。这个术语与循环 HH 无关，甚至与一般的机器学习无关。这个术语绝对适用于任何需要数字顺序的数学问题：甚至是学校的算术题。，如果你需要设计一些不同寻常的东西，寻找神圣的意义是最重要的事情。市场分析的问题并不在于模型本身，而在于这些（市场）时间序列的噪声太大，无论使用什么模型，都会提取出与所蕴含的信息完全一样多的信息。可惜，这还远远不够。要增加 "提取 "的信息量，就必须增加初始信息量。而正是当信息量增加时，EO 最重要的特点--可扩展性和适应性--才会凸显出来。

这一术语与处理序列的递归网络有关。它只是使用了注意力机制形式的加法，而不是 lstm 中的门。如果你长期吸食 MO 理论，就能自行得出大致相同的结论。

问题不在模型上--100%同意。但任何TC构造算法都可以以某种方式形式化为NS架构：）这是一条双行道。

Dmitriy Gizlyk 2024.02.18 17:58 #13

DeadMorose777 注意系统与简单的全连接层有什么不同，因为在全连接层中，下一个神经元也可以访问之前的所有神经元？它的关键优势是什么？我无法理解，尽管我读过很多关于这个主题的讲座。

这里存在着很大的 "意识形态 "差异。简而言之，全链接层将整套源数据作为一个整体进行分析。即使是一个参数的微小变化，也会被模型评估为全新的东西。因此，对源数据的任何操作（压缩/拉伸、旋转、添加噪音）都需要对模型进行重新训练。

正如你们所注意到的，注意力机制是通过向量（数据块）来工作的，在这种情况下，更正确的说法是嵌入（Embeddings）--在源数据的分析数组中，一个单独对象的编码表示。在 Self-Attention 中，每个嵌入都会被转换成 3 个实体：查询、键和值。实质上，每个实体都是对象在某个 N 维空间中的投影。需要注意的是，每个实体都要训练不同的矩阵，因此投射到不同的空间。查询（Query）和键（Key）用于评估原始数据中一个实体对另一个实体的影响。对象 A 的点积 Query 和对象 B 的点积 Key 显示了对象 A 对对象 B 的依赖程度。由于一个对象的 Query 和 Key 是不同的向量，因此对象 A 对 B 的影响系数将不同于对象 B 对 A 的影响系数。依赖（影响）系数用于形成得分矩阵，该矩阵由 SoftMax 函数按查询对象进行归一化。归一化矩阵乘以价值实体矩阵。运算结果被添加到原始数据中。这可以理解为为每个实体添加了一个序列上下文。这里我们需要注意的是，每个实体都会得到一个单独的上下文表示。

然后对数据进行归一化处理，使序列中所有对象的表示都具有相似的外观。

通常情况下，会使用多个连续的 "自我关注 "层。因此，区块输入和输出的数据内容会有很大不同，但大小相似。

变换器是针对语言模型提出的。这是第一个不仅能学会逐字翻译源文本，还能根据目标语言的语境重新排列单词的模型。

此外，由于采用了上下文感知数据分析技术，Transformer 模型还能忽略断章取义的数据（对象）。

DeadMorose777 2024.02.21 15:47 #14

Dmitriy Gizlyk #:

这里存在着很大的 "意识形态 "差异。简而言之，全链路层将整组输入数据作为一个整体进行分析。即使是一个参数的微小变化，也会被模型评估为全新的东西。因此，对源数据的任何操作（压缩/拉伸、旋转、添加噪音）都需要对模型进行重新训练。

正如你们所注意到的，注意力机制是通过矢量（数据块）来工作的，在这种情况下，将其称为嵌入（Embeddings）更为正确--嵌入是源数据分析阵列中一个独立对象的编码表示。在 Self-Attention 中，每个嵌入都会被转换成 3 个实体：查询、键和值。实质上，每个实体都是对象在某个 N 维空间中的投影。需要注意的是，每个实体都要训练不同的矩阵，因此投射到不同的空间。查询（Query）和键（Key）用于评估原始数据中一个实体对另一个实体的影响。对象 A 的点积 Query 和对象 B 的点积 Key 显示了对象 A 对对象 B 的依赖程度。由于一个对象的 Query 和 Key 是不同的向量，因此对象 A 对 B 的影响系数将不同于对象 B 对 A 的影响系数。依赖（影响）系数用于形成得分矩阵，该矩阵由 SoftMax 函数按查询对象进行归一化。归一化矩阵乘以价值实体矩阵。运算结果被添加到原始数据中。这可以理解为为每个实体添加了一个序列上下文。这里我们需要注意的是，每个对象都会得到一个单独的上下文表示。

然后对数据进行归一化处理，使序列中所有对象的表示都具有相似的外观。

通常情况下，会使用多个连续的 "自我关注 "层。因此，区块输入和输出的数据内容会有很大差异，但大小相似。

变换器是针对语言模型提出的。这是第一个不仅能学会逐字翻译源文本，还能根据目标语言的语境重新排列单词的模型。

此外，由于采用了上下文感知数据分析技术，Transformer 模型还能忽略断章取义的数据（对象）。

非常感谢！您的文章为我们理解如此复杂的主题提供了很大帮助。

您的知识深度真的令人惊叹。

文章 "神经网络变得轻松（第八部分）：关注机制" - 页 2