交易中的机器学习：理论、模型、实践和算法交易

Aleksey Vyazmikin 2024.01.23 10:29 #33871

Maxim Dmitrievsky #:

为什么大量的标志是邪恶的？科祖鲁》一书中的图表很有意思。

在训练样本中找到相同示例的概率，取决于特征的数量。

不清楚。找到与训练样本中相同示例的概率？

Maxim Dmitrievsky 2024.01.23 10:36 #33872

Aleksey Vyazmikin #:

什么都不清楚。找到与训练样本中相同示例的概率？

数据集中的同一行

如果只有 1,000 行

粗略地说，如果你有 18 个以上的特征，那么你在训练分类器时就会记住每一行，因为它们根本不重复

而在因果推理中，你无法匹配示例来计算统计数据。

mytarmailS 2024.01.23 10:53 #33873

Aleksey Vyazmikin #:

1.如何得到这个矩阵？其中有哪些数字？

2.我说的是规则。在我的方法中，我并不关心规则是如何得出的，也不关心规则是由什么得出的，但如果响应与训练样本中的另一个响应相似，它就不包含额外的信息。

1. 任何特征值

2.我会让你大吃一惊的是，没有人关心特征是如何产生的，每个人都只根据响应来评估特征

mytarmailS 2024.01.23 10:55 #33874

Maxim Dmitrievsky #:

为什么大量的标志是邪恶的？科祖鲁》一书中的图表很有意思。

在训练样本中找到相同示例的概率，取决于特征的数量。

如果特征多于 14 个（甚至 10 个），就会出现大量无法无损缩减的规则。

这一切都在随意性框架之内。

在具有非结构化特征（文本、图片）的模型中。

通常会有几千个属性。

Maxim Dmitrievsky 2024.01.23 11:00 #33875

mytarmailS #:
这一切都在随意的范围之内......

在具有非结构化特征（文本、图片）的模型中。

几千个属性是正常的。

他们在神经元内部使用了高效的压缩算法，比如 sec2sec，所以这也是事实。

mytarmailS 2024.01.23 11:07 #33876

Maxim Dmitrievsky #:

它使用神经元内部的高效压缩算法，如 sec2sec，因此也很公平。

如果我们谈论的是文本，那么它在 95% 的情况下使用的是通常的字数统计，比如在给定的观察结果中一个字出现了多少次？0, 1, 103..

为了使特征矩阵占用更少的空间，它采用了 "稀疏矩阵 "的格式，这很有利，因为 95% 的矩阵值都是零。

图片是卷积。

而 seq2seq 对于一个罕见的问题来说是非常奇特的。

Maxim Dmitrievsky 2024.01.23 11:13 #33877

mytarmailS #:
如果我们谈论的是文本，那么 95% 的情况下都会用到常用的单词计数器，例如--某个单词在本次观察中出现了多少次？0, 1, 103..

为了减少特征矩阵的占用，我们将其保持为 "稀疏矩阵 "的格式，这很有利，因为 95% 的矩阵值都是零
。

图片中的卷积

而 seq2seq 则是针对罕见问题的外来方法。

这些都是不同的架构，层层叠加。很难比较。我们说的是正常的分类或回归。在这种情况下，它看起来像是一个普遍规律。

mytarmailS 2024.01.23 11:39 #33878

Maxim Dmitrievsky #:

这些都是其他的架构，是层层叠加的蛋糕。这很难比较。我们说的是普通的分类或回归。在这种情况下，它看起来像是一个普遍规律。

都是一样的

我说的不是神经元，而是前馈结构。

----------------------------------------------------------------------

哦，我想起来了，这叫词袋。

什么是新的、陌生的、难以理解的、复杂的？

相同的符号表 + 任何 MO

这是在处理非结构化数据（文本），然后我们将其转化为词袋结构，再转化为我们想要的任何其他结构

Maxim Dmitrievsky 2024.01.23 12:07 #33879

mytarmailS #:
都是一样的。

我说的不是神经元，而是性状饲料的结构。

----------------------------------------------------------------------

哦，我想起来了，这叫词袋。

什么是新的、陌生的、难以理解的、复杂的？

相同的符号表 + 任何 MO

这是非结构化数据（文本），然后我们将其转化为词袋结构，再转化为我们想要的任何其他结构

这是另一个话题。无论如何转换，输入向量的维度都必须低于指定的阈值，否则就无法确定模式。分类信息对向量长度的限制可能更大。此外，还要考虑与行数的关系。在庞大的数据中，特征的数量可能会更多。

mytarmailS 2024.01.23 12:15 #33880

Maxim Dmitrievsky #:
这是两码事。无论如何转换，输入向量的维度都必须低于指定的阈值，否则就无法检测到模式。分类数据对向量长度的限制可能更大。此外，还要考虑到行数的依赖性。在庞大的数据中，特征的数量可能会更多。

还有什么？）

全世界都这么做，每个人都很高兴)

交易中的机器学习：理论、模型、实践和算法交易 - 页 3388