交易中的机器学习：理论、模型、实践和算法交易

Mihail Marchukajtes 2020.07.24 12:51 #19101

马克西姆-德米特里耶夫斯基：
，你这是在瞎掰）。24列，而不是100列。你自己要求提供文件。没有错误（我解释过）。300和很多行，因为我给了你一年的时间，所以你的'发电机'没有大便出来算）））。但是，请继续。我没有时间看完它，但开头很有希望。我以后会留下完整的评论。看来我得用视频的形式来回答。

是的，马克西姆抱歉，这不是你的训练文件，但信息的含义我想是清楚的。好吧，24列不能解释2000个向量而不重复。这在物理上是不可能的....。

Rorschach 2020.07.24 13:16 #19102

Mihail Marchukajtes:

我有一个7700列的肮脏文件，在那里我采取了24个联盟，所以不要继续下去，而是看这里。这是你的文件。

而这是我的。

有什么区别????我不会让你有悬念。在主成分分析中，当每一列都是自己的坐标系时，重要的是它们可以被聚类，以便不同列的点可以被绘制在同一坐标系上。解释很简单。垂直和水平矢量越多，就越酷。你所拥有的是一个直截了当的统一点。

弄明白了一点，基本上矢量之间的角度显示出相关性（90g=0相关性）。我喂养增量滞后，那里将没有相关性，就像白噪声。

你用50个训练例子（50条线）就能做到，这让人吃惊，这就是网格必须有多浅的原因。你需要大量的例子来消除不必要的函数（最好是最多一个），这可以描述数据。

[删除] 2020.07.24 13:53 #19103

Mihail Marchukajtes:
是的，马克西姆抱歉，那不是你的训练文件，但我认为信息很清楚。好吧，24列不能解释2000个向量，没有重复。这在物理上是不可能的....

我下次会跳个舞。

mytarmailS 2020.07.24 17:37 #19104

马克西姆-德米特里耶夫斯基。

下次我就跳舞。

vtreet不使用rsa，这完全不是这个问题。我自己也不明白他们在做什么。

他们对缺失的字符等进行预处理+他们创造新的特征，但不把它定位为特征归纳以及他们算作特征，但不把它定位为特征选择，所以我不知道它是什么或如何工作的。

关于"PCA是线性的，你在那里捣鼓的东西可以直接扔到垃圾桶里。

我打赌我可以从新数据的PCA分解中得到一个价格，准确率为+-98%。

我可以证明这一点，所以你在这里是错的，甚至可能是很酷的，它是线性的，否则我就不会收集它。

Mihail Marchukajtes 2020.07.24 20:54 #19105

Maxim Dmitrievsky:

下次我一定要跳舞

一般来说，我同意这样的术语：列是输入（解释变量），行是训练向量或例子。可能对于某些学习算法来说，当行少于列时，这一点很关键，但当行多于列时，你会得到接近相同的例子，将模型拉入过度学习区域。用24个解释变量（列）来描述350个例子（行）并避免重复是不可能的。

我没有以任何方式普遍使用PCA，这只是为另一个用户举的一个例子。你可以用它来评估所产生的集合，只要它能够被分割。

P.S. 荚......性交的歌曲是有功劳的。干得好!

Mihail Marchukajtes 2020.07.24 20:58 #19106

因此，理论上讲，当列数和行数相同时，最酷的矩阵学习是一个正方形矩阵....。HMM...顺便说一下，这给了我一个想法，在预处理后剩下相同数量的列的情况下，采取尽可能多的例子进行训练....。这是个想法...所以它是....正方形矩阵100%没有重复....。

[删除] 2020.07.24 21:06 #19107

Mihail Marchukajtes:

一般来说，我同意这样的术语：列是输入（解释变量），行是训练向量或例子。对于某些学习算法来说，当行少于列时，这可能是至关重要的，但当行多于列时，你会得到接近相同的例子，将模型拉到过度学习的区域。用24个解释变量（列）来描述350个例子（行）并避免重复是不可能的。

我没有以任何方式普遍使用PCA，这只是为另一个用户举的一个例子。你可以用它来评估所产生的集合，只要它能够被分割。

P.S. 荚......性交的歌曲是有功劳的。干得好!

只有当类的标签是非常不同的数字时（类是不平衡的）。

我是在白白折磨你。最著名的魔术师和魔法师))))

mytarmailS 2020.07.24 21:08 #19108

Mihail Marchukajtes:

你会得到接近于相同的例子，这就把模型拉到了过度学习的领域。

这些 "类似的例子 "是产生统计学意义上的结构的原因--什么是统计学？它是当事情重复发生时，你可以从中得出结论。

Mihail Marchukajtes:

用24个解释变量（列）来描述350个例子（行）并避免重复是不可能的。

重复有什么不好 ????

Mihail Marchukajtes 2020.07.24 21:36 #19109

mytarmailS:

这些 "相同的例子 "正是创造统计学意义上的结构--什么是统计学？它是当某些东西被重复，你可以从中得出一些结论的时候

复读有什么问题????

有三种谎言：谎言、公然的谎言和统计数据。-马克-吐温。

重复会导致死记硬背，我们需要对网络进行概括。也就是说，我们需要输入一个唯一的矢量，以便当一个新的矢量出现时，网络会作出预期的反应。如果一个集合包含一组接近的向量，那么网络将不会记住它们....。

换句话说，该算法将给这两个近似的向量分配一个不合理的高权重系数....。

Mihail Marchukajtes 2020.07.24 21:38 #19110

Maxim Dmitrievsky:

只有当班级标签有非常不同的数字时（班级不平衡）。

我一直在与你白白纠缠......最著名的魔术师和魔法师))))

我原来说的是两个班，没有更多。如果有三个或更多的类，那么允许创建一个唯一向量表，其中行多于列，但其唯一性将由目标专门定义。

交易中的机器学习：理论、模型、实践和算法交易 - 页 1911