交易中的机器学习:理论、模型、实践和算法交易 - 页 1911

 
马克西姆-德米特里耶夫斯基
,你这是在瞎掰)。24列,而不是100列。你自己要求提供文件。没有错误(我解释过)。300和很多行,因为我给了你一年的时间,所以你的'发电机'没有大便出来算)))。但是,请继续。我没有时间看完它,但开头很有希望。我以后会留下完整的评论。看来我得用视频的形式来回答。
是的,马克西姆抱歉,这不是你的训练文件,但信息的含义我想是清楚的。好吧,24列不能解释2000个向量而不重复。这在物理上是不可能的....。
 
Mihail Marchukajtes:

我有一个7700列的肮脏文件,在那里我采取了24个联盟,所以不要继续下去,而是看这里。这是你的文件。

而这是我的。

有什么区别????我不会让你有悬念。在主成分分析中,当每一列都是自己的坐标系时,重要的是它们可以被聚类,以便不同列的点可以被绘制在同一坐标系上。解释很简单。垂直和水平矢量越多,就越酷。你所拥有的是一个直截了当的统一点。

弄明白了一点,基本上矢量之间的角度显示出相关性(90g=0相关性)。我喂养增量滞后,那里将没有相关性,就像白噪声。

你用50个训练例子(50条线)就能做到,这让人吃惊,这就是网格必须有多浅的原因。你需要大量的例子来消除不必要的函数(最好是最多一个),这可以描述数据。

 
Mihail Marchukajtes:
是的,马克西姆抱歉,那不是你的训练文件,但我认为信息很清楚。好吧,24列不能解释2000个向量,没有重复。这在物理上是不可能的....


我下次会跳个舞。

 
马克西姆-德米特里耶夫斯基

下次我就跳舞。

vtreet不使用rsa,这完全不是这个问题。我自己也不明白他们在做什么。

他们对缺失的字符等进行预处理+他们创造新的特征,但不把它定位为特征归纳以及他们算作特征,但不把它定位为特征选择,所以我不知道它是什么或如何工作的。



关于"PCA是线性的,你在那里捣鼓的东西可以直接扔到垃圾桶里

我打赌我可以从新数据的PCA分解中得到一个价格,准确率为+-98%。

我可以证明这一点,所以你在这里是错的,甚至可能是很酷的,它是线性的,否则我就不会收集它。

 
Maxim Dmitrievsky:


下次我一定要跳舞

一般来说,我同意这样的术语:列是输入(解释变量),行是训练向量或例子。可能对于某些学习算法来说,当行少于列时,这一点很关键,但当行多于列时,你会得到接近相同的例子,将模型拉入过度学习区域。用24个解释变量(列)来描述350个例子(行)并避免重复是不可能的。

我没有以任何方式普遍使用PCA,这只是为另一个用户举的一个例子。你可以用它来评估所产生的集合,只要它能够被分割。


P.S. 荚......性交的歌曲是有功劳的。干得好!

 
因此,理论上讲,当列数和行数相同时,最酷的矩阵学习是一个正方形矩阵....。HMM...顺便说一下,这给了我一个想法,在预处理后剩下相同数量的列的情况下,采取尽可能多的例子进行训练....。这是个想法...所以它是....正方形矩阵100%没有重复....。
 
Mihail Marchukajtes:

一般来说,我同意这样的术语:列是输入(解释变量),行是训练向量或例子。对于某些学习算法来说,当行少于列时,这可能是至关重要的, 但当行多于列时,你会得到接近相同的例子,将模型拉到过度学习的区域。用24个解释变量(列)来描述350个例子(行)并避免重复是不可能的。

我没有以任何方式普遍使用PCA,这只是为另一个用户举的一个例子。你可以用它来评估所产生的集合,只要它能够被分割。


P.S. 荚......性交的歌曲是有功劳的。干得好!

只有当类的标签是非常不同的数字时(类是不平衡的)。

我是在白白折磨你。最著名的魔术师和魔法师))))

 
Mihail Marchukajtes:

你会得到接近于相同的例子,这就把模型拉到了过度学习的领域。

这些 "类似的例子 "是产生统计学意义上的结构的原因--什么是统计学? 它是当事情重复发生时,你可以从中得出结论。

Mihail Marchukajtes:

用24个解释变量(列)来描述350个例子(行)并避免重复是不可能的。

重复有什么不好 ????

 
mytarmailS:

这些 "相同的例子 "正是创造统计学意义上的结构--什么是统计学? 它是当某些东西被重复,你可以从中得出一些结论的时候

复读有什么问题????

有三种谎言:谎言、公然的谎言和统计数据。-马克-吐温

重复会导致死记硬背,我们需要对网络进行概括。也就是说,我们需要输入一个唯一的矢量,以便当一个新的矢量出现时,网络会作出预期的反应。如果一个集合包含一组接近的向量,那么网络将不会记住它们....。

换句话说,该算法将给这两个近似的向量分配一个不合理的高权重系数....。

 
Maxim Dmitrievsky:

只有当班级标签有非常不同的数字时(班级不平衡)。

我一直在与你白白纠缠......最著名的魔术师和魔法师))))

我原来说的是两个班,没有更多。如果有三个或更多的类,那么允许创建一个 唯一向量,其中行多于列,但其唯一性将由目标专门定义。