我读了 "使用聚类匹配交易 "之前和之后的内容,我不明白这有什么区别。
从文章中看不出聚类是否有任何影响,因为随机化程度太高,导致无法比较结果。为什么不能固定种子,或在聚类前保存样本,然后在固定种子的情况下对有聚类和没有聚类的样本运行创建程序?
我还没看过代码,在 ONNX 中,所有类型的聚类都可以保存,而在 MQL5 中,生成的特征向量会顺利引用聚类吗?
我在 "通过聚类匹配交易 "之前和之后都读到了,但我不明白这有什么区别。 描述的是同一件事,只是用词略有不同。
从文章中看不出聚类是否有任何效果,因为随机性太大,无法比较结果。为什么不能固定种子,或者在聚类前保存样本,然后在固定种子的情况下对有聚类和没有聚类的样本运行创建程序?
我还没看过代码 - 在 ONNX 中,所有类型的聚类都可以保存,而在 MQL5 中,生成的特征向量会顺利引用聚类?
出于某种原因,我以为在第一种情况下,会为每个群组创建一个单独的模型。那么如何选择集群呢?
对于第二种情况,我的理解是--我没有读过以前的文章--简而言之,加权是如何进行的?
事实上,这里有不同的样本....。
在第一种情况下,模型是针对每个群组进行训练的。聚类是根据测试的交易结果来选择的。
在第二种情况下,聚类用于过滤掉糟糕的交易。首先将样本分成 n 个群组,然后对每个群组中预测错误的示例进行统计并标记为坏示例。由于使用的是多个交叉训练褶皱的坏示例平均值,因此每个簇的平均值是不同的。因此,对整个数据集进行筛选(如之前的文章所述)和对每个聚类进行筛选是有区别的,区别在于平均值!
由于使用的是多个交叉训练折叠中的坏示例平均值,因此每个群组的平均值都不同。
这与样本越小,例子越有可能被重新取样这一事实不同吗?
就波动率而言,不同的样本 = 不同的市场制度。模型在某些情况下比在其他情况下更稳健。这是针对第一种情况。
对于第一种情况,很明显--你所训练的是好的,剩下的也是好的。
由于训练过程是自动化和随机化的,我对聚类数及其特殊性不感兴趣。我感兴趣的是输出中的现成 TC,它可以从一堆不同的 TC 中选择。
选择总是好的,但是否存在一种模式或标准来检测所选输出与训练样本之外的实际性能之间的关系?
新文章 因果推断中的时间序列聚类已发布:
在机器学习中,聚类算法是重要的无监督学习算法,它们可以将原始数据划分为具有相似观测值的组。利用这些组,可以分析特定聚类的市场情况,使用新数据寻找最稳定的聚类,并进行因果推断。本文提出了一种在Python中进行时间序列聚类的原创方法。
聚类是一种机器学习技术,它能够将数据集划分为多个对象组(即聚类),使得同一聚类内的对象彼此相似,而不同聚类的对象则各不相同。聚类有助于揭示数据结构,识别隐藏的模式,并根据对象的相似性进行分组。
聚类可以用于因果推断。在这种背景下应用聚类的一种方法是识别出与特定原因相关联的相似对象或事件组。一旦数据被聚类,就可以分析聚类与原因之间的关系,以确定潜在的因果关系。
此外,聚类还可以帮助识别可能受到相同影响或具有共同原因的对象组,这对于分析因果关系也非常有用。
作者:Maxim Dmitrievsky