文章 "因果推断中的时间序列聚类"

 

新文章 因果推断中的时间序列聚类已发布:

在机器学习中,聚类算法是重要的无监督学习算法,它们可以将原始数据划分为具有相似观测值的组。利用这些组,可以分析特定聚类的市场情况,使用新数据寻找最稳定的聚类,并进行因果推断。本文提出了一种在Python中进行时间序列聚类的原创方法。

聚类是一种机器学习技术,它能够将数据集划分为多个对象组(即聚类),使得同一聚类内的对象彼此相似,而不同聚类的对象则各不相同。聚类有助于揭示数据结构,识别隐藏的模式,并根据对象的相似性进行分组。

聚类可以用于因果推断。在这种背景下应用聚类的一种方法是识别出与特定原因相关联的相似对象或事件组。一旦数据被聚类,就可以分析聚类与原因之间的关系,以确定潜在的因果关系。

此外,聚类还可以帮助识别可能受到相同影响或具有共同原因的对象组,这对于分析因果关系也非常有用。

作者:Maxim Dmitrievsky

 

我读了 "使用聚类匹配交易 "之前和之后的内容,我不明白这有什么区别。

从文章中看不出聚类是否有任何影响,因为随机化程度太高,导致无法比较结果。为什么不能固定种子,或在聚类前保存样本,然后在固定种子的情况下对有聚类和没有聚类的样本运行创建程序?

我还没看过代码,在 ONNX 中,所有类型的聚类都可以保存,而在 MQL5 中,生成的特征向量会顺利引用聚类吗?

 
Aleksey Vyazmikin #:

我在 "通过聚类匹配交易 "之前和之后都读到了,但我不明白这有什么区别。 描述的是同一件事,只是用词略有不同。

从文章中看不出聚类是否有任何效果,因为随机性太大,无法比较结果。为什么不能固定种子,或者在聚类前保存样本,然后在固定种子的情况下对有聚类和没有聚类的样本运行创建程序?

我还没看过代码 - 在 ONNX 中,所有类型的聚类都可以保存,而在 MQL5 中,生成的特征向量会顺利引用聚类?

在第一种情况下,模式被聚类,机器人在选定的聚类上进行交易。在第二种情况下,机器人在所有簇上进行交易,但每个簇的交易被赋予一定的权重。

集群会产生影响,因为不同集群上的训练效果不同。

我不知道如何将聚类导出到 onnx,我得去了解一下。

 
Maxim Dmitrievsky #:
在第一种情况下,模式被分组,机器人在选定的分组上进行交易。在第二种情况下,机器人在所有集群上进行交易,但每个集群的交易都被赋予一定的权重。

出于某种原因,我认为在第一种情况下,会为每个群组创建一个单独的模型。那么如何选择集群呢?

对于第二种情况,我的理解是--我没有读过以前的文章--如果简单地说--加权是如何完成的?

马克西姆-德米特里耶夫斯基(Maxim Dmitrievsky)#:
聚类之所以有效果,是因为不同的聚类有更好/更差的学习效果。

事实上,那里有不同的样本....。

 
Aleksey Vyazmikin #:

出于某种原因,我以为在第一种情况下,会为每个群组创建一个单独的模型。那么如何选择集群呢?

对于第二种情况,我的理解是--我没有读过以前的文章--简而言之,加权是如何进行的?

事实上,这里有不同的样本....。

在第一种情况下,模型是针对每个群组进行训练的。聚类是根据测试的交易结果来选择的。

在第二种情况下,聚类用于过滤掉糟糕的交易。首先将样本分成 n 个群组,然后对每个群组中预测错误的示例进行统计并标记为坏示例。由于使用的是多个交叉训练褶皱的坏示例平均值,因此每个簇的平均值是不同的。因此,对整个数据集进行筛选(如之前的文章所述)和对每个聚类进行筛选是有区别的,区别在于平均值!

 
Aleksey Vyazmikin #:

基本上,这是一个不同的样本...

不同的样本=不同的市场波动率。模型在某些情况下比在其他情况下更稳定。这是第一种情况。

在第二种情况下,要剔除糟糕的交易,在所有模式下进行交易。

由于学习过程是自动化和随机化的,我对群组数量及其特殊性不感兴趣。我感兴趣的是输出端现成的 TS,它可以从一堆不同的 TS 中选择。
 
Maxim Dmitrievsky #:
由于使用的是多个交叉训练折叠中的坏示例平均值,因此每个群组的平均值都不同。

这与样本越小,例子越有可能被重新取样这一事实不同吗?

Maxim Dmitrievsky#:
就波动率而言,不同的样本 = 不同的市场制度。模型在某些情况下比在其他情况下更稳健。这是针对第一种情况。

对于第一种情况,很明显--你所训练的是好的,剩下的也是好的。

马克西姆-德米特里耶夫斯基(Maxim Dmitrievsky)#:
由于训练过程是自动化和随机化的,我对聚类数及其特殊性不感兴趣。我感兴趣的是输出中的现成 TC,它可以从一堆不同的 TC 中选择。

选择总是好的,但是否存在一种模式或标准来检测所选输出与训练样本之外的实际性能之间的关系?

 
Aleksey Vyazmikin #:

这与样本越小,例子越有可能被重新取样的事实不同吗?

在第一种情况下,这一点很清楚--我们学得很好,我们就不去管它了。

选择总是一件好事,但是否有一种模式、标准可以让我们找到所选结果与训练样本之外的真实指标之间的相关性呢?

实践才是检验真理的标准 )

还有一个有趣的效果。在第一种情况下,两个模型的训练精度都达到了 0.99。这为校准模型和得出 "真实概率 "开辟了道路。我想在另一篇文章中考虑的也许是这个问题。
 
Maxim Dmitrievsky #:

实践是检验真理的标准 )

还有一个有趣的结果。在第一种情况下,两个模型的训练精度都是 0.99。这为校准模型和得出 "真实概率 "开辟了道路。这也许是我想在另一篇文章中考虑的问题。

当然可以写,但最好写得更详细些,因为没有解释很难理解。

 
Maxim Dmitrievsky #:

实践是检验真理的标准 )

还有一个有趣的结果。在第一种情况下,两个模型的训练精度都是 0.99。这为校准模型和得出 "真实概率 "开辟了道路。我想在另一篇文章中讨论这个问题。
我已经在等待新的文章了。
 
Aleksey Vyazmikin #:
的准确率为 0.99。

测试准确率是多少?重要的是差距。