交易中的机器学习：理论、模型、实践和算法交易

mytarmailS 2022.09.16 13:52 #27451

JeeyCi #:

因此，请先检查一下。

检查什么？

这一点都不好笑了。

СанСаныч Фоменко 2022.09.16 14:00 #27452

Maxim Dmitrievsky #:
我总结一下桑尼奇的理论（因为他自己也没有把理论正规化并举例说明）：

*他的特征选择方法基于相关性，因为 "关系 "和 "关系 "是相关性的定义。

*这样我们就能对历史进行隐式拟合，其意义类似于 LDA（线性判别分析）或 PCA，简化了学习过程，减少了误差。

*甚至没有一种理论认为，训练有素的模型应该在新数据（不涉及特征-目标关系的估计）上表现得更好，因为这些特征之前是与性状或（更糟的是）与整个可用历史拟合的。

*在滑动窗口中平均 QC 可以在一定程度上改善这种情况，比如你可以估计差值并选择更稳定的差值。至少可以依靠一些统计数据

*我想到的是因果关系或统计意义上的关系，但他的方法并非如此。

这完全是错误的。

1.我在上面写了我对 "预测能力 "的理解

2.意思不明确

3. 没有通常意义上的 traine。随机森林拟合。样本量=1500 条，树数=150。样本量是从拟合误差图中提取的。在这 170 个预测因子样本中，根据不同的标准对预测因子进行筛选和预处理。最终，在剩余的 20-30 个预测因子中，根据最大预测能力选出 5 到 10 个预测因子，并对模型进行拟合。利用所获得的模型预测下一个条形图。随着新柱状图的出现，模型建立的整个过程将重复进行。

最大拟合误差约为 20%，但这种情况很少见。通常约为 10%。

4.我在前面介绍了我的方法。

mytarmailS 2022.09.16 14:01 #27453

СанСаныч Фоменко #:

再来一次

但目标不是人字形，对吧？

Maxim Dmitrievsky 2022.09.16 14:06 #27454

СанСаныч Фоменко #:

完全错误

1.上面写的是他对 "预测能力 "的理解

2.含义不明确

3. 没有通常意义上的托盘。随机森林拟合。样本量 = 1500 条，树数 = 150。样本量是从拟合误差图中提取的。在这 170 个预测因子样本中，根据不同的标准对预测因子进行筛选和预处理。最终，在剩余的 20-30 个预测因子中，根据最大预测能力选出 5 到 10 个预测因子，并对模型进行拟合。利用所获得的模型预测下一个条形图。随着新柱状图的出现，整个模型建立过程将重复进行。

最大拟合误差约为 20%，但这种情况很少见。通常约为 10%。

4.我之前描述了我的方法。

更清楚了。根据聚类结果，目标从何而来？

СанСаныч Фоменко 2022.09.16 14:14 #27455

通过预测能力统计，可以确信未来的结果也会如此：

1. 应具有足够高的 sd 值

2. 低 sd 值。

与往常一样，如果能找到 sd 值小于 10%的预测因子，那么预测误差的变化也会大致相同。

我的结论

1.我们应该采用（或开发）其中一种 "预测能力 "算法； 2.

2.找到预测能力值相差 1 倍的预测因子列表 3.

3.3. 运行一个窗口并获得统计数据：平均值和平均值偏差。如果幸运的话，你会找到这样一个列表。我找到了。

模型并不重要。在我的预测模型中，RF、ada、GBM、GLM 得出的结果差不多。SVM 稍差一些。nnet 则完全不行。

所有的成功都在于预测器及其预处理。你在这里胡说八道！

СанСаныч Фоменко 2022.09.16 14:16 #27456

Maxim Dmitrievsky #:
这样更有意义。聚类结果中的目标从何而来？

我有正常增量的标志。

目标是次要的。目标的问题在于预测因子：你可以将预测因子与特定目标匹配，也可以不匹配。

Maxim Dmitrievsky 2022.09.16 14:28 #27457

СанСаныч Фоменко #:

我有一个正常增量的标志。

目标是次要的。目标的问题在于预测器：你可以将预测器与特定目标相匹配，也可以不与之相匹配。

在标记目标的阶段，我可以通过相关性或至少通过 Mahalanobis 将其与一个或多个标志相匹配。也就是说，可以制作任何信息集。

现在滑动窗口的主题已经很明确了，只需重新训练模型并重新选择标志即可。

我只需在滑动窗口中对它们进行统计计算，然后选择最优的，这样就不用在每个条形图上都重新训练了。

Valeriy Yastremskiy 2022.09.16 14:39 #27458

СанСаныч Фоменко 选择预测因子的结果。
预测能力是信息相关性，而不是：
1.相关性是一个静态序列与另一个静态序列的 "相似性"，总是存在某种值，不存在 "无关系 "值。相关性总是有某种值的，所以你可以很容易地利用相关性来发现教师和咖啡渣之间的关系。
2.Fiche selectin 是指在建立模型时使用 Fiche 的频率。如果我们选取与教师无关的预测因子，我们仍然可以得到 fiches 的排名。
与我对 "预测能力 "的理解类似的例子还有 caret::classDist()，它定义了每一类重心的马哈拉诺比斯采样距离。或者是 woeBinning。R 中有很多方法和软件包。还有更多基于信息论的方法。

还是不明白。这不是相关性或使用频率的问题。presc.sp. 在训练中是如何估算的？

还是说它是某种平衡指标？

S.F. 我读得更深了，也更清楚了。

Forester 2022.09.16 14:49 #27459

СанСаныч Фоменко #:

我有一个正常增量的标志。

目标是次要的。目标的问题在于预测器：您可以将预测器与特定目标匹配，也可以不匹配。

增量的符号和 ZZ 的符号并不能保证盈利。5 个小增量很容易与一个强增量重叠，但方向相反。例如，10 个晚上盈利的条形图也会被 1 个白天亏损的条形图覆盖（误差仅为 10%）。

新数据会得到怎样的平衡线？我希望它不是水平的，上下波动很小？

在弗拉基米尔的文章中，误差也在 10-20%左右，但平衡线并不令人乐观。

JeeyCi 2022.09.16 14:52 #27460

Valeriy Yastremskiy #:
我还是不明白。这不是相关性或使用频率的问题。在训练中，presc.sp.是如何估算出来的，或者是用什么估算出来的？

还是说，它是某种以此命名的平衡度量？

同样的向量代数，同样的特征映射，可以消除多重共线性问题。

Mahalanobis 距离是多元统计中最常用的度量之一。

- 即对基本相同的 "成分 "进行空间选择/投影 ....在多共线性特征空间中的位置为矢量（！）代数的应用提供了一个领域，为了避免以手工的方式来消除多共线性，最好是将其考虑在内（例如，通过将其还原为 3d 空间或任何你想要的空间，并使用投影进行操作，如果有必要，初始数据可以乘以这些估计值，就像因子载荷一样，尽管通常库本身会测量这种Mahalanobis 距离并给出结果）。

总之，最终结果都是近似均值和 st.dev，并以此为基础做出交易决策。

- 自然界中没有其他建模方法，只有在（不同）n 维空间中解决常见问题（异方差、多共线性、残差自相关）的方法......

统计学是无法摆脱的......特质相关性问题的解决方案在这里以明确的形式出现......

p.s...

更新：这个工具（MD）仍然用于聚类/分组/多维分类...在多维空间中选择离群值...有时与欧氏距离一起使用...... "当变量不相关时 -- 马哈罗诺比距离与通常的欧氏距离相吻合"....在LDA 中...一般来说，tz 就是我之前描述的那个....

我在这篇文章中无意将 PCA 等同于聚类，只是在我的记忆中，PCA 和 MD 都提供了在多维空间中去除异常值的可能性...但我更新的实质并没有改变：这些都是通过向量代数来解决空间问题，并考虑到了多重共线性问题（这样就不会扭曲/偏移统计估计值）。

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - Попробуйте сделать кластерный анализ, чтобы определиться сколько классов формально выделить как их назвать уже дело субъективного вкуса.

2022.09.15
www.mql5.com

поскольку он сам не смог нормально формализовать и привести примеры его способ отбора признаков основан на корреляции. чтобы определиться сколько классов формально выделить как их назвать уже дело субъективного вкуса. на основании которых относить sample ы к тому или иному классу

交易中的机器学习：理论、模型、实践和算法交易 - 页 2746