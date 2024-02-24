交易中的机器学习：理论、模型、实践和算法交易 - 页 2746 1...273927402741274227432744274527462747274827492750275127522753...3399 新评论 mytarmailS 2022.09.16 13:52 #27451 JeeyCi #:因此，请先检查一下。 检查什么？ 这一点都不好笑了。 СанСаныч Фоменко 2022.09.16 14:00 #27452 Maxim Dmitrievsky #: 我总结一下桑尼奇的理论（因为他自己也没有把理论正规化并举例说明）： *他的特征选择方法基于相关性，因为 "关系 "和 "关系 "是相关性的定义。 *这样我们就能对历史进行隐式拟合，其意义类似于 LDA（线性判别分析）或 PCA，简化了学习过程，减少了误差。 *甚至没有一种理论认为，训练有素的模型应该在新数据（不涉及特征-目标关系的估计）上表现得更好，因为这些特征之前是与性状或（更糟的是）与整个可用历史拟合的。 *在滑动窗口中平均 QC 可以在一定程度上改善这种情况，比如你可以估计差值并选择更稳定的差值。至少可以依靠一些统计数据 *我想到的是因果关系或统计意义上的关系，但他的方法并非如此。 这完全是错误的。 1.我在上面写了我对 "预测能力 "的理解 2.意思不明确 3. 没有通常意义上的 traine。随机森林拟合。样本量=1500 条，树数=150。样本量是从拟合误差图中提取的。在这 170 个预测因子样本中，根据不同的标准对 预测因子进行筛选和预处理 。最终，在剩余的 20-30 个预测因子中，根据最大预测能力选出 5 到 10 个预测因子，并对模型进行拟合。利用所获得的模型预测下一个条形图。随着新柱状图的出现，模型建立的整个过程将重复进行。 最大拟合误差约为 20%，但这种情况很少见。通常约为 10%。 4.我在前面介绍了我的方法。 mytarmailS 2022.09.16 14:01 #27453 СанСаныч Фоменко #:再来一次 但目标不是人字形，对吧？ [删除] 2022.09.16 14:06 #27454 СанСаныч Фоменко #:完全错误1.上面写的是他对 "预测能力 "的理解2.含义不明确3. 没有通常意义上的托盘。随机森林拟合。样本量 = 1500 条，树数 = 150。样本量是从拟合误差图中提取的。在这 170 个预测因子样本中，根据不同的标准对 预测因子进行筛选和预处理 。最终，在剩余的 20-30 个预测因子中，根据最大预测能力选出 5 到 10 个预测因子，并对模型进行拟合。利用所获得的模型预测下一个条形图。随着新柱状图的出现，整个模型建立过程将重复进行。最大拟合误差约为 20%，但这种情况很少见。通常约为 10%。4.我之前描述了我的方法。 更清楚了。根据聚类结果，目标从何而来？ СанСаныч Фоменко 2022.09.16 14:14 #27455 通过预测能力统计，可以确信未来的结果也会如此： 1. 应具有足够高的 sd 值 2. 低 sd 值。 与往常一样，如果能找到 sd 值小于 10%的预测因子，那么预测误差的变化也会大致相同。 我的结论 1.我们应该采用（或开发）其中一种 "预测能力 "算法； 2. 2.找到预测能力值相差 1 倍的预测因子列表 3. 3.3. 运行一个窗口并获得统计数据：平均值和平均值偏差。如果幸运的话，你会找到这样一个列表。我找到了。 模型并不重要。在我的预测模型中，RF、ada、GBM、GLM 得出的结果差不多。SVM 稍差一些。nnet 则完全不行。 所有的成功都在于预测器及其预处理。你在这里胡说八道！ СанСаныч Фоменко 2022.09.16 14:16 #27456 Maxim Dmitrievsky #: 这样更有意义。聚类结果中的目标从何而来？ 我有正常增量的标志。 目标是次要的。目标的问题在于预测因子：你可以将预测因子与特定目标匹配，也可以不匹配。 [删除] 2022.09.16 14:28 #27457 СанСаныч Фоменко #:我有一个正常增量的标志。目标是次要的。目标的问题在于预测器：你可以将预测器与特定目标相匹配，也可以不与之相匹配。 在标记目标的阶段，我可以通过相关性或至少通过 Mahalanobis 将其与一个或多个标志相匹配。也就是说，可以制作任何信息集。现在滑动窗口的主题已经很明确了，只需重新训练模型并重新选择标志即可。我只需在滑动窗口中对它们进行统计计算，然后选择最优的，这样就不用在每个条形图上都重新训练了。 Valeriy Yastremskiy 2022.09.16 14:39 #27458 СанСаныч Фоменко 选择预测因子 的结果。 预测能力是信息相关性，而不是：1.相关性是一个静态序列与另一个静态序列的 "相似性"，总是存在某种值，不存在 "无关系 "值。相关性总是有某种值的，所以你可以很容易地利用相关性来发现教师和咖啡渣之间的关系。2.Fiche selectin 是指在建立模型时使用 Fiche 的频率。如果我们选取与教师无关的预测因子，我们仍然可以得到 fiches 的排名。与我对 "预测能力 "的理解类似的例子还有 caret::classDist()，它定义了每一类重心的马哈拉诺比斯 采样距离 。或者是 woeBinning。R 中有很多方法和软件包。还有更多基于信息论的方法。 还是不明白。这不是相关性或使用频率的问题。presc.sp. 在训练中是如何估算的？还是说它是某种平衡指标？S.F. 我读得更深了，也更清楚了。 Aleksei Kuznetsov 2022.09.16 14:49 #27459 СанСаныч Фоменко #:我有一个正常增量的标志。目标是次要的。目标的问题在于预测器：您可以将预测器与特定目标匹配，也可以不匹配。 增量的符号和 ZZ 的符号并不能保证盈利。5 个小增量很容易与一个强增量重叠，但方向相反。例如，10 个晚上盈利的条形图也会被 1 个白天亏损的条形图覆盖（误差仅为 10%）。 新数据会得到怎样的平衡线？我希望它不是水平的，上下波动很小？ 在弗拉基米尔的文章中，误差也在 10-20%左右，但平衡线并不令人乐观。 JeeyCi 2022.09.16 14:52 #27460 Valeriy Yastremskiy #: 我还是不明白。这不是相关性或使用频率的问题。在训练中，presc.sp.是如何估算出来的，或者是用什么估算出来的？ 还是说，它是某种以此命名的平衡度量？ 同样的向量代数，同样的特征映射，可以消除多重共线性问题。 Mahalanobis 距离是多元 统计中最常用的度量之一。 - 即对基本相同的 "成分 "进行空间选择/投影 ....在多共线性特征空间中的位置为矢量（！）代数的应用提供了一个领域，为了避免以手工的方式来消除多共线性，最好是将其考虑在内（例如，通过将其还原为 3d 空间或任何你想要的空间，并使用投影进行操作，如果有必要，初始数据可以乘以这些估计值，就像因子载荷一样，尽管通常库本身会测量这种Mahalanobis 距离 并给出结果）。 总之，最终结果都是近似均值和 st.dev，并以此为基础做出交易决策。 - 自然界中没有其他建模方法，只有在（不同）n 维空间中解决常见问题（异方差、多共线性、残差自相关）的方法...... 统计学是无法摆脱的......特质相关性问题的解决方案在这里以明确的形式出现...... p.s... 更新： 这个工具（MD）仍然用于聚类/分组/多维分类...在多维空间中选择离群值...有时与欧氏距离一起使用...... "当变量不相关时 -- 马哈罗诺比距离与通常的欧氏 距离相吻合"....在LDA 中...一般来说，tz 就是我 之前描述的那个.... 我在这篇文章中无意将 PCA 等同于聚类，只是在我的记忆中，PCA 和 MD 都提供了在多维空间中去除异常值的可能性...但我更新的实质并没有改变：这些都是通过向量代数来解决空间问题，并考虑到了多重共线性问题（这样就不会扭曲/偏移统计估计值）。 Машинное обучение в трейдинге: теория, модели, практика и алготорговля - Попробуйте сделать кластерный анализ, чтобы определиться сколько классов формально выделить как их назвать уже дело субъективного вкуса. 2022.09.15www.mql5.com поскольку он сам не смог нормально формализовать и привести примеры его способ отбора признаков основан на корреляции. чтобы определиться сколько классов формально выделить как их назвать уже дело субъективного вкуса. на основании которых относить sample ы к тому или иному классу 1...273927402741274227432744274527462747274827492750275127522753...3399 新评论 您错过了交易机会： 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符（不带空格） 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号，请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置，否则您将无法登录。 忘记您的登录名/密码？ 使用 Google 登录
因此，请先检查一下。
检查什么？
这一点都不好笑了。
我总结一下桑尼奇的理论（因为他自己也没有把理论正规化并举例说明）：
这完全是错误的。
1.我在上面写了我对 "预测能力 "的理解
2.意思不明确
3. 没有通常意义上的 traine。随机森林拟合。样本量=1500 条，树数=150。样本量是从拟合误差图中提取的。在这 170 个预测因子样本中，根据不同的标准对 预测因子进行筛选和预处理 。最终，在剩余的 20-30 个预测因子中，根据最大预测能力选出 5 到 10 个预测因子，并对模型进行拟合。利用所获得的模型预测下一个条形图。随着新柱状图的出现，模型建立的整个过程将重复进行。
最大拟合误差约为 20%，但这种情况很少见。通常约为 10%。
4.我在前面介绍了我的方法。
再来一次
但目标不是人字形，对吧？
通过预测能力统计，可以确信未来的结果也会如此：
1. 应具有足够高的 sd 值
2. 低 sd 值。
与往常一样，如果能找到 sd 值小于 10%的预测因子，那么预测误差的变化也会大致相同。
我的结论
1.我们应该采用（或开发）其中一种 "预测能力 "算法； 2.
2.找到预测能力值相差 1 倍的预测因子列表 3.
3.3. 运行一个窗口并获得统计数据：平均值和平均值偏差。如果幸运的话，你会找到这样一个列表。我找到了。
模型并不重要。在我的预测模型中，RF、ada、GBM、GLM 得出的结果差不多。SVM 稍差一些。nnet 则完全不行。
所有的成功都在于预测器及其预处理。你在这里胡说八道！
这样更有意义。聚类结果中的目标从何而来？
我有正常增量的标志。
目标是次要的。目标的问题在于预测因子：你可以将预测因子与特定目标匹配，也可以不匹配。
预测能力是信息相关性，而不是：
1.相关性是一个静态序列与另一个静态序列的 "相似性"，总是存在某种值，不存在 "无关系 "值。相关性总是有某种值的，所以你可以很容易地利用相关性来发现教师和咖啡渣之间的关系。
2.Fiche selectin 是指在建立模型时使用 Fiche 的频率。如果我们选取与教师无关的预测因子，我们仍然可以得到 fiches 的排名。
与我对 "预测能力 "的理解类似的例子还有 caret::classDist()，它定义了每一类重心的马哈拉诺比斯 采样距离 。或者是 woeBinning。R 中有很多方法和软件包。还有更多基于信息论的方法。
增量的符号和 ZZ 的符号并不能保证盈利。5 个小增量很容易与一个强增量重叠，但方向相反。例如，10 个晚上盈利的条形图也会被 1 个白天亏损的条形图覆盖（误差仅为 10%）。
新数据会得到怎样的平衡线？我希望它不是水平的，上下波动很小？
在弗拉基米尔的文章中，误差也在 10-20%左右，但平衡线并不令人乐观。
我还是不明白。这不是相关性或使用频率的问题。在训练中，presc.sp.是如何估算出来的，或者是用什么估算出来的？
同样的向量代数，同样的特征映射，可以消除多重共线性问题。
- 即对基本相同的 "成分 "进行空间选择/投影 ....在多共线性特征空间中的位置为矢量（！）代数的应用提供了一个领域，为了避免以手工的方式来消除多共线性，最好是将其考虑在内（例如，通过将其还原为 3d 空间或任何你想要的空间，并使用投影进行操作，如果有必要，初始数据可以乘以这些估计值，就像因子载荷一样，尽管通常库本身会测量这种Mahalanobis 距离 并给出结果）。
总之，最终结果都是近似均值和 st.dev，并以此为基础做出交易决策。
- 自然界中没有其他建模方法，只有在（不同）n 维空间中解决常见问题（异方差、多共线性、残差自相关）的方法......
统计学是无法摆脱的......特质相关性问题的解决方案在这里以明确的形式出现......
p.s...
更新： 这个工具（MD）仍然用于聚类/分组/多维分类...在多维空间中选择离群值...有时与欧氏距离一起使用...... "当变量不相关时 -- 马哈罗诺比距离与通常的欧氏 距离相吻合"....在LDA 中...一般来说，tz 就是我 之前描述的那个....
我在这篇文章中无意将 PCA 等同于聚类，只是在我的记忆中，PCA 和 MD 都提供了在多维空间中去除异常值的可能性...但我更新的实质并没有改变：这些都是通过向量代数来解决空间问题，并考虑到了多重共线性问题（这样就不会扭曲/偏移统计估计值）。