交易中的机器学习：理论、模型、实践和算法交易

Aleksey Vyazmikin 2021.07.06 18:53 #24121

马克西姆-德米特里夫斯基：
，我没有看到为什么这可能有效的全貌。

假设样本中存在随机预测因子，实际上是噪声，目标是清理噪声。

你认为这不会改善结果吗？

[删除] 2021.07.06 19:01 #24122

Aleksey Vyazmikin:

假设样本中存在随机的预测因素，实际上是噪音，目的是为了清理噪音。

你认为这不会改善结果吗？

采取任何芯片-目标组合，按时间过滤信号，直到找到一个稳定的信号，这样做更容易。并从这样的模型中建立一个机器人

Aleksey Vyazmikin 2021.07.06 19:21 #24123

Maxim Dmitrievsky:
取任何芯片-目标束，按时间过滤信号，直到找到一个稳定的信号，这样做比较容易。并从这样的模型中建立一个机器人

要么我不理解，那就写得更详细些，要么我不理解所建议的行动与在预测器_1中增加一个包含时间信息的预测器_2有什么不同？

Aleksei Kuznetsov 2021.07.06 19:37 #24124

Aleksey Vyazmikin:

我一直在思考如何通过对所产生的模型进行分析，改进选择预测器/属性/特征的方法。

我对该算法的实现有一些想法，但决定与受人尊敬的社区分享，也许在我们开始实施该算法之前，会有一些建设性的批评或对该算法的补充/完善。有意思的是，任何东西都不能用正当理由来解释。

在创建CatBoost模型时按使用频率（特征重要性）选择预测因子
。

我们的想法是，每种算法都有自己的建树特点，我们将选择那些算法更经常使用的预测器，在这种情况下，就是CatBoost。

然而，为了估计时间尺度上的均匀性，我们将使用多个样本并将其数据汇总到一个表中。这种方法将筛选出对某个模型中预测因子的选择有很大影响的随机事件。建立模型所依据的规律性应该在整个样本中出现，这可能有助于在新数据上进行正确的分类。这一特点适用于来自市场的数据，即没有完整性的数据，包括隐藏的周期性，即不是时间性的，而是事件驱动的。在这样做的时候，最好是惩罚那些不在其中一个图的前30%-50%的预测因子，这将允许选择不同时间范围内模型最频繁需求的预测因子。

另外，为了减少随机性因素，我们应该使用具有不同种子值的模型，我认为应该有25到100个这样的模型。是否应该根据所获得的模型的质量来增加系数，或者只是按预测因子平均所有结果--我还不知道，但我认为我们应该从简单的开始，即只是平均。

使用量化表的问题很重要，它在选择预测器时可能是关键。如果表格不固定，每个模型都会为子样本创建自己的表格，从而无法比较结果，所以表格必须对所有样本通用。

有可能获得一个量化表。

通过设置CatBoost的超参数，对整个训练样本的分区类型和数量进行划分，并将结果保存为csv。
通过选择其中一个样本区（比方说最好的）来设置CatBoost的超参数，并将结果保存在csv中，按类型和分区数量划分为quanta。
使用一个单独的脚本获得一个表格，从一组表格中选择最佳选择。

在训练过程中，通过强制装表，将以前获得的表用于每个样本。

量化可以在送入助推器之前由自己完成--一切都在你的控制之下。
从0到0.00005 = 0.00005 从0.00005到0.00010 = 0.00010，等等。

Aleksey Vyazmikin 2021.07.06 19:42 #24125

elibrarius:

你可以在喂养提升前对自己进行量化--一切都将在你的控制之下。
0到0.00005=0.00005 0.00005到0.00010=0.00010等等。

获得量化表的第三种选择也包括对自定义量化表的评估，我预先生成了这些量化表。实验表明，这并不总是最好的选择。顺便问一下，既然我们谈论的是数字序列，除了线性、斐波那契、指数之外，还有什么其他步骤可以使用？

Aleksei Kuznetsov 2021.07.06 21:23 #24126

Aleksey Vyazmikin:

获得定量表的第三种选择也包括对自定义定量表的评估，我预先生成了这些定量表。实验表明，这并不总是最好的选择。顺便说一下，既然我们在谈论数字序列，除了线性、斐波那契、指数，还有什么其他的步骤？

3个还不够吗？我已经把实验的数量增加了三倍））还有哪里？

[删除] 2021.07.06 21:30 #24127

Aleksey Vyazmikin:

要么我不理解，那就写得更详细些，要么我不明白，建议的行动与在预测器_1上增加一个包含时间信息的预测器_2有什么不同？

有理由不写细节，但它们总有一天会出现。这里已经介绍了计划的部分内容。我认为它是唯一合理的选择，不受属性选择的束缚。理想情况下，属性可以是任何东西，标签也可以。该算法的任务是为它们进行校准，同时考虑到时间成分（过滤掉这些属性不起作用的地方）。证明--普拉多的元标签，对这种方法进行了一些调整。你在一个完全不同的草原上，所以可能不会产生理解。

Aleksey Vyazmikin 2021.07.06 22:23 #24128

elibrarius:
三个人对你来说还不够？实验的数量已经增加了两倍））还有什么可做的？

当然还不够 :)事实上，我正在为每个预测器选择最佳表格，非抽样越多越好。最新版本的脚本从所有表格中选择最佳区间，并将它们合并到每个预测因子的一个表格中。

Aleksey Vyazmikin 2021.07.06 22:26 #24129

马克西姆-德米特里耶夫斯基：
有理由暂时不写细节，但总有一天会写的。这里已经介绍了该计划的部分内容。我认为它是唯一合理的选择，而不是被选择属性的外壳所束缚。理想情况下，属性可以是任何东西，标签也可以。该算法的任务是为它们进行校准，同时考虑到时间成分（过滤掉这些属性不起作用的地方）。Pruffs--普拉多的元标签，对这种方法进行了一些调整。你在一个完全不同的草原上，所以可能不会产生理解。

是的，关于算法的校准，真的不清楚。即使你在培训中过滤掉了一些地方，在申请时如何识别这些地方也不清楚。

mytarmailS 2021.07.06 22:57 #24130

是电影《黑客帝国》的粉丝吗？

这与矩阵有什么关系？

我读的是聪明人的书，你在一个小时的阅读中可以得到更多的信息，而不是在10年中阅读来自海外的劣等生的各种臃肿的东西......。

而不是那么多...

交易中的机器学习：理论、模型、实践和算法交易 - 页 2413

在创建CatBoost模型时按使用频率（特征重要性）选择预测因子 。

在创建CatBoost模型时按使用频率（特征重要性）选择预测因子
。