交易中的机器学习:理论、模型、实践和算法交易 - 页 2413

 
马克西姆-德米特里夫斯基
,我没有看到为什么这可能有效的全貌。

假设样本中存在随机预测因子,实际上是噪声,目标是清理噪声。

你认为这不会改善结果吗?

 
Aleksey Vyazmikin:

假设样本中存在随机的预测因素,实际上是噪音,目的是为了清理噪音。

你认为这不会改善结果吗?

采取任何芯片-目标组合,按时间过滤信号,直到找到一个稳定的信号,这样做更容易。并从这样的模型中建立一个机器人
 
Maxim Dmitrievsky:
取任何芯片-目标束,按时间过滤信号,直到找到一个稳定的信号,这样做比较容易。并从这样的模型中建立一个机器人

要么我不理解,那就写得更详细些,要么我不理解所建议的行动与在预测器_1中增加一个包含时间信息的预测器_2有什么不同?

 
Aleksey Vyazmikin:

我一直在思考如何通过对所产生的模型进行分析,改进选择预测器/属性/特征的方法。

我对该算法的实现有一些想法,但决定与受人尊敬的社区分享,也许在我们开始实施该算法之前,会有一些建设性的批评或对该算法的补充/完善。有意思的是,任何东西都不能用正当理由来解释。


在创建CatBoost模型时按使用频率(特征重要性)选择预测因子

我们的想法是,每种算法都有自己的建树特点,我们将选择那些算法更经常使用的预测器,在这种情况下,就是CatBoost。

然而,为了估计时间尺度上的均匀性,我们将使用多个样本并将其数据汇总到一个表中。这种方法将筛选出对某个模型中预测因子的选择 有很大影响的随机事件。建立模型所依据的规律性应该在整个样本中出现,这可能有助于在新数据上进行正确的分类。这一特点适用于来自市场的数据,即没有完整性的数据,包括隐藏的周期性,即不是时间性的,而是事件驱动的。在这样做的时候,最好是惩罚那些不在其中一个图的前30%-50%的预测因子,这将允许选择不同时间范围内模型最频繁需求的预测因子。

另外,为了减少随机性因素,我们应该使用具有不同种子值的模型,我认为应该有25到100个这样的模型。是否应该根据所获得的模型的质量来增加系数,或者只是按预测因子平均所有结果--我还不知道,但我认为我们应该从简单的开始,即只是平均。

使用量化表的问题很重要,它在选择预测器时可能是关键。如果表格不固定,每个模型都会为子样本创建自己的表格,从而无法比较结果,所以表格必须对所有样本通用。

有可能获得一个量化表。

  1. 通过设置CatBoost的超参数,对整个训练样本的分区类型和数量进行划分,并将结果保存为csv。
  2. 通过选择其中一个样本区(比方说最好的)来设置CatBoost的超参数,并将结果保存在csv中,按类型和分区数量划分为quanta。
  3. 使用一个单独的脚本获得一个表格,从一组表格中选择最佳选择。
在训练过程中,通过强制装表,将以前获得的表用于每个样本。

量化可以在送入助推器之前由自己完成--一切都在你的控制之下。
从0到0.00005 = 0.00005 从0.00005到0.00010 = 0.00010,等等。

 
elibrarius:

你可以在喂养提升前对自己进行量化--一切都将在你的控制之下。
0到0.00005=0.00005 0.00005到0.00010=0.00010等等。

获得量化表的第三种选择也包括对自定义量化表的评估,我预先生成了这些量化表。实验表明,这并不总是最好的选择。顺便问一下,既然我们谈论的是数字序列,除了线性、斐波那契、指数之外,还有什么其他步骤可以使用?

 
Aleksey Vyazmikin:

获得定量表的第三种选择也包括对自定义定量表的评估,我预先生成了这些定量表。实验表明,这并不总是最好的选择。顺便说一下,既然我们在谈论数字序列,除了线性、斐波那契、指数,还有什么其他的步骤?

3个还不够吗?我已经把实验的数量增加了三倍))还有哪里?
 
Aleksey Vyazmikin:

要么我不理解,那就写得更详细些,要么我不明白,建议的行动与在预测器_1上增加一个包含时间信息的预测器_2有什么不同?

有理由不写细节,但它们总有一天会出现。这里已经介绍了计划的部分内容。我认为它是唯一合理的选择,不受属性选择的束缚。理想情况下,属性可以是任何东西,标签也可以。该算法的任务是为它们进行校准,同时考虑到时间成分(过滤掉这些属性不起作用的地方)。证明--普拉多的元标签,对这种方法进行了一些调整。你在一个完全不同的草原上,所以可能不会产生理解。
 
elibrarius:
三个人对你来说还不够?实验的数量已经增加了两倍))还有什么可做的?

当然还不够 :)事实上,我正在为每个预测器选择最佳表格,非抽样越多越好。最新版本的脚本从所有表格中选择最佳区间,并将它们合并到每个预测因子的一个表格中。

 
马克西姆-德米特里耶夫斯基
有理由暂时不写细节,但总有一天会写的。这里已经介绍了该计划的部分内容。我认为它是唯一合理的选择,而不是被选择属性的外壳所束缚。理想情况下,属性可以是任何东西,标签也可以。该算法的任务是为它们进行校准,同时考虑到时间成分(过滤掉这些属性不起作用的地方)。Pruffs--普拉多的元标签,对这种方法进行了一些调整。你在一个完全不同的草原上,所以可能不会产生理解。

是的,关于算法的校准,真的不清楚。即使你在培训中过滤掉了一些地方,在申请时如何识别这些地方也不清楚。

 

是电影《黑客帝国》的粉丝吗?

这与矩阵有什么关系?
我读的是聪明人的书,你在一个小时的阅读中可以得到更多的信息,而不是在10年中阅读来自海外的劣等生的各种臃肿的东西......。
而不是那么多...