交易中的机器学习:理论、模型、实践和算法交易 - 页 2412

 
mytarmailS:

Alexei,你应该学习Python或R-core,尝试在那里建立一些东西......相信我,一千个问题都会消失......

多么美好的愿望啊!学习几门外语,掌握所有其他能力,这对不依赖他人是很有帮助的。但是,我不是什么都有天赋,我意识到我在编码方面不会取得很高的成绩,而且会花费太多的精力。

mytarmailS:

如果性状选择方法已经被测试过并且有效,那么检查这些方法的效率有什么意义呢?

这里的问题更多的是关于方法的有效性,也就是说,与不排除预测因素的样本饲料相比,它最终能提高多少结果。也就是实际的实验。


mytarmailS:

问题不在于性状的拒绝,而在于性状本身,如果你输入10个指标,然后选择,直到脸色发青,你会从任何选择算法中得到同样的结果......

我现在有大约5个预测器,这就是为什么这种方法很有趣。

mytarmailS:

你在视频中听到了吗? 他们正在成千上万的特征中进行选择,他们甚至提到了MSUA,在那里他们正在谈论创建和列举数十亿的特征。

这才是我们应该讨论的--产生数以百万计的想法并自动检查的系统,这才是本质,这才是个人的决定,而特征选择是这个过程的最后一小部分,里面没有什么有趣的东西,你只要拿任何算法去做,就没有什么可谈的,就是没有意思。

我只是在处理大量的特征,并开发从模式中生成它们的方法。特征的二进制化过程,可能在新的预测器内保留不同的指标,这将使5000个特征中的50000个特征,它们需要调查相互关系,以创造新的、饱和的特征,从这些特征中已经建立了模型。

总而言之,我不知道为什么对我的活动有如此原始的看法...

 
阿列克谢-维亚兹姆

总之,我不知道为什么你对我的表现有如此原始的看法......

阿列克谢,你难道不明白,你所有的5k二进制符号都可以用2-3个主要成分代替,即2-3个符号和所有的))但你必须做的是知道...

你也不明白,你那具有5k功能的酷炫模型可能只是一个排名更高的模型的数百个功能中的一个,而这又将成为一个排名更高的模型的功能......

这些是我目前正在思考的类别。


看看Ivakhnenko MHUA,它的概念是多么的详细和深刻,当我读它的时候,我觉得自己是一个一年级的学生,在MO...

 
mytarmailS:
Alexei,你怎么会不明白,你所有的5k二进制属性都可以由2-3个-主要成分代替,即2-3个属性和所有的))但你必须要做才知道...

你从哪里得到关于我的理解或不理解的这种结论?MGUA的话题我没有接触过,因为没有实际的应用经验。你准备好将我的标志浓缩为2-3个了吗?我有兴趣看到它,并与我的方法进行比较。既然你已经把它全部磨练好了,我想这不会是一个问题,是吗?

mytarmailS:
另外,你难道不明白,你的整个很酷的模型有5k的属性,可能只是一个排名更高的模型的数百个属性中的一个,而这又将是一个排名更高的模型的属性......。

这些是我现在正在考虑的类别。

我已经实践了很长时间,把树叶从模型中拉出来--它们是更多全球模型的一个饱和组件。

我想出的很多东西都有其他的名字,而且是为通用而实现的,但当你从头开始做每一件事时,对它的运作方式和原因有一个基本的理解,而不仅仅是理论。

 
mytarmailS:
读了同样的伊瓦赫年科MSUA,概念是多么的详尽和深刻,当我读它的时候,我觉得自己就像一个一年级的学生,在MO...

我必须做事--我已经有足够的想法要检查,我需要编码和验证。

 
mytarmailS:

你也没有意识到,你的整个很酷的模型有5千种功能,可能只是排名更高的模型的数百种功能中的一种,而这又会成为排名更高的模型的一种功能......。

黑客帝国电影迷?

 

我一直在思考如何通过对所产生的模型进行分析,改进选择预测器/属性/特征的方法。

我对该算法的实现有一些想法,但决定与受人尊敬的社区分享,也许在我们开始实施该算法之前,会有一些建设性的批评或对该算法的补充/完善。有意思的是,任何东西都不能用正当理由来解释。


在创建CatBoost模型时按使用频率(特征重要性)选择预测因子

我们的想法是,每种算法都有自己的建树特点,我们将选择那些算法更经常使用的预测器,在这种情况下,就是CatBoost。

然而,为了估计时间尺度上的均匀性,我们将使用多个样本并将其数据汇总到一个表中。这种方法将筛选出对某个模型中预测因子的选择 有很大影响的随机事件。建立模型所依据的规律性应该在整个样本中出现,这可能有助于在新数据上进行正确的分类。这一特点适用于来自市场的数据,即没有完整性的数据,包括隐藏的周期性,即不是时间性的,而是事件驱动的。在这样做的时候,最好是惩罚那些不在其中一个图的前30%-50%的预测因子,这将允许选择不同时间范围内模型最频繁需求的预测因子。

另外,为了减少随机性因素,我们应该使用具有不同种子值的模型,我认为应该有25到100个这样的模型。是否应该根据所获得的模型的质量来增加系数,或者只是按预测因子平均所有结果--我还不知道,但我认为我们应该从简单的开始,即只是平均。

使用量化表的问题很重要,它可能是选择预测器的关键。如果表格不固定,每个模型都会为子样本创建自己的表格,从而无法比较结果,所以表格必须对所有样本通用。

有可能获得一个量化表。

  1. 通过设置CatBoost的超参数,对整个训练样本的分区类型和数量进行划分,并将结果保存为csv。
  2. 通过选择其中一个样本区(比方说最好的)来设置CatBoost的超参数,并将结果保存在csv中,按类型和分区数量划分为quanta。
  3. 使用一个单独的脚本获得一个表格,从一组表格中选择最佳选择。
在训练过程中,通过强制装表,将以前获得的表用于每个样本。
[删除]  
你可以将shap值连接到引导,并在输出中看到任何数据上的特征互动,这是为那些喜欢挖掘内衣的人准备的,比如Alexei :)也有类似的库,与Lime相似,并且是独立于模型的。当然,如果你分析了数百个无意义的标志,那么任何这样的冒险都是注定要失败的。这是一项简单的杂务,没有人会免费为你做,因为这是一个令人难以置信的时间杀手,结果是已知的。
 
Maxim Dmitrievsky:
你可以把shap值连接到引导,在输出中看到任何数据上的特征互动,这是为那些喜欢挖掘内衣的人准备的,比如Alexey :)

衡量标准的问题是开放的,有不同的变体--我们应该尝试,哪一个更好--对模型的影响,分裂的数量,分裂后正确的例子数量--衡量标准是不同的。问题是在手头的任务中使用它们的正确性。顺便说一下,在我的记忆中,shap值在早期的构建中不能用于命令行,但这样你可以做一个可视化的脚本

 
马克西姆-德米特里夫斯基
当然,如果你分析数百个无意义的标志,那么任何这种努力都是注定要失败的。这是一项简单的杂务,而且不太可能有人免费为你做,因为这是一项已知结果的令人难以置信的耗费时间的工作。

为什么要悲观呢--重点正是要产生一套属性,理论上适合任何目标/基本战略,并为特定目标选择其中的最佳属性。

怀疑操纵后分类质量的提高?
[删除]  
Aleksey Vyazmikin:

为什么要悲观呢--重点正是要产生一套属性,理论上适合任何目标/基本战略,并为特定目标选择其中的最佳属性。

你是否对操纵后的分类质量的提高表示怀疑?
我没有看到为什么这可能工作的全貌。