交易中的机器学习:理论、模型、实践和算法交易 - 页 2424

 
transcendreamer:

实际上,举证责任在控方,所以要由你来证明产品不合格(与声称的不一样)。

这只是对逻辑和常识的呼吁 🧐

那么你也不是被告))))。更像是一个专家)然后做你的专家意见

 
YURY_PROFIT:

好吧,你也不是被告))))。更像是一个专家)然后做你的专家意见

我要求你提供证据😉,因为你是检察官。

或者你已经在那里赚了一百万,但这对你来说是不够的。

 
Igor Makanu:

这是愚蠢的,有用户,有产品/商品/服务的生产者

你没有自己造车,对吗? 你从汽车制造商那里买了一辆现成的汽车。

SZZ:你可以用科学的方法......你听说过毕达哥拉斯的定理吗? 你的呢?)


幽默的是简介资源,这里只读到:"3个元素走到一起,狗屁摄影师,狗屁模特和狗屁cosplay"


关于这一点...以及如果市场允许发布产品的新版本,别忘了,一些产品的作者只是在新的历史数据上重新优化他们的EA......。"总的来说,这些元素走到了一起" - 在这里,顺便说一下,其中一个 "元素" - IMHO,低客户培训,很少有能力检查产品的质量,但它是如此无处不在 - 包括上述汽车的买家 - 可以说营销

你在哪里看到了愚蠢的行为?那个帖子说,首先,它意味着智力工作,其次,"没有学会使用"。

要批评文本出版物,你必须与作者站在一个高度。有人将其与毕达哥拉斯作了一些可笑的比较。它的意义何在?

一个更合适的例子可能是如下。你买了一台量子计算机,但无法学会如何使用它,即使阅读了详细的说明。

我希望你明白根本的区别是什么。

 
炙手可热的智利人--你是不是碰巧弄错了支线?
 
通过对某些主题(链接)和其他事物的感知,可以立即看到水平。有两三个人在讨论这个问题,其余的人只是为了蓬头垢面,像往常一样
 
mytarmailS:

"game (停止游戏)"和 "open (不开放)"或 "buy (不购买)"之间有什么根本区别?

我不认为有什么,通常的分类...


另一个机器人的启动/停止应该比你自己的买入/卖出更容易...。

市场噪音较少(噪音被受控机器人过滤),解决方案更容易找到 - 因为不变量较少

 
Maxim Kuznetsov:

启动/停止另一个机器人--应该比自己买/卖更容易。

更少的市场噪音(噪音被控制的机器人过滤),解决方案更容易找到--因为不变量更少

没有区别,启动/停止将由其他标志控制,其中会有噪音。
 
Maxim Kuznetsov:

启动/停止另一个机器人--应该比自己买/卖更容易。

更少的市场噪音(噪音被控制的机器人过滤),解决方案更容易找到 - 因为有更少的不变量

嗯...

我还是持怀疑态度,我已经用另一个人过滤了网络,但你过滤一些TS游戏就可以了?

 

因此,我已经进行了第一阶段的研究,这是我之前宣布的,让我们试着弄清楚实际结果是什么。我一看就会写,一想就会,不知道结果如何,信息量很大,如何正确分析也是一个问题。

我从2014年到2021年上半年取样(60%训练,20%测试,20%考试),5336个预测器,固定所有参数--6个深度树和随机种子100集,学习率0,03和1000次迭代(树),在控制样本上新的100棵树后没有改善的情况下自动停止,其他设置并不重要,但可变参数是量化类型和量子边界的数目。量子边界的数量从8到512逐渐增加,量化类型--6种不同的变体,我们把量化表放在单独的文件中。

训练完所有模型后,我们得到一个由42个模型组成的表格,按 "Balans_Exam "列排序--独立选择。

截图显示了一个隐藏中心值的表格,但显示了前五个最好的和五个最差的,并且已经计算了整个样本的指标的平均值。



最后选择了两个模型--用浅绿色突出显示,它们的区别在于量子的数量--分别为8和128,以及量化的类型--中位数和UniformAndQuantiles。

然后我把测试内的样本分成8个部分,这样每个部分有6个月,分别用第一个和第二个固定量子表训练模型,对于每个,我们称之为一个项目,用5个选项进行训练,其中参数随机选取--100个选项从8到800,步骤8。

  1. 在测试子样本上训练1000棵没有停止控制的树。
  2. 在子样本上训练1000棵树,在100次迭代后没有改善的情况下,在测试子样本 上停止控制。
  3. 训练100棵树,不对子样本测试进行停顿控制。
  4. 在测试子样本上训练50棵没有停止控制的树。
  5. 训练5棵树,不对子样本测试进行停止控制。

训练完成后,对产生的模型进行了分析,以获得关于CatBoost预测器的统计数据的以下选项。

  1. 预测值的变化。
  2. 损失功能改变。
  3. 内部特征的重要性。

然后,我分别对每个1/8的样本的结果进行了平均,并将其合并为一个总表,该表按每个区段的预测器重要性分数的平均值排序,分别检查每个区段是否存在一个重要的预测器,并使用该分数排序的表格。所述程序是针对每个项目和模型中的每一类统计数字进行的。

以下是摘自变体5训练和变体1模型分析的表格

然后我做了设置,将不符合n个第一预测因子的预测因子排除在训练之外。 如果没有足够的预测因子符合标准,就不创建设置文件。这些设置是为每个统计变体和项目 进行的。对用于训练的预测器的数量采用了以下限制。5/25/50/100/300/500/1000/2000/3000.因此,我们得到了这套设置。

接下来,我用固定设置的量子表对样本进行了训练--60%的测试--20%的考试--20%,最多1000棵树,并对样本测试停止训练,对所有设置和两个版本的量子表进行了训练,100个模型用随机播种--100个选项,从8到800的增量。此外,对两个量子表进行了单独的训练,没有排除预测因子,但采用了随机播种的枚举法--从8到800的100个变体,以8为单位。

下面是中位数 8个边界分区设置的表格--第一和最后5个最佳选择

下面是一个用UniformAndQuantiles方法设置的128个界线的表格--第一和最后5个最佳选择。


可以得出的第一个结论是,该模型有潜力,这取决于所使用的预测因子,其使用受到随机种子 的影响。而大声思考,我建议选择设置/方法的目的不应该是最好的结果,而是利润或其他指标的平均结果。我想指出的是, 在第一个变体中,训练之外的样本( Balans_Exam)的财务结果的平均值 是2222.39,在第二个变体中是1999.13。

接下来,我们将模型的平均度量值与模型训练的设置分类汇编成一个表格。

下面是一个表格,根据中位数方法分为8个界限用于负责排除预测因子的不同设置--前10个最佳变体是平均值


下面是一个
表格,使用UniformAndQuantiles方法 负责排除预测因子的不同 设置进行了128个界值--前10名的选择 是平均值。


要解读我们这里的 "文件名 "列中的内容,我建议使用下表



让我们试着一步一步地进行分析,减少观察到的组合数量。

下表计算了哪些 "项目 "在两个量表中排名前十。

在这里我们看到,在两个表中都有第一个项目(Exp_000)和第五个项目(Exp_004) 的优秀代表,哪个更好,从哪个中放弃还不清楚,但它们都进入了前十名的事实让人思考也许你应该对整个表格的任何系数进行统计--我不知道--提出选项。然而我想指出,变体Exp_004是好的,因为它为创建设置文件准备数据的时间最少,这是合乎逻辑的,因为只有5棵树。我认为现在对初始训练的树木数量的选择做出最终结论还为时过早,你不认为吗?

在下面的两个量子表的表格中,我们来看看预测器分析的类型和模型中使用的预测器的极限数量。



我们可以从表中看到,第一种分析方法显示了更多的反应,我们也可以从表中看到,模型中使用的预测因子数量的设置大多不超过50个单位。

我建议我们现在看看模型本身的结果,取那些设置结果占多数的项目样本,对于第一个量化表--CB_Svod_Exp_000_x_000000002,对于第二个--CB_Svod_Exp_004_x_000000002。


下面是一个表格,其中有中位数方法,将预测器选择设置CB_Svod_Exp_000_x_0000002--前5个最好的和5个最差的变体--分成8个界限。



下面是 通过 UniformAndQuantiles 方法的预测器选择设置 CB_Svod_Exp_004_x_000000002 --前5个最好的和5个最差的变体 128个边界 分割表。

下面是用于比较的汇总表--第一行包含初始定量表的数据,第二行包含随机播 种枚举后的数据,第三行包含按照预测器选择程序进行选择的结果

1.8个边界中位数



2. 根据UniformAndQuantiles 方法设置128个 界限 表格



两张表的估计值显示,训练和测试样本的结果有所下降,而独立样本的表现有所改善,换句话说,通过改善预测因子的特性并减少 其数量,拟合的效果有所下降。


可以得出哪些初步的结论。

1.简单地喂养CatBoost样本是可能的,但操纵预测因素可以大大改善模型,包括财务结果。

2.并不总是需要使用大量的样本中可用的预测因子来获得好的结果--事实证明,只使用所有预测因子的1%就足以达到我们从平均值中估计的好结果。

为了发展这个想法,我们需要在其他样本上进行实验,如果结果是重复的,我们可以考虑减少组合的数量来寻找有希望的结果。目的是开发一种盲法,可以在不看测试和考试样本的情况下找到更好的平均数,这将使训练的样本增加40%,并且仍然增加对具有稳定反应的预测因素的识别。

人们可以考虑在估计时对预测因素进行额外的过滤,鉴于所获得的财务结果,对其有用性/效率增加一个调整因素。

我为什么要看财务数据--重点是市场上可能出现不同的事件,如果模型能优先选择回报率较高的事件,那么我就喜欢模型的这种做法,同时看模型的估计统计指标和图表本身。

我希望你觉得这个帖子很有趣,我期待着你的评论!

我附上了一个文件,里面有所有的表格--谁有兴趣,谁愿意思考。

附加的文件:
CB_Svod_Si_Q.zip  697 kb
 
然后你可以采取5-15的增量,它也一样好。

或者先按相关性筛选出所有的预测者(几秒钟的时间),然后再抽取剩下的5-15个(如果你能得到这么多的话)。

这就是计量经济学 如何为你节省时间。

原因: