交易中的机器学习：理论、模型、实践和算法交易

YURY_PROFIT 2021.07.16 21:00 #24231

transcendreamer:

实际上，举证责任在控方，所以要由你来证明产品不合格（与声称的不一样）。

这只是对逻辑和常识的呼吁 🧐

那么你也不是被告））））。更像是一个专家）然后做你的专家意见

הטרנסצנדנטלי בעל-חזון 2021.07.16 21:04 #24232

YURY_PROFIT:

好吧，你也不是被告））））。更像是一个专家）然后做你的专家意见

我要求你提供证据😉，因为你是检察官。

或者你已经在那里赚了一百万，但这对你来说是不够的。

Evgeni Gavrilovi 2021.07.16 21:04 #24233

Igor Makanu:

这是愚蠢的，有用户，有产品/商品/服务的生产者

你没有自己造车，对吗？你从汽车制造商那里买了一辆现成的汽车。

SZZ：你可以用科学的方法......你听说过毕达哥拉斯的定理吗？你的呢？）

幽默的是简介资源，这里只读到："3个元素走到一起，狗屁摄影师，狗屁模特和狗屁cosplay"

关于这一点...以及如果市场允许发布产品的新版本，别忘了，一些产品的作者只是在新的历史数据上重新优化他们的EA......。"总的来说，这些元素走到了一起" - 在这里，顺便说一下，其中一个 "元素" - IMHO，低客户培训，很少有能力检查产品的质量，但它是如此无处不在 - 包括上述汽车的买家 - 可以说营销

你在哪里看到了愚蠢的行为？那个帖子说，首先，它意味着智力工作，其次，"没有学会使用"。

要批评文本出版物，你必须与作者站在一个高度。有人将其与毕达哥拉斯作了一些可笑的比较。它的意义何在？

一个更合适的例子可能是如下。你买了一台量子计算机，但无法学会如何使用它，即使阅读了详细的说明。

我希望你明白根本的区别是什么。

Vladimir Karputov 2021.07.16 21:10 #24234

炙手可热的智利人--你是不是碰巧弄错了支线？

[删除] 2021.07.16 21:24 #24235

通过对某些主题（链接）和其他事物的感知，可以立即看到水平。有两三个人在讨论这个问题，其余的人只是为了蓬头垢面，像往常一样

Maxim Kuznetsov 2021.07.16 21:27 #24236

mytarmailS:

"game （停止游戏）"和 "open （不开放）"或 "buy （不购买）"之间有什么根本区别？

我不认为有什么，通常的分类...

另一个机器人的启动/停止应该比你自己的买入/卖出更容易...。

市场噪音较少（噪音被受控机器人过滤），解决方案更容易找到 - 因为不变量较少

[删除] 2021.07.16 21:40 #24237

Maxim Kuznetsov:

启动/停止另一个机器人--应该比自己买/卖更容易。

更少的市场噪音（噪音被控制的机器人过滤），解决方案更容易找到--因为不变量更少

没有区别，启动/停止将由其他标志控制，其中会有噪音。

mytarmailS 2021.07.16 22:21 #24238

Maxim Kuznetsov:

启动/停止另一个机器人--应该比自己买/卖更容易。

更少的市场噪音（噪音被控制的机器人过滤），解决方案更容易找到 - 因为有更少的不变量

嗯...

我还是持怀疑态度，我已经用另一个人过滤了网络，但你过滤一些TS游戏就可以了？

Aleksey Vyazmikin 2021.07.17 00:35 #24239

因此，我已经进行了第一阶段的研究，这是我之前宣布的，让我们试着弄清楚实际结果是什么。我一看就会写，一想就会，不知道结果如何，信息量很大，如何正确分析也是一个问题。

我从2014年到2021年上半年取样（60%训练，20%测试，20%考试），5336个预测器，固定所有参数--6个深度树和随机种子100集，学习率0,03和1000次迭代（树），在控制样本上新的100棵树后没有改善的情况下自动停止，其他设置并不重要，但可变参数是量化类型和量子边界的数目。量子边界的数量从8到512逐渐增加，量化类型--6种不同的变体，我们把量化表放在单独的文件中。

训练完所有模型后，我们得到一个由42个模型组成的表格，按 "Balans_Exam "列排序--独立选择。

截图显示了一个隐藏中心值的表格，但显示了前五个最好的和五个最差的，并且已经计算了整个样本的指标的平均值。

最后选择了两个模型--用浅绿色突出显示，它们的区别在于量子的数量--分别为8和128，以及量化的类型--中位数和UniformAndQuantiles。

然后我把测试内的样本分成8个部分，这样每个部分有6个月，分别用第一个和第二个固定量子表训练模型，对于每个，我们称之为一个项目，用5个选项进行训练，其中参数随机选取--100个选项从8到800，步骤8。

在测试子样本上训练1000棵没有停止控制的树。
在子样本上训练1000棵树，在100次迭代后没有改善的情况下，在测试子样本上停止控制。
训练100棵树，不对子样本测试进行停顿控制。
在测试子样本上训练50棵没有停止控制的树。
训练5棵树，不对子样本测试进行停止控制。

训练完成后，对产生的模型进行了分析，以获得关于CatBoost预测器的统计数据的以下选项。

预测值的变化。
损失功能改变。
内部特征的重要性。

然后，我分别对每个1/8的样本的结果进行了平均，并将其合并为一个总表，该表按每个区段的预测器重要性分数的平均值排序，分别检查每个区段是否存在一个重要的预测器，并使用该分数排序的表格。所述程序是针对每个项目和模型中的每一类统计数字进行的。

以下是摘自变体5训练和变体1模型分析的表格

然后我做了设置，将不符合n个第一预测因子的预测因子排除在训练之外。如果没有足够的预测因子符合标准，就不创建设置文件。这些设置是为每个统计变体和项目进行的。对用于训练的预测器的数量采用了以下限制。5/25/50/100/300/500/1000/2000/3000.因此，我们得到了这套设置。

接下来，我用固定设置的量子表对样本进行了训练--60%的测试--20%的考试--20%，最多1000棵树，并对样本测试停止训练，对所有设置和两个版本的量子表进行了训练，100个模型用随机播种--100个选项，从8到800的增量。此外，对两个量子表进行了单独的训练，没有排除预测因子，但采用了随机播种的枚举法--从8到800的100个变体，以8为单位。

下面是中位数 8个边界分区设置的表格--第一和最后5个最佳选择。

下面是一个用UniformAndQuantiles方法设置的128个界线的表格--第一和最后5个最佳选择。

可以得出的第一个结论是，该模型有潜力，这取决于所使用的预测因子，其使用受到随机种子的影响。而大声思考，我建议选择设置/方法的目的不应该是最好的结果，而是利润或其他指标的平均结果。我想指出的是，在第一个变体中，训练之外的样本（ Balans_Exam列）的财务结果的平均值是2222.39，在第二个变体中是1999.13。

接下来，我们将模型的平均度量值与模型训练的设置分类汇编成一个表格。

下面是一个表格，根据中位数方法分为8个界限，用于负责排除预测因子的不同设置--前10个最佳变体是平均值。

下面是一个表格，使用UniformAndQuantiles方法对负责排除预测因子的不同设置进行了128个界值--前10名的选择是平均值。

要解读我们这里的 "文件名 "列中的内容，我建议使用下表

让我们试着一步一步地进行分析，减少观察到的组合数量。

下表计算了哪些 "项目 "在两个量表中排名前十。

在这里我们看到，在两个表中都有第一个项目（Exp_000）和第五个项目（Exp_004）的优秀代表，哪个更好，从哪个中放弃还不清楚，但它们都进入了前十名的事实让人思考。也许你应该对整个表格的任何系数进行统计--我不知道--提出选项。然而我想指出，变体Exp_004是好的，因为它为创建设置文件准备数据的时间最少，这是合乎逻辑的，因为只有5棵树。我认为现在对初始训练的树木数量的选择做出最终结论还为时过早，你不认为吗？

在下面的两个量子表的表格中，我们来看看预测器分析的类型和模型中使用的预测器的极限数量。

我们可以从表中看到，第一种分析方法显示了更多的反应，我们也可以从表中看到，模型中使用的预测因子数量的设置大多不超过50个单位。

我建议我们现在看看模型本身的结果，取那些设置结果占多数的项目样本，对于第一个量化表--CB_Svod_Exp_000_x_000000002，对于第二个--CB_Svod_Exp_004_x_000000002。

下面是一个表格，其中有中位数方法，将预测器选择设置CB_Svod_Exp_000_x_0000002--前5个最好的和5个最差的变体--分成8个界限。

下面是通过 UniformAndQuantiles 方法的预测器选择设置 CB_Svod_Exp_004_x_000000002 --前5个最好的和5个最差的变体的 128个边界分割表。

下面是用于比较的汇总表--第一行包含初始定量表的数据，第二行包含随机播种枚举后的数据，第三行包含按照预测器选择程序进行选择的结果。

1.8个边界的中位数表

2. 根据UniformAndQuantiles 方法设置128个界限的表格

两张表的估计值显示，训练和测试样本的结果有所下降，而独立样本的表现有所改善，换句话说，通过改善预测因子的特性并减少其数量，拟合的效果有所下降。

可以得出哪些初步的结论。

1.简单地喂养CatBoost样本是可能的，但操纵预测因素可以大大改善模型，包括财务结果。

2.并不总是需要使用大量的样本中可用的预测因子来获得好的结果--事实证明，只使用所有预测因子的1%就足以达到我们从平均值中估计的好结果。

为了发展这个想法，我们需要在其他样本上进行实验，如果结果是重复的，我们可以考虑减少组合的数量来寻找有希望的结果。目的是开发一种盲法，可以在不看测试和考试样本的情况下找到更好的平均数，这将使训练的样本增加40%，并且仍然增加对具有稳定反应的预测因素的识别。

人们可以考虑在估计时对预测因素进行额外的过滤，鉴于所获得的财务结果，对其有用性/效率增加一个调整因素。

我为什么要看财务数据--重点是市场上可能出现不同的事件，如果模型能优先选择回报率较高的事件，那么我就喜欢模型的这种做法，同时看模型的估计统计指标和图表本身。

我希望你觉得这个帖子很有趣，我期待着你的评论!

我附上了一个文件，里面有所有的表格--谁有兴趣，谁愿意思考。

附加的文件：

CB_Svod_Si_Q.zip 697 kb

Machine learning in trading: 用随机森林预测趋势可控优化: 模拟退火

[删除] 2021.07.17 02:47 #24240

然后你可以采取5-15的增量，它也一样好。

或者先按相关性筛选出所有的预测者（几秒钟的时间），然后再抽取剩下的5-15个（如果你能得到这么多的话）。

这就是计量经济学如何为你节省时间。

交易中的机器学习：理论、模型、实践和算法交易 - 页 2424