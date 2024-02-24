交易中的机器学习：理论、模型、实践和算法交易 - 页 2424 1...241724182419242024212422242324242425242624272428242924302431...3399 新评论 YURY_PROFIT 2021.07.16 21:00 #24231 transcendreamer: 实际上，举证责任在控方，所以要由你来证明产品不合格（与声称的不一样）。这只是对逻辑和常识的呼吁 🧐 那么你也不是被告））））。更像是一个专家）然后做你的专家意见 הטרנסצנדנטלי בעל-חזון 2021.07.16 21:04 #24232 YURY_PROFIT: 好吧，你也不是被告））））。更像是一个专家）然后做你的专家意见 我要求你提供证据😉，因为你是检察官。 或者你已经在那里赚了一百万，但这对你来说是不够的。 Evgeni Gavrilovi 2021.07.16 21:04 #24233 Igor Makanu: 这是愚蠢的，有用户，有产品/商品/服务的生产者你没有自己造车，对吗？ 你从汽车制造商那里买了一辆现成的汽车。SZZ：你可以用科学的方法......你听说过毕达哥拉斯的定理吗？ 你的呢？）幽默的是简介资源，这里只读到："3个元素走到一起，狗屁摄影师，狗屁模特和狗屁cosplay"关于这一点...以及如果市场允许发布产品的新版本，别忘了，一些产品的作者只是在新的历史数据上重新优化他们的EA......。"总的来说，这些元素走到了一起" - 在这里，顺便说一下，其中一个 "元素" - IMHO，低客户培训，很少有能力检查产品的质量，但它是如此无处不在 - 包括上述汽车的买家 - 可以说营销 你在哪里看到了愚蠢的行为？那个帖子说，首先，它意味着智力工作，其次，"没有学会使用"。 要批评文本出版物，你必须与作者站在一个高度。有人将其与毕达哥拉斯作了一些可笑的比较。它的意义何在？ 一个更合适的例子可能是如下。你买了一台量子计算机，但无法学会如何使用它，即使阅读了详细的说明。 我希望你明白根本的区别是什么。 Vladimir Karputov 2021.07.16 21:10 #24234 炙手可热的智利人--你是不是碰巧弄错了支线？ [删除] 2021.07.16 21:24 #24235 通过对某些主题（链接）和其他事物的感知，可以立即看到水平。有两三个人在讨论这个问题，其余的人只是为了蓬头垢面，像往常一样 Maxim Kuznetsov 2021.07.16 21:27 #24236 mytarmailS: "game （停止游戏）"和 "open （不开放）"或 "buy （不购买）"之间有什么根本区别？我不认为有什么，通常的分类... 另一个机器人的启动/停止应该比你自己的买入/卖出更容易...。 市场噪音较少（噪音被受控机器人过滤），解决方案更容易找到 - 因为不变量较少 [删除] 2021.07.16 21:40 #24237 Maxim Kuznetsov: 启动/停止另一个机器人--应该比自己买/卖更容易。更少的市场噪音（噪音被控制的机器人过滤），解决方案更容易找到--因为不变量更少 没有区别，启动/停止将由其他标志控制，其中会有噪音。 mytarmailS 2021.07.16 22:21 #24238 Maxim Kuznetsov: 启动/停止另一个机器人--应该比自己买/卖更容易。更少的市场噪音（噪音被控制的机器人过滤），解决方案更容易找到 - 因为有更少的不变量 嗯... 我还是持怀疑态度，我已经用另一个人过滤了网络，但你过滤一些TS游戏就可以了？ Aleksey Vyazmikin 2021.07.17 00:35 #24239 因此，我已经进行了第一阶段的研究，这是我之前宣布的，让我们试着弄清楚实际结果是什么。我一看就会写，一想就会，不知道结果如何，信息量很大，如何正确分析也是一个问题。我从2014年到2021年上半年取样（60%训练，20%测试，20%考试），5336个预测器，固定所有参数--6个深度树和随机种子100集，学习率0,03和1000次迭代（树），在控制样本上新的100棵树后没有改善的情况下自动停止，其他设置并不重要，但可变参数是量化类型和量子边界的数目。量子边界的数量从8到512逐渐增加，量化类型--6种不同的变体，我们把量化表放在单独的文件中。训练完所有模型后，我们得到一个由42个模型组成的表格，按 "Balans_Exam "列排序--独立选择。截图显示了一个隐藏中心值的表格，但显示了前五个最好的和五个最差的，并且已经计算了整个样本的指标的平均值。 最后选择了两个模型--用浅绿色突出显示，它们的区别在于量子的数量--分别为8和128，以及量化的类型--中位数和UniformAndQuantiles。然后我把测试内的样本分成8个部分，这样每个部分有6个月，分别用第一个和第二个固定量子表训练模型，对于每个，我们称之为一个项目，用5个选项进行训练，其中参数随机选取--100个选项从8到800，步骤8。 在测试子样本上训练1000棵没有停止控制的树。 在子样本上训练1000棵树，在100次迭代后没有改善的情况下，在测试子样本 上停止控制。 训练100棵树，不对子样本测试进行停顿控制。 在测试子样本上训练50棵没有停止控制的树。 训练5棵树，不对子样本测试进行停止控制。 训练完成后，对产生的模型进行了分析，以获得关于CatBoost预测器的统计数据的以下选项。 预测值的变化。 损失功能改变。 内部特征的重要性。 然后，我分别对每个1/8的样本的结果进行了平均，并将其合并为一个总表，该表按每个区段的预测器重要性分数的平均值排序，分别检查每个区段是否存在一个重要的预测器，并使用该分数排序的表格。所述程序是针对每个项目和模型中的每一类统计数字进行的。以下是摘自变体5训练和变体1模型分析的表格 然后我做了设置，将不符合n个第一预测因子的预测因子排除在训练之外。 如果没有足够的预测因子符合标准，就不创建设置文件。这些设置是为每个统计变体和项目 进行的。对用于训练的预测器的数量采用了以下限制。5/25/50/100/300/500/1000/2000/3000.因此，我们得到了这套设置。接下来，我用固定设置的量子表对样本进行了训练--60%的测试--20%的考试--20%，最多1000棵树，并对样本测试停止训练，对所有设置和两个版本的量子表进行了训练，100个模型用随机播种--100个选项，从8到800的增量。此外，对两个量子表进行了单独的训练，没有排除预测因子，但采用了随机播种的枚举法--从8到800的100个变体，以8为单位。下面是中位数 8个边界分区设置的表格--第一和最后5个最佳选择。 下面是一个用UniformAndQuantiles方法设置的128个界线的表格--第一和最后5个最佳选择。 可以得出的第一个结论是，该模型有潜力，这取决于所使用的预测因子，其使用受到随机种子 的影响。而大声思考，我建议选择设置/方法的目的不应该是最好的结果，而是利润或其他指标的平均结果。我想指出的是， 在第一个变体中，训练之外的样本（ Balans_Exam列）的财务结果的平均值 是2222.39，在第二个变体中是1999.13。接下来，我们将模型的平均度量值与模型训练的设置分类汇编成一个表格。下面是一个表格，根据中位数方法分为8个界限，用于负责排除预测因子的不同设置--前10个最佳变体是平均值。 下面是一个表格，使用UniformAndQuantiles方法对 负责排除预测因子的不同 设置进行了128个界值--前10名的选择 是平均值。 要解读我们这里的 "文件名 "列中的内容，我建议使用下表 让我们试着一步一步地进行分析，减少观察到的组合数量。下表计算了哪些 "项目 "在两个量表中排名前十。 在这里我们看到，在两个表中都有第一个项目（Exp_000）和第五个项目（Exp_004） 的优秀代表，哪个更好，从哪个中放弃还不清楚，但它们都进入了前十名的事实让人思考。也许你应该对整个表格的任何系数进行统计--我不知道--提出选项。然而我想指出，变体Exp_004是好的，因为它为创建设置文件准备数据的时间最少，这是合乎逻辑的，因为只有5棵树。我认为现在对初始训练的树木数量的选择做出最终结论还为时过早，你不认为吗？在下面的两个量子表的表格中，我们来看看预测器分析的类型和模型中使用的预测器的极限数量。 我们可以从表中看到，第一种分析方法显示了更多的反应，我们也可以从表中看到，模型中使用的预测因子数量的设置大多不超过50个单位。我建议我们现在看看模型本身的结果，取那些设置结果占多数的项目样本，对于第一个量化表--CB_Svod_Exp_000_x_000000002，对于第二个--CB_Svod_Exp_004_x_000000002。下面是一个表格，其中有中位数方法，将预测器选择设置CB_Svod_Exp_000_x_0000002--前5个最好的和5个最差的变体--分成8个界限。 下面是 通过 UniformAndQuantiles 方法的预测器选择设置 CB_Svod_Exp_004_x_000000002 --前5个最好的和5个最差的变体 的 128个边界 分割表。 下面是用于比较的汇总表--第一行包含初始定量表的数据，第二行包含随机播 种枚举后的数据，第三行包含按照预测器选择程序进行选择的结果。1.8个边界 的中位数表 2. 根据UniformAndQuantiles 方法设置128个 界限的 表格 两张表的估计值显示，训练和测试样本的结果有所下降，而独立样本的表现有所改善，换句话说，通过改善预测因子的特性并减少 其数量，拟合的效果有所下降。可以得出哪些初步的结论。1.简单地喂养CatBoost样本是可能的，但操纵预测因素可以大大改善模型，包括财务结果。2.并不总是需要使用大量的样本中可用的预测因子来获得好的结果--事实证明，只使用所有预测因子的1%就足以达到我们从平均值中估计的好结果。为了发展这个想法，我们需要在其他样本上进行实验，如果结果是重复的，我们可以考虑减少组合的数量来寻找有希望的结果。目的是开发一种盲法，可以在不看测试和考试样本的情况下找到更好的平均数，这将使训练的样本增加40%，并且仍然增加对具有稳定反应的预测因素的识别。人们可以考虑在估计时对预测因素进行额外的过滤，鉴于所获得的财务结果，对其有用性/效率增加一个调整因素。我为什么要看财务数据--重点是市场上可能出现不同的事件，如果模型能优先选择回报率较高的事件，那么我就喜欢模型的这种做法，同时看模型的估计统计指标和图表本身。我希望你觉得这个帖子很有趣，我期待着你的评论!我附上了一个文件，里面有所有的表格--谁有兴趣，谁愿意思考。 附加的文件： CB_Svod_Si_Q.zip 697 kb Machine learning in trading: 用随机森林预测趋势 可控优化: 模拟退火 [删除] 2021.07.17 02:47 #24240 然后你可以采取5-15的增量，它也一样好。或者先按相关性筛选出所有的预测者（几秒钟的时间），然后再抽取剩下的5-15个（如果你能得到这么多的话）。这就是计量经济学 如何为你节省时间。 1...241724182419242024212422242324242425242624272428242924302431...3399 新评论 您错过了交易机会： 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符（不带空格） 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号，请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置，否则您将无法登录。 忘记您的登录名/密码？ 使用 Google 登录
实际上，举证责任在控方，所以要由你来证明产品不合格（与声称的不一样）。
这只是对逻辑和常识的呼吁 🧐
那么你也不是被告））））。更像是一个专家）然后做你的专家意见
好吧，你也不是被告））））。更像是一个专家）然后做你的专家意见
我要求你提供证据😉，因为你是检察官。
或者你已经在那里赚了一百万，但这对你来说是不够的。
这是愚蠢的，有用户，有产品/商品/服务的生产者
你没有自己造车，对吗？ 你从汽车制造商那里买了一辆现成的汽车。
SZZ：你可以用科学的方法......你听说过毕达哥拉斯的定理吗？ 你的呢？）
幽默的是简介资源，这里只读到："3个元素走到一起，狗屁摄影师，狗屁模特和狗屁cosplay"
关于这一点...以及如果市场允许发布产品的新版本，别忘了，一些产品的作者只是在新的历史数据上重新优化他们的EA......。"总的来说，这些元素走到了一起" - 在这里，顺便说一下，其中一个 "元素" - IMHO，低客户培训，很少有能力检查产品的质量，但它是如此无处不在 - 包括上述汽车的买家 - 可以说营销
你在哪里看到了愚蠢的行为？那个帖子说，首先，它意味着智力工作，其次，"没有学会使用"。
要批评文本出版物，你必须与作者站在一个高度。有人将其与毕达哥拉斯作了一些可笑的比较。它的意义何在？
一个更合适的例子可能是如下。你买了一台量子计算机，但无法学会如何使用它，即使阅读了详细的说明。
我希望你明白根本的区别是什么。
"game （停止游戏）"和 "open （不开放）"或 "buy （不购买）"之间有什么根本区别？
我不认为有什么，通常的分类...
另一个机器人的启动/停止应该比你自己的买入/卖出更容易...。
市场噪音较少（噪音被受控机器人过滤），解决方案更容易找到 - 因为不变量较少
启动/停止另一个机器人--应该比自己买/卖更容易。
更少的市场噪音（噪音被控制的机器人过滤），解决方案更容易找到--因为不变量更少
启动/停止另一个机器人--应该比自己买/卖更容易。
更少的市场噪音（噪音被控制的机器人过滤），解决方案更容易找到 - 因为有更少的不变量
嗯...
我还是持怀疑态度，我已经用另一个人过滤了网络，但你过滤一些TS游戏就可以了？
因此，我已经进行了第一阶段的研究，这是我之前宣布的，让我们试着弄清楚实际结果是什么。我一看就会写，一想就会，不知道结果如何，信息量很大，如何正确分析也是一个问题。
我从2014年到2021年上半年取样（60%训练，20%测试，20%考试），5336个预测器，固定所有参数--6个深度树和随机种子100集，学习率0,03和1000次迭代（树），在控制样本上新的100棵树后没有改善的情况下自动停止，其他设置并不重要，但可变参数是量化类型和量子边界的数目。量子边界的数量从8到512逐渐增加，量化类型--6种不同的变体，我们把量化表放在单独的文件中。
训练完所有模型后，我们得到一个由42个模型组成的表格，按 "Balans_Exam "列排序--独立选择。
截图显示了一个隐藏中心值的表格，但显示了前五个最好的和五个最差的，并且已经计算了整个样本的指标的平均值。
最后选择了两个模型--用浅绿色突出显示，它们的区别在于量子的数量--分别为8和128，以及量化的类型--中位数和UniformAndQuantiles。
然后我把测试内的样本分成8个部分，这样每个部分有6个月，分别用第一个和第二个固定量子表训练模型，对于每个，我们称之为一个项目，用5个选项进行训练，其中参数随机选取--100个选项从8到800，步骤8。
训练完成后，对产生的模型进行了分析，以获得关于CatBoost预测器的统计数据的以下选项。
然后，我分别对每个1/8的样本的结果进行了平均，并将其合并为一个总表，该表按每个区段的预测器重要性分数的平均值排序，分别检查每个区段是否存在一个重要的预测器，并使用该分数排序的表格。所述程序是针对每个项目和模型中的每一类统计数字进行的。
以下是摘自变体5训练和变体1模型分析的表格
然后我做了设置，将不符合n个第一预测因子的预测因子排除在训练之外。 如果没有足够的预测因子符合标准，就不创建设置文件。这些设置是为每个统计变体和项目 进行的。对用于训练的预测器的数量采用了以下限制。5/25/50/100/300/500/1000/2000/3000.因此，我们得到了这套设置。
接下来，我用固定设置的量子表对样本进行了训练--60%的测试--20%的考试--20%，最多1000棵树，并对样本测试停止训练，对所有设置和两个版本的量子表进行了训练，100个模型用随机播种--100个选项，从8到800的增量。此外，对两个量子表进行了单独的训练，没有排除预测因子，但采用了随机播种的枚举法--从8到800的100个变体，以8为单位。
下面是中位数 8个边界分区设置的表格--第一和最后5个最佳选择。
下面是一个用UniformAndQuantiles方法设置的128个界线的表格--第一和最后5个最佳选择。
可以得出的第一个结论是，该模型有潜力，这取决于所使用的预测因子，其使用受到随机种子 的影响。而大声思考，我建议选择设置/方法的目的不应该是最好的结果，而是利润或其他指标的平均结果。我想指出的是， 在第一个变体中，训练之外的样本（ Balans_Exam列）的财务结果的平均值 是2222.39，在第二个变体中是1999.13。
接下来，我们将模型的平均度量值与模型训练的设置分类汇编成一个表格。
下面是一个表格，根据中位数方法分为8个界限，用于负责排除预测因子的不同设置--前10个最佳变体是平均值。
下面是一个表格，使用UniformAndQuantiles方法对 负责排除预测因子的不同 设置进行了128个界值--前10名的选择 是平均值。
要解读我们这里的 "文件名 "列中的内容，我建议使用下表
让我们试着一步一步地进行分析，减少观察到的组合数量。
下表计算了哪些 "项目 "在两个量表中排名前十。
在这里我们看到，在两个表中都有第一个项目（Exp_000）和第五个项目（Exp_004） 的优秀代表，哪个更好，从哪个中放弃还不清楚，但它们都进入了前十名的事实让人思考。也许你应该对整个表格的任何系数进行统计--我不知道--提出选项。然而我想指出，变体Exp_004是好的，因为它为创建设置文件准备数据的时间最少，这是合乎逻辑的，因为只有5棵树。我认为现在对初始训练的树木数量的选择做出最终结论还为时过早，你不认为吗？
在下面的两个量子表的表格中，我们来看看预测器分析的类型和模型中使用的预测器的极限数量。
我们可以从表中看到，第一种分析方法显示了更多的反应，我们也可以从表中看到，模型中使用的预测因子数量的设置大多不超过50个单位。
我建议我们现在看看模型本身的结果，取那些设置结果占多数的项目样本，对于第一个量化表--CB_Svod_Exp_000_x_000000002，对于第二个--CB_Svod_Exp_004_x_000000002。
下面是一个表格，其中有中位数方法，将预测器选择设置CB_Svod_Exp_000_x_0000002--前5个最好的和5个最差的变体--分成8个界限。
下面是 通过 UniformAndQuantiles 方法的预测器选择设置 CB_Svod_Exp_004_x_000000002 --前5个最好的和5个最差的变体 的 128个边界 分割表。
下面是用于比较的汇总表--第一行包含初始定量表的数据，第二行包含随机播 种枚举后的数据，第三行包含按照预测器选择程序进行选择的结果。
1.8个边界 的中位数表
2. 根据UniformAndQuantiles 方法设置128个 界限的 表格
两张表的估计值显示，训练和测试样本的结果有所下降，而独立样本的表现有所改善，换句话说，通过改善预测因子的特性并减少 其数量，拟合的效果有所下降。
可以得出哪些初步的结论。
1.简单地喂养CatBoost样本是可能的，但操纵预测因素可以大大改善模型，包括财务结果。
2.并不总是需要使用大量的样本中可用的预测因子来获得好的结果--事实证明，只使用所有预测因子的1%就足以达到我们从平均值中估计的好结果。
为了发展这个想法，我们需要在其他样本上进行实验，如果结果是重复的，我们可以考虑减少组合的数量来寻找有希望的结果。目的是开发一种盲法，可以在不看测试和考试样本的情况下找到更好的平均数，这将使训练的样本增加40%，并且仍然增加对具有稳定反应的预测因素的识别。
人们可以考虑在估计时对预测因素进行额外的过滤，鉴于所获得的财务结果，对其有用性/效率增加一个调整因素。
我为什么要看财务数据--重点是市场上可能出现不同的事件，如果模型能优先选择回报率较高的事件，那么我就喜欢模型的这种做法，同时看模型的估计统计指标和图表本身。
我希望你觉得这个帖子很有趣，我期待着你的评论!
我附上了一个文件，里面有所有的表格--谁有兴趣，谁愿意思考。