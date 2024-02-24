交易中的机器学习：理论、模型、实践和算法交易 - 页 2111 1...210421052106210721082109211021112112211321142115211621172118...3399 新评论 Aleksei Kuznetsov 2020.11.12 12:55 #21101 Aleksey Vyazmikin: 不，这将是一个合适的只是，而不是一个有意义的模型! 我不同意。通过量化，你减少了信息量。最大的量化数量将留下最大的信息量。 但量化到65535比量化到255需要更长的时间。 Aleksey Vyazmikin 2020.11.12 12:56 #21102 elibrarius: 你知道怎么做吗？ 是的，我正在做这个工作--它最初是为遗传树做的。 你需要评估信息在整个样本中的分布以及它与目标的关系。我看的是某个量化部分的误差是如何减少的，以及它所包含的样本百分比是多少--平衡这些指标可以选择最佳分区。 Aleksey Vyazmikin 2020.11.12 12:58 #21103 elibrarius: 我不同意。通过量化，你减少了信息量。最大数量的量化将留下最大数量的信息。但量化到65535比量化到255需要更长的时间。 你不同意应该是错误的--外面的信息不多，需要把它从噪音中分离出来。我们（我）需要的是稳定的依赖关系，而不是每5年重复出现的依赖关系，因此没有足够的统计数据来估计它们对特定目标的倾向性，使用不充分的例子只会导致拟合。 Aleksei Kuznetsov 2020.11.12 13:04 #21104 Aleksey Vyazmikin: 是的，我正在做这个工作--它最初是为遗传树做的。 你需要评估信息在整个样本中的分布以及它与目标的关系。我看的是 在某一段量化中误差如何减少 ，以及它所包含的样本百分比是多少--平衡这些指标可以让你选择最佳分区。 你如何估计量化的误差。你只能通过运行训练，并通过所有的列一次性获得，而不是每列量化的时刻。 Aleksey Vyazmikin 2020.11.12 13:05 #21105 elibrarius: Aleksey Vyazmikin: 你如何估计量化的误差。它只能通过在所有列上一次性运行训练来获得，而不是在当前量化的每一列上。 我估计了相对于整个样本的目标余额的变化。如果有两个以上的目标，这一点尤其重要。 Aleksei Kuznetsov 2020.11.12 13:15 #21106 Aleksey Vyazmikin: 我估计了相对于整个样本来说，目标的余额变化。如果有两个以上的目标，情况尤其如此。 在任何情况下，接下来的分裂将通过量化点分裂成2个部分。 你可以相当粗略地移动一个量子的边界--其大小的5-10%-20%--通过量化大的255块。通过应用65535量子，你将有一个0.5%的量子的步骤。而树会挑选出最好的一个。 不过不太可能。通常情况下，它只是击中了中间或四分之一。用65535个量子，你会更准确地找到中间，用255个量子则是256倍的粗糙。 Aleksey Vyazmikin 2020.11.12 13:30 #21107 elibrarius: 在任何情况下，接下来的分裂将通过量化点分裂成2块。你可以相当粗略地移动一个量子的边界--其大小的5-10-20%--通过量化大的255块。通过应用65535量子，你将有一个0.5%的量子的步骤。而树会挑选出最好的一个。 不过不太可能。通常情况下，它只是击中了中间或四分之一。用65535个量子会更准确地找到中间，用255个量子则是256倍的粗糙。 确切地说，会有分裂，但分裂不会是50%，而是不平等的--取决于与上层分裂的对应关系，但从逻辑上看，如果你看哪里的单位饱和，或者哪里的单位数量相等（相对于整个样本的平衡），机会就会不同。目标是获得至少1%的叶子中的样本，同时获得约65%的同一类别的标签。 Aleksei Kuznetsov 2020.11.12 13:46 #21108 Aleksey Vyazmikin: 确切地说，会有分裂，但分裂不会是50%，而是不均匀的--取决于与顶部分裂的对应关系（），但从逻辑上看，如果你在单位饱和的部分 或有偶数的部分（相对于整个样本的平衡）进行搜索，机会会有所不同。目标是获得至少1%的样本的叶子，同时获得约65%的同一类别的标签。我认为这是一个相当困难的任务。而如果能找到这样的功能，即使没有MO，也是唯一的工作方法。不幸的是，我们没有这样的功能。 Aleksey Vyazmikin 2020.11.12 14:00 #21109 Maxim Dmitrievsky: 我在考试中不需要它，但它可能会派上用场。 结果很奇怪--在测试和训练样本中，召回率为0.6-0.8，在没有转换的考试中，召回率为0.009，转换率为0.65--这里出了问题:( 我有一种感觉，CatBoost已经学会了转换算法 :) 还有，是否有机会标明新旧两条线？然后可以从转换后的样本中删除转换后的 字符串，看看是否是解释的问题，还是没有定性的训练都一样。 Aleksey Vyazmikin 2020.11.12 14:10 #21110 elibrarius: 我认为这是一个相当大的挑战。而如果能找到这样的功能，即使没有国防部，也是唯一可行的办法。不幸的是，我们没有这样的功能。 由y是网格分割，由X是整个样本中每个类别的目标之和的百分比偏差。过滤器是5%。我们可以看到，不同的班级在不同的部分占主导地位，有时会出现镜像变化，改善是由于某个班级的原因（直方图到了负数的位置），有时则没有。所有这些都应该在训练中使用，但我所知的标准训练方法并没有很好地考虑到这一点。有可能用遗传学的方法进行过度训练（更准确地说是用消除法）会更有效--应该这样做。 1...210421052106210721082109211021112112211321142115211621172118...3399 新评论 您错过了交易机会： 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符（不带空格） 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号，请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置，否则您将无法登录。 忘记您的登录名/密码？ 使用 Google 登录
不，这将是一个合适的只是，而不是一个有意义的模型!
我不同意。通过量化，你减少了信息量。最大的量化数量将留下最大的信息量。
但量化到65535比量化到255需要更长的时间。
你知道怎么做吗？
是的，我正在做这个工作--它最初是为遗传树做的。
你需要评估信息在整个样本中的分布以及它与目标的关系。我看的是某个量化部分的误差是如何减少的，以及它所包含的样本百分比是多少--平衡这些指标可以选择最佳分区。
你不同意应该是错误的--外面的信息不多，需要把它从噪音中分离出来。我们（我）需要的是稳定的依赖关系，而不是每5年重复出现的依赖关系，因此没有足够的统计数据来估计它们对特定目标的倾向性，使用不充分的例子只会导致拟合。
你如何估计量化的误差。你只能通过运行训练，并通过所有的列一次性获得，而不是每列量化的时刻。
我估计了相对于整个样本的目标余额的变化。如果有两个以上的目标，这一点尤其重要。
在任何情况下，接下来的分裂将通过量化点分裂成2个部分。
你可以相当粗略地移动一个量子的边界--其大小的5-10%-20%--通过量化大的255块。通过应用65535量子，你将有一个0.5%的量子的步骤。而树会挑选出最好的一个。
不过不太可能。通常情况下，它只是击中了中间或四分之一。用65535个量子，你会更准确地找到中间，用255个量子则是256倍的粗糙。
确切地说，会有分裂，但分裂不会是50%，而是不平等的--取决于与上层分裂的对应关系，但从逻辑上看，如果你看哪里的单位饱和，或者哪里的单位数量相等（相对于整个样本的平衡），机会就会不同。目标是获得至少1%的叶子中的样本，同时获得约65%的同一类别的标签。
我认为这是一个相当困难的任务。
而如果能找到这样的功能，即使没有MO，也是唯一的工作方法。
不幸的是，我们没有这样的功能。
我在考试中不需要它，但它可能会派上用场。
结果很奇怪--在测试和训练样本中，召回率为0.6-0.8，在没有转换的考试中，召回率为0.009，转换率为0.65--这里出了问题:(
我有一种感觉，CatBoost已经学会了转换算法 :)
还有，是否有机会标明新旧两条线？然后可以从转换后的样本中删除转换后的 字符串，看看是否是解释的问题，还是没有定性的训练都一样。
由y是网格分割，由X是整个样本中每个类别的目标之和的百分比偏差。过滤器是5%。我们可以看到，不同的班级在不同的部分占主导地位，有时会出现镜像变化，改善是由于某个班级的原因（直方图到了负数的位置），有时则没有。所有这些都应该在训练中使用，但我所知的标准训练方法并没有很好地考虑到这一点。有可能用遗传学的方法进行过度训练（更准确地说是用消除法）会更有效--应该这样做。