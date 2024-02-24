交易中的机器学习：理论、模型、实践和算法交易 - 页 2648 1...264126422643264426452646264726482649265026512652265326542655...3399 新评论 mytarmailS 2022.05.25 13:42 #26471 Aleksey Nikolayev #:我认为，如何处理已识别的方框是一个复杂的问题，很难对所有可能的情况都有清晰明确的规则。一个好的、经过深思熟虑的算法可能是相当隐秘的 "诀窍"）。如果案例是根据同一组预测因子得到的，那么它们之间没有交集就足够了。如果有交集，则可以将其分配到一个单独的盒子中，其补集也可以分成几个盒子。但是，盒子数量过多会使样本过于分散。因此，我们可以概括方框的概念--在规则语言中，这意味着在 AND 的基础上增加否定 和 OR。如果方框是在完全不同的预测因子上得到的（例如，通过随机森林方法），那么它们只能在样本中属于它们的部分的意义上重叠。这里可能需要一些近似组合的想法。如果预测因子集有部分重叠，那么就一定存在某种混合方法，这一点很难确定。我不清楚如何将其归入一个统一的方案。 构建决策树的标准方法简单而 "漂亮 "地规避了这些问题， 因此不太适合我们的目的。也许可以通过选择一种剪枝算法来改进它，但我认为最好还是创造性地重新设计规则构建算法。 最聪明的结论... 开箱即用的算法只有近似规则，也就是愚蠢至极的规则，比如 x[1]>0.5 && x[3]> -0.2 &... 它们只有变量（矩阵或框架 X1.....X10 的列）和抽象的边界（数字 X[1]>0.5），这是他自己在学习在类中创建边界的过程中发明的。 那么微不足道的 X1> X2 或 X1 !> X2 的否定。 那么X1> (X2*X3) 呢？ 与指数绑定，这在非平稳市场上行不通吗？ 我指的是这样的表达：如果有"A " 而没有 "B"，那么就是"C"。 但这并不适合于开箱即用的算法。 在市场中，我们关心的是罕见事件，所以我们需要的是规则的数量，而不是规则的数量。 Machine learning in trading: Algorithm Optimisation Championship. 算法优化锦标赛。 mytarmailS 2022.05.25 14:35 #26472 我想知道降维 算法是如何看待有归一化和无归一化 的不同数据类型的样本的。 例如，数据类型有字符串和数字。 q1 q2 1 c -1.630015623 2 c 1.781979246 3 b -0.598134088 4 a -0.611477494 5 b -0.347432530 6 b -0.474427356 7 e -1.048827859 ..... 我首先将 q1 转换为数字。 q1 q2 1 3 -1.630015623 2 3 1.781979246 3 2 -0.598134088 4 1 -0.611477494 5 2 -0.347432530 6 2 -0.474427356 7 5 -1.048827859 .... 完成 现在我们将其发送给 UMAP 算法，并得到特征向量。 [,1] [,2] [1,] 6.762433406 9.08787260 [2,] -21.488330368 10.67183802 [3,] 6.810413818 9.35273386 [4,] -20.950310976 15.20258097 [5,] 32.100723691 -9.74704393 [6,] 6.892939805 16.84639975 [7,] -17.096480607 -6.63144430 将点可视化 我们得到了漂亮的虫子 )) 让我们尝试用变量q1 给点着色。 我们可以看到，变量q1 创造了这些 "蠕虫 "的结构，它将重要程度拉到了自己身上，减少了 变量 q2 的贡献。 这是因为变量 q1 的值很大，而且数据没有归一化。 如果我们对数据进行归一化处理，每个变量的贡献将相同，我们将得到 我知道对某些参与者来说，这是显而易见的事情，我们需要归一化等等等等、 但你有没有想过，通过增加或减少变量的贡献，你可以控制聚类？ PapaYozh 2022.05.25 14:39 #26473 mytarmailS #:直观 看起来像寄生虫） [删除] 2022.05.25 15:41 #26474 mytarmailS #:但你有没有想过，通过增加或减少变量的贡献度，可以控制聚类？ 是的，故意高估或低估重要性。但这是一门艺术，很难分析。 价格的非平稳性加剧了这种情况，我一直在与这种迹象作斗争：如果改变规模或归一化，训练模型的属性就会改变。 mytarmailS 2022.05.25 16:04 #26475 Maxim Dmitrievsky #: 对于非稳态价格，我与各种迹象交战已久。 我们都在与之斗争。 Aleksei Kuznetsov 2022.05.25 16:35 #26476 mytarmailS 降维 算法是如何看待有归一化和无归一化 的不同数据类型样本的。 例如，有数据类型、字符串类型和数字类型。我首先将 q1 转换为数字 最好将字符串转换为分类形式，而不是数字形式。当然，如果你的 UMAP 可以处理它们的话。 a=1 和 e=5 并没有 5 倍的差异，它们只是不同而已，就像温暖和柔软。而通过数字化，你让它们变得越来越温暖。 mytarmailS 2022.05.25 17:09 #26477 elibrarius #:a=1 和 e=5 并没有五倍的差别，它们只是不同而已、 嗯，是的，你说得太对了，我太笨了。你得做个一热转换什么的。 Aleksey Vyazmikin 2022.05.25 18:02 #26478 Aleksey Nikolayev #:我认为，如何处理已识别的方框是一个复杂的问题，很难对所有可能的情况都有清晰明确的规则。一个好的、经过深思熟虑的算法可能是相当隐秘的 "诀窍"）。如果案例是根据同一组预测因子得到的，那么它们之间没有交集就足够了。如果有交集，则可以将其分配到一个单独的盒子中，其补集也可以分成几个盒子。但是，盒子数量过多会使样本过于分散。因此，我们可以概括方框的概念--在规则语言中，这意味着在 AND 的基础上增加否定和 OR。如果方框是在完全不同的预测因子上得到的（例如，通过随机森林方法），那么它们只能在样本中属于它们的部分的意义上重叠。这里可能需要一些近似组合的想法。如果预测因子集有部分重叠，那么就一定存在某种混合方法，这一点很难确定。我不清楚如何将其归入一个统一的方案。构建决策树的标准方法简单而 "漂亮 "地规避了这些问题，因此不太适合我们的目的。也许可以通过选择一种剪枝算法来改进它，但我认为最好还是创造性地重新设计规则构建算法。 在不了解细节的情况下，很难对逻辑进行修改。 我个人并不了解方框的额外 2 个坐标（2 - 量子边界）是什么意思--我以为是样本修剪。 我只是想寻找一些有用的东西来发展我的方法。我也有粘合 "盒子 "的方法，但算法并不完美。 Aleksey Nikolayev 2022.05.25 21:22 #26479 Aleksey Vyazmikin #:就是这样，不了解细节就很难改变逻辑。我个人并不理解方框的额外 2 个坐标（2 - 量子边界）是什么意思，我以为是样本修剪。我只是在寻找对我的方法有用的东西。我也有粘合 "盒子 "的方法，但算法并不完美。 如果你是在专门讨论 PRIM，那么我的链接只是举了一个例子，说明它是如何在两个预测因子 x1 和 x2 的情况下工作的。相应地，一个形式为 (a1<x1<b1)&(a2<x2<b2) 的框被选中。框外的东西显然被认为与框内的东西属于不同的类别。有人试图用一个简单的例子来说明算法 的本质 --每一步都从盒子里切掉一小块（剥离）。至于切掉哪一块，以及通过哪个预测因子，则要根据 "轨迹 "步骤的最优条件来选择。 我对这种算法很感兴趣，因为它是一个例子，说明了如何可以而且应该根据自己的需要修改用于建立规则（求解树）的标准算法。 Aleksey Vyazmikin 2022.05.25 22:10 #26480 Aleksey Nikolayev #:如果您是在具体讨论 PRIM，我的链接刚刚给出了一个例子，说明它如何在两个预测因子 x1 和 x2 的情况下工作。相应地，一个形式为 (a1<x1<b1)&(a2<x2<b2) 的方框被选中。框外的东西显然被认为与框内的东西属于不同的类别。有人试图用一个简单的例子来说明算法 的本质 --每一步都从盒子里切掉一小块（剥离）。从 "轨迹 "步骤的最优化条件中选择切掉哪一块以及用哪个预测器来预测。我对这种算法很感兴趣，因为它是一个例子，说明了如何可以而且应该根据自己的需要修改用于建立规则（求解树）的标准算法。 你能想明白就好--我一开始也不明白，谢谢你的解释。 不过，后来发现第一阶段的算法应该找到能更好地分隔成箱的预测因子对，然后对它们进行 "剥离"。 1...264126422643264426452646264726482649265026512652265326542655...3399 新评论 您错过了交易机会： 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符（不带空格） 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号，请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置，否则您将无法登录。 忘记您的登录名/密码？ 使用 Google 登录
我认为，如何处理已识别的方框是一个复杂的问题，很难对所有可能的情况都有清晰明确的规则。一个好的、经过深思熟虑的算法可能是相当隐秘的 "诀窍"）。
如果案例是根据同一组预测因子得到的，那么它们之间没有交集就足够了。如果有交集，则可以将其分配到一个单独的盒子中，其补集也可以分成几个盒子。但是，盒子数量过多会使样本过于分散。因此，我们可以概括方框的概念--在规则语言中，这意味着在 AND 的基础上增加否定 和 OR。
如果方框是在完全不同的预测因子上得到的（例如，通过随机森林方法），那么它们只能在样本中属于它们的部分的意义上重叠。这里可能需要一些近似组合的想法。
如果预测因子集有部分重叠，那么就一定存在某种混合方法，这一点很难确定。
我不清楚如何将其归入一个统一的方案。 构建决策树的标准方法简单而 "漂亮 "地规避了这些问题， 因此不太适合我们的目的。也许可以通过选择一种剪枝算法来改进它，但我认为最好还是创造性地重新设计规则构建算法。
开箱即用的算法只有近似规则，也就是愚蠢至极的规则，比如
x[1]>0.5 && x[3]> -0.2 &...
它们只有变量（矩阵或框架 X1.....X10 的列）和抽象的边界（数字 X[1]>0.5），这是他自己在学习在类中创建边界的过程中发明的。
那么微不足道的 X1> X2
或 X1 !> X2 的否定。
那么X1> (X2*X3) 呢？
与指数绑定，这在非平稳市场上行不通吗？
我指的是这样的表达：如果有"A " 而没有 "B"，那么就是"C"。
但这并不适合于开箱即用的算法。
在市场中，我们关心的是罕见事件，所以我们需要的是规则的数量，而不是规则的数量。
我想知道降维 算法是如何看待有归一化和无归一化 的不同数据类型的样本的。
例如，数据类型有字符串和数字。
我首先将 q1 转换为数字。
现在我们将其发送给 UMAP 算法，并得到特征向量。
让我们尝试用变量q1 给点着色。
我们可以看到，变量q1 创造了这些 "蠕虫 "的结构，它将重要程度拉到了自己身上，减少了 变量 q2 的贡献。
这是因为变量 q1 的值很大，而且数据没有归一化。
如果我们对数据进行归一化处理，每个变量的贡献将相同，我们将得到
我知道对某些参与者来说，这是显而易见的事情，我们需要归一化等等等等、
但你有没有想过，通过增加或减少变量的贡献，你可以控制聚类？
对于非稳态价格，我与各种迹象交战已久。
最好将字符串转换为分类形式，而不是数字形式。当然，如果你的 UMAP 可以处理它们的话。
a=1 和 e=5 并没有 5 倍的差异，它们只是不同而已，就像温暖和柔软。而通过数字化，你让它们变得越来越温暖。
在不了解细节的情况下，很难对逻辑进行修改。
我个人并不了解方框的额外 2 个坐标（2 - 量子边界）是什么意思--我以为是样本修剪。
我只是想寻找一些有用的东西来发展我的方法。我也有粘合 "盒子 "的方法，但算法并不完美。
如果你是在专门讨论 PRIM，那么我的链接只是举了一个例子，说明它是如何在两个预测因子 x1 和 x2 的情况下工作的。相应地，一个形式为 (a1<x1<b1)&(a2<x2<b2) 的框被选中。框外的东西显然被认为与框内的东西属于不同的类别。有人试图用一个简单的例子来说明算法 的本质 --每一步都从盒子里切掉一小块（剥离）。至于切掉哪一块，以及通过哪个预测因子，则要根据 "轨迹 "步骤的最优条件来选择。
我对这种算法很感兴趣，因为它是一个例子，说明了如何可以而且应该根据自己的需要修改用于建立规则（求解树）的标准算法。
你能想明白就好--我一开始也不明白，谢谢你的解释。
不过，后来发现第一阶段的算法应该找到能更好地分隔成箱的预测因子对，然后对它们进行 "剥离"。