交易中的机器学习：理论、模型、实践和算法交易

Aleksey Vyazmikin 2022.09.09 10:59 #27381

mytarmailS #:
阿列克谢，这是一项常规搜索任务，就像你喜欢的那样，有什么问题吗？

脚本到底能不能做到？

我只是想知道，这里有多少人很容易失去谈话的主线。

Aleksey Vyazmikin 2022.09.09 11:10 #27382

我可以发布一个包含大量预测因子的样本，谁能选出最好的预测因子--干得好--我们就来比一比。

在对所选预测因子进行模型训练后，将在独立样本上确定最佳预测因子。

有人想参加吗，还是他们都是口口相传的能手？

Vladimir Perervenko 2022.09.09 11:11 #27383

主题过于笼统。经常被分解成各个部分。早就应该分成多个主题。例如1.MO：数据预处理。2.MO 模型选择。3.MO.模型训练和优化4.MO.模型的实施5. MO.IO 自动化。

虽然划分的范围很大，也很近似，但分支的内容还是一目了然的。因此，什么都有，什么都没有。

当然，有必要给出可重现的代码示例，否则会谈就没有实际意义。

祝大家好运

mytarmailS 2022.09.09 11:24 #27384

Aleksey Vyazmikin #:

那么，剧本到底做不做？

我只是很惊讶，这里的很多人都很容易失去话题的主线。

阿列克谢，你要求举例说明如何用滑动窗口来观察标志的重要性。

我为你写了一个脚本。

然后你又想用不同的比例或其他方式进行搜索，凭什么过去的脚本就能满足你未来的愿望？

所以，我只是很惊讶这里有这么多人轻易地就失去了谈话的主线。 这就是你。

mytarmailS 2022.09.09 11:33 #27385

Vladimir Perervenko #:

主题过于笼统。经常被分解成各个部分。早就应该分成多个主题。例如1.MO：数据预处理。2.MO 模型选择。3.MO.模型训练和优化4.MO.模型的实施5.MO.MOE 自动化

分部很大，也很近似，但分部的内容一目了然。因此，什么都有，什么都没有。

当然，有必要给出可重现的代码示例，否则会谈就没有实际意义。

祝大家好运

相反，我们应该按照我们解决的任务来划分，但这太个性化了......

例如，在预处理主题中，如果一个人在整个样本上预测 ZZ，而另一个人则使用 MO 从所有数据中选择 10-20 个聚类来满足某些需求，那么两个人将无法找到共同点....。等等...

同样的狗屎也会存在，但在主题上会更加模糊不清

СанСаныч Фоменко 2022.09.09 11:35 #27386

Valeriy Yastremskiy #:

当然，SSF 并没有说太多新东西，寻找预测因子与结果之间的相关性是一个显而易见的目标。我唯一发现的新情况是，他在整个训练中发现了约 200 个重要特征，但在具体数据中，他只使用了其中的 5%。

我的理解是，有一些方法可以快速确定序列的状态/属性，以便仅针对最新数据选择更重要的预测因子。当然，要进行适当的选择，还需要考虑数量或长度的问题。但显然，即使在整个大型训练中只找到并选择了 200 个预测因子，它也是有效的。

我是这么看的。一个序列的属性在某些指数上是稳定的，但这些指数及其数量在不同部分是不同的。数学模型可以找到序列稳定持续时间足够长的一些不同状态，这些状态可以用不同的模型和相应的模型设置--预测因子--来描述。预测因子的总数就是不同模型设置的总数，因此，通过定义一个模型，可以快速找到以前找到的模型设置。

我曾经在这个主题中发布过一个表格，但现在手头没有了，所以我将用文字来说明我的想法。

我所依据的概念是预测因子与教师的相关性。"联系 "并不是指预测因子的相关性或 "重要性"，而是指预测因子与几乎所有 MOE 模型的拟合程度。后者反映了预测因子在算法中的使用频率，因此土星环或咖啡渣的 "重要性 "值可能会很大。例如，有一些软件包可以让你根据信息论计算预测因子与教师之间的 "联系"。

因此，我想谈谈我在这里发布的表格。

该表包含对每个预测因子与教师之间 "联系 "的数值估计。随着窗口的移动，得到了几百个 "联系 "值。某个预测因子的这些值各不相同。我计算了每个 "联系 "的平均值和均方根值，这样就可以

- 隔离 "连接 "值过小的预测因子--噪音；

- 分离出 "联系 "值变化过大的预测因子。我们可以找到 "耦合 "值足够大且 sd 小于 10%的预测因子。

再次，基于 MO 构建 TC 的问题在于找到 "耦合 "值大、窗口移动时 sd 值小的预测因子。我认为，这样的预测因子将确保未来预测误差的稳定性。

这不是我第一次这么说。不幸的是，讨论不断陷入噪音和自恋。

Aleksey Vyazmikin 2022.09.09 11:48 #27387

mytarmailS #:

阿列克谢，你要求举例说明如何使用滑动窗口查看特征重要性。

我为你写了一个脚本...

那你想用不同的尺度或任何你想要的方式进行搜索，凭什么过去的脚本就能满足你未来的愿望？

所以，我只是很惊讶，这里有那么多人很容易就失去了谈话的主线。 这就是你。

怎么说呢，我要求制作一个脚本--是的，我引述："你能否用 R 语言制作一个脚本，用于计算我的样本--我会为了实验而运行它。实验应揭示最佳样本量。"，但这是对已经做过的事情的回应。

早些时候我写道"...你打算如何观察动态，如何实现？" - 我在这里问的是在动态中实现预测估计，即通过某个窗口进行定期估计，但不清楚是在每个新样本时还是在每 n 个样本后设置窗口。如果这就是你所做的，那我就不明白了。

你发布的代码很棒，但我很难理解它的具体做法或本质证明，所以我开始提出更多问题。这两张带图的图片是什么意思？

Aleksey Vyazmikin 2022.09.09 11:53 #27388

СанСаныч Фоменко #:

我曾在这个主题中发布过一个表格，但现在不在手边，所以我想用文字来说明我的想法。

我依据的是预测因子与教师相关性的概念。"关联 "并不是指预测因子的相关性或 "重要性"，而是指几乎所有 MOE 模型的拟合结果。后者反映了预测因子在算法中的使用频率，因此土星环或咖啡渣的 "重要性 "值可能会很大。有一些软件包可以计算预测因子与教师之间的 "联系"，例如基于信息论的 "联系"。

因此，我想谈谈我在这里发布的表格。

该表包含每个预测因子与教师之间 "联系 "的数值估计。随着窗口的移动，得到了几百个 "联系 "值。某个预测因子的这些值各不相同。我计算了每个 "联系 "的平均值和均方根值，从而得出了以下结果

- 隔离 "连接 "过小的预测因子 - 噪音；

- 分离出 "连接 "值变化过大的预测因子。可以找到 "联系 "值足够大且 sd 小于 10%的预测因子。

再次，基于 MO 构建 TC 的问题在于找到在窗口移动时 "联系 "值大而 sd 值小的预测因子。我认为，这样的预测因子将确保未来预测误差的稳定性。

这不是我第一次说上面的话。遗憾的是，讨论不断陷入噪音和自恋。

所以，从本质上讲，你和我的方法是一样的，好奇！只是，也许我们寻找 "联系 "的方式不同。作为窗口，我取 10 个样本图，在上面搜索 "联系"，你是怎么做的？

您寻找联系的算法是什么，能描述一下吗？

Maxim Kuznetsov 2022.09.09 11:59 #27389

СанСаныч Фоменко #:

这不是我第一次说上述的话。不幸的是，讨论不断陷入噪音和自恋。

是的，真正的讨论是在背景（有节制的词）上呈现最 "镖客 "的 "镖客":-)

这一切都源于没有任何结果。您可以改进和改变方法，但结果就像一块 50/50 的石头。

СанСаныч Фоменко 2022.09.09 12:43 #27390

Aleksey Vyazmikin #:

所以，你和我的方法本质上是一样的，好奇！只是我们寻找 "联系 "的方式可能不同。作为窗口，我抽取了 10 个样本图，在上面寻找 "联系"，您是怎么做的呢？

您寻找连接的算法是什么，能描述一下吗？

我使用自己的算法--它比许多 R 库都要快得多。例如

库（"熵）

你可以直接使用图形：

所有内容都已在本主题中发布。在弗拉基米尔-佩列文科（Vladimir Perervenko）的文章中，对所有内容都进行了系统的描述和代码层面的分析。

交易中的机器学习：理论、模型、实践和算法交易 - 页 2739