交易中的机器学习:理论、模型、实践和算法交易 - 页 2739

 
mytarmailS #:
阿列克谢,这是一项常规搜索任务,就像你喜欢的那样,有什么问题吗?

脚本到底能不能做到?

我只是想知道,这里有多少人很容易失去谈话的主线。

 

我可以发布一个包含大量预测因子的样本,谁能选出最好的预测因子--干得好--我们就来比一比。

在对所选预测因子进行模型训练后,将在独立样本上确定最佳预测因子。

有人想参加吗,还是他们都是口口相传的能手?

 

主题过于笼统。经常被分解成各个部分。早就应该分成多个主题。例如1.MO:数据预处理。2.MO 模型选择。3.MO.模型训练和优化4.MO.模型的实施5. MO.IO 自动化。

虽然划分的范围很大,也很近似,但分支的内容还是一目了然的。因此,什么都有,什么都没有。

当然 有必要给出可重现的代码示例,否则 会谈 没有实际意义

祝大家好运

 
Aleksey Vyazmikin #:

那么,剧本到底做不做?

我只是很惊讶,这里的很多人都很容易失去话题的主线。

阿列克谢,你要求举例说明如何用滑动窗口来观察标志的重要性。

我为你写了一个脚本。

然后你又想用不同的比例或其他方式进行搜索,凭什么过去的脚本就能满足你未来的愿望?

所以,我只是很惊讶这里有这么多人轻易地就失去了谈话的主线。 这就是你。

 
Vladimir Perervenko #:

主题过于笼统。经常被分解成各个部分。早就应该分成多个主题。例如1.MO:数据预处理。2.MO 模型选择。3.MO.模型训练和优化4.MO.模型的实施5.MO.MOE 自动化

分部很大,也很近似,但分部的内容一目了然。因此,什么都有,什么都没有。

当然 有必要给出可重现的代码示例,否则 会谈 没有实际意义

祝大家好运

相反,我们应该按照我们解决的任务来划分,但这太个性化了......

例如,在预处理主题中,如果一个人在整个样本上预测 ZZ,而另一个人则使用 MO 从所有数据中选择 10-20 个聚类来满足某些需求,那么两个人将无法找到共同点....。等等...

同样的狗屎也会存在,但在主题上会更加模糊不清
 
Valeriy Yastremskiy #:

当然,SSF 并没有说太多新东西,寻找预测因子与结果之间的相关性是一个显而易见的目标。我唯一发现的新情况是,他在整个训练中发现了约 200 个重要特征,但在具体数据中,他只使用了其中的 5%。

我的理解是,有一些方法可以快速确定序列的状态/属性,以便仅针对最新数据选择更重要的预测因子。当然,要进行适当的选择,还需要考虑数量或长度的问题。但显然,即使在整个大型训练中只找到并选择了 200 个预测因子,它也是有效的。

我是这么 的。一个序列的属性在某些指数上是稳定的,但这些指数及其数量在不同部分是不同的。数学模型可以找到序列稳定持续时间足够长的一些不同状态,这些状态可以用不同的模型和相应的模型设置--预测因子--来描述。预测因子的总数就是不同模型设置的总数,因此,通过定义一个模型,可以快速找到以前找到的模型设置。


我曾经在这个主题中发布过一个表格,但现在手头没有了,所以我将用文字来说明我的想法。

我所依据的概念是预测因子与教师的相关性。"联系 "并不是指预测因子的相关性或 "重要性",而是指预测因子与几乎所有 MOE 模型的拟合程度。后者反映了预测因子在算法中的使用频率,因此土星环或咖啡渣的 "重要性 "值可能会很大。例如,有一些软件包可以让你根据信息论计算预测因子与教师之间的 "联系"。

因此,我想谈谈我在这里发布的表格。

该表包含对每个预测因子与教师之间 "联系 "的数值估计。随着窗口的移动,得到了几百个 "联系 "值。某个预测因子的这些值各不相同。我计算了每个 "联系 "的平均值和均方根值,这样就可以

- 隔离 "连接 "值过小的预测因子--噪音;

- 分离出 "联系 "值变化过大的预测因子。我们可以找到 "耦合 "值足够大且 sd 小于 10%的预测因子。


再次,基于 MO 构建 TC 的问题在于找到 "耦合 "值大、窗口移动时 sd 值小的预测因子。我认为,这样的预测因子将确保未来预测误差的稳定性。


这不是我第一次这么说。不幸的是,讨论不断陷入噪音和自恋。

 
mytarmailS #:

阿列克谢,你要求举例说明如何使用滑动窗口查看特征重要性。

我为你写了一个脚本...

那你想用不同的尺度或任何你想要的方式进行搜索,凭什么过去的脚本就能满足你未来的愿望?

所以,我只是很惊讶,这里有那么多人很容易就失去了谈话的主线。 这就是你。

怎么说呢,我要求制作一个脚本--是的,我引述:"你能否用 R 语言制作一个脚本,用于计算我的样本--我会为了实验而运行它。实验应揭示最佳样本量。",但这是对已经做过的事情的回应。

早些时候我写道"...你打算如何观察动态,如何实现?" - 我在这里问的是在动态中实现预测估计,即通过某个窗口进行定期估计,但不清楚是在每个新样本时还是在每 n 个样本后设置窗口。如果这就是你所做的,那我就不明白了。

你发布的代码很棒,但我很难理解它的具体做法或本质证明,所以我开始提出更多问题。这两张带图的图片是什么意思?

 
СанСаныч Фоменко #:

我曾在这个主题中发布过一个表格,但现在不在手边,所以我想用文字来说明我的想法。

我依据的是预测因子与教师相关性的概念。"关联 "并不是指预测因子的相关性或 "重要性",而是指几乎所有 MOE 模型的拟合结果。后者反映了预测因子在算法中的使用频率,因此土星环或咖啡渣的 "重要性 "值可能会很大。有一些软件包可以计算预测因子与教师之间的 "联系",例如基于信息论的 "联系"。

因此,我想谈谈我在这里发布的表格。

该表包含每个预测因子与教师之间 "联系 "的数值估计。随着窗口的移动,得到了几百个 "联系 "值。某个预测因子的这些值各不相同。我计算了每个 "联系 "的平均值和均方根值,从而得出了以下结果

- 隔离 "连接 "过小的预测因子 - 噪音;

- 分离出 "连接 "值变化过大的预测因子。可以找到 "联系 "值足够大且 sd 小于 10%的预测因子。


再次,基于 MO 构建 TC 的问题在于找到在窗口移动时 "联系 "值大而 sd 值小的预测因子。我认为,这样的预测因子将确保未来预测误差的稳定性。


这不是我第一次说上面的话。遗憾的是,讨论不断陷入噪音和自恋。

所以,从本质上讲,你和我的方法是一样的,好奇!只是,也许我们寻找 "联系 "的方式不同。作为窗口,我取 10 个样本图,在上面搜索 "联系",你是怎么做的?

您寻找联系的算法是什么,能描述一下吗?

 
СанСаныч Фоменко #:


这不是我第一次说上述的话。不幸的是,讨论不断陷入噪音和自恋。

是的,真正的讨论是在背景(有节制的词)上呈现最 "镖客 "的 "镖客":-)

这一切都源于没有任何结果。您可以改进和改变方法,但结果就像一块 50/50 的石头。

 
Aleksey Vyazmikin #:

所以,你和我的方法本质上是一样的,好奇!只是我们寻找 "联系 "的方式可能不同。作为窗口,我抽取了 10 个样本图,在上面寻找 "联系",您是怎么做的呢?

您寻找连接的算法是什么,能描述一下吗?

我使用自己的算法--它比许多 R 库都要快得多。例如

库("熵)

你可以直接使用图形:



所有内容都已在本主题中发布。在弗拉基米尔-佩列文科(Vladimir Perervenko)的文章中,对所有内容都进行了系统的描述和代码层面的分析。

原因: