交易中的机器学习:理论、模型、实践和算法交易 - 页 2878

 
Maxim Dmitrievsky #:

很明显,我们可以尝试使用哈希函数。但我想问的是,选择任意长度的矢量,或者说选择它们的长度:),以及从哪些数据中选择矢量的原则 是什么。

可能有很多变体

第一种方法更容易接受,但你需要在逻辑中加入一些东西

这是一个非常重要的问题,我一直在思考这个问题)让我们来谈谈所用历史记录的长度。你需要在相关性和计算长度之间找到一个合理的折中。越短,相关性越强,但越长,计算就越精确。有时,一个好的折衷方案在原则上是无法实现的。

 
Maxim Dmitrievsky #:

干得好,在改变窗口长度的背景下,我自己也发现了一些有趣的东西。

如果您还有其他问题,请勾画出来,我将在新年后向您请教。

好的,祝大家新年快乐!)

 
Aleksey Nikolayev #:

祝大家新年快乐)

同样:)

 

我不太清楚你从 GPT 对话中得到了什么。

他有时会答非所问。下面是一个例子

В идеале, алгоритм должен получать на вход всю доступную историю, которая очевидно со временем растёт. Он сам должен определять на какие куски её нарезать и что с ними делать.

*是的,理想情况下,算法应该能够处理任何数量的特征

你问的是改变 的长度,他回答的是改变列的长度。

实际上,可以通过重新训练模型来改变历史记录的长度。例如,在 1 天、3 天、7 天、1 个月、2 个月......上进行训练。在 1 年、2 年、3 年......无论哪种长度的历史记录都能很好地预测结果--使用它。
 
Aleksey Nikolayev #:

这是一个非常重要的问题,我一直在思考这个问题)让我们来谈谈所用历史记录的长度。计算的相关性和长度之间应该有一个合理的折衷。越短,相关性越强,但越长,计算就越精确。有时,一个好的折衷方案在原则上是无法实现的。

我很久以前也想过这个问题,我认为这是建立工作 TS 的最重要时刻之一。就我自己而言,我使用这种方法--在已知的大历史上粗略分析金融资产的一些特征,找到变化趋势的坐标--趋势、波动率等,然后从最后一个变化点开始计算,假设这一总体特征将保持一段时间。

 
elibrarius 行的长度,他回答的是改变列的长度。
实际上,可以通过重新训练模型来改变历史记录的长度。例如,在 1 天、3 天、7 天、1 个月、2 个月......上进行训练。在 1 年、2 年、3 年......无论哪种长度的历史记录都能很好地预测结果--使用该长度。

列的问题还没有讨论过--还很遥远。造成混淆的原因是,我们没有说标志就是价格(柱状图、renko 等)。也就是说,我们讨论的是同质属性向量的任意长度。如果除了属性向量的任意长度外,我们还想要任意类型的属性,这显然已经是矫枉过正了。

 
Aleksey Nikolayev #:

问题是,SB 很擅长让人觉得有规则可循--唯一的问题是,不同的网站会有不同的规则。

因此,仔细想想,这并不是一个任意特征数量的问题,而是一个特征不变性的问题。

https://homes.esat.kuleuven.be/~tuytelaa/tutorial-ECCV06.pdf
 
Aleksey Nikolayev #:

这是一个非常重要的问题,我一直在思考这个问题)让我们来谈谈所用历史记录的长度。计算的相关性和长度之间应该有一个合理的折衷。越短,相关性越强,但越长,计算就越精确。有时,一个好的折衷方案在原则上是无法实现的。

你需要一个标准,而唯一的标准就是模型拟合误差。

下面是一张图片


这是一个包含 2000 个条形图、43 个变量的样本。我们可以看到,增加超过 100 棵树的数量是没有意义的。我改变了样本量。结果是图片在 1500 条以上没有变化。这意味着,我的老师的预测因子中的模式数量约为 100 个,它们都可以在 1500 条历史数据中找到。而且这些模式是重复出现的。

 
mytarmailS #:

那么仔细想想,这就不是一个任意特征数量的问题,而是一个特征不变性的问题。

https://homes.esat.kuleuven.be/~tuytelaa/tutorial-ECCV06.pdf

如果把它比作图片识别,那么大致上就是为每个点找到该点所在物体(blob)的边界。

问题是,图片的质量极差,而且图片上的实际内容也不太清楚。

在这种情况下,选择一个小的物体是不现实的,而选择一个大的物体则是模棱两可的。

 
СанСаныч Фоменко #:

你需要一个标准,而唯一的标准就是模型拟合误差。

下面是一张图片


这是一个包含 2000 个条形图、43 个变量的样本。我们可以看到,增加超过 100 棵树的数量是没有意义的。我改变了样本大小。结果是,超过 1500 个条形图就没有变化了。这意味着,我的教师预测因子中的模式数量约为 100 个,而这些模式都可以在 1500 条历史数据中找到。而且这些模式是重复出现的。

1500 条是医院的平均温度。会有断点,当一半的历史截然不同时,最好不要计算和交易任何东西。