交易中的机器学习：理论、模型、实践和算法交易

Aleksey Nikolayev 2022.12.30 21:08 #28771

Maxim Dmitrievsky #:

很明显，我们可以尝试使用哈希函数。但我想问的是，选择任意长度的矢量，或者说选择它们的长度:)，以及从哪些数据中选择矢量的原则是什么。

可能有很多变体

第一种方法更容易接受，但你需要在逻辑中加入一些东西

这是一个非常重要的问题，我一直在思考这个问题）让我们来谈谈所用历史记录的长度。你需要在相关性和计算长度之间找到一个合理的折中。越短，相关性越强，但越长，计算就越精确。有时，一个好的折衷方案在原则上是无法实现的。

Aleksey Nikolayev 2022.12.30 21:10 #28772

Maxim Dmitrievsky #:

干得好，在改变窗口长度的背景下，我自己也发现了一些有趣的东西。

如果您还有其他问题，请勾画出来，我将在新年后向您请教。

好的，祝大家新年快乐！)

[删除] 2022.12.30 21:10 #28773

Aleksey Nikolayev #:

祝大家新年快乐）

同样：)

Aleksei Kuznetsov 2022.12.30 21:29 #28774

我不太清楚你从 GPT 对话中得到了什么。

他有时会答非所问。下面是一个例子

В идеале, алгоритм должен получать на вход всю доступную историю, которая очевидно со временем растёт. Он сам должен определять на какие куски её нарезать и что с ними делать.

*是的，理想情况下，算法应该能够处理任何数量的特征

你问的是改变行的长度，他回答的是改变列的长度。

实际上，可以通过重新训练模型来改变历史记录的长度。例如，在 1 天、3 天、7 天、1 个月、2 个月......上进行训练。在 1 年、2 年、3 年......无论哪种长度的历史记录都能很好地预测结果--使用它。

sibirqk 2022.12.31 06:04 #28775

Aleksey Nikolayev #:

这是一个非常重要的问题，我一直在思考这个问题）让我们来谈谈所用历史记录的长度。计算的相关性和长度之间应该有一个合理的折衷。越短，相关性越强，但越长，计算就越精确。有时，一个好的折衷方案在原则上是无法实现的。

我很久以前也想过这个问题，我认为这是建立工作 TS 的最重要时刻之一。就我自己而言，我使用这种方法--在已知的大历史上粗略分析金融资产的一些特征，找到变化趋势的坐标--趋势、波动率等，然后从最后一个变化点开始计算，假设这一总体特征将保持一段时间。

Aleksey Nikolayev 2022.12.31 08:28 #28776

elibrarius 行的长度，他回答的是改变列的长度。
实际上，可以通过重新训练模型来改变历史记录的长度。例如，在 1 天、3 天、7 天、1 个月、2 个月......上进行训练。在 1 年、2 年、3 年......无论哪种长度的历史记录都能很好地预测结果--使用该长度。

列的问题还没有讨论过--还很遥远。造成混淆的原因是，我们没有说标志就是价格（柱状图、renko 等）。也就是说，我们讨论的是同质属性向量的任意长度。如果除了属性向量的任意长度外，我们还想要任意类型的属性，这显然已经是矫枉过正了。

mytarmailS 2022.12.31 09:05 #28777

Aleksey Nikolayev #:

问题是，SB 很擅长让人觉得有规则可循--唯一的问题是，不同的网站会有不同的规则。

因此，仔细想想，这并不是一个任意特征数量的问题，而是一个特征不变性的问题。

https://homes.esat.kuleuven.be/~tuytelaa/tutorial-ECCV06.pdf

СанСаныч Фоменко 2022.12.31 10:29 #28778

Aleksey Nikolayev #:

这是一个非常重要的问题，我一直在思考这个问题）让我们来谈谈所用历史记录的长度。计算的相关性和长度之间应该有一个合理的折衷。越短，相关性越强，但越长，计算就越精确。有时，一个好的折衷方案在原则上是无法实现的。

你需要一个标准，而唯一的标准就是模型拟合误差。

下面是一张图片

这是一个包含 2000 个条形图、43 个变量的样本。我们可以看到，增加超过 100 棵树的数量是没有意义的。我改变了样本量。结果是图片在 1500 条以上没有变化。这意味着，我的老师的预测因子中的模式数量约为 100 个，它们都可以在 1500 条历史数据中找到。而且这些模式是重复出现的。

Aleksey Nikolayev 2022.12.31 11:15 #28779

mytarmailS #:

那么仔细想想，这就不是一个任意特征数量的问题，而是一个特征不变性的问题。

https://homes.esat.kuleuven.be/~tuytelaa/tutorial-ECCV06.pdf

如果把它比作图片识别，那么大致上就是为每个点找到该点所在物体（blob）的边界。

问题是，图片的质量极差，而且图片上的实际内容也不太清楚。

在这种情况下，选择一个小的物体是不现实的，而选择一个大的物体则是模棱两可的。

Aleksey Nikolayev 2022.12.31 11:22 #28780

СанСаныч Фоменко #:

你需要一个标准，而唯一的标准就是模型拟合误差。

下面是一张图片

这是一个包含 2000 个条形图、43 个变量的样本。我们可以看到，增加超过 100 棵树的数量是没有意义的。我改变了样本大小。结果是，超过 1500 个条形图就没有变化了。这意味着，我的教师预测因子中的模式数量约为 100 个，而这些模式都可以在 1500 条历史数据中找到。而且这些模式是重复出现的。

1500 条是医院的平均温度。会有断点，当一半的历史截然不同时，最好不要计算和交易任何东西。

交易中的机器学习：理论、模型、实践和算法交易 - 页 2878