交易中的机器学习:理论、模型、实践和算法交易 - 页 3170

 
fxsaber #:

这几乎是每个测试仪用户都能看到的画面。我对解释很感兴趣。

在这张图片中,统计意义相当高:超过 3000 个非重叠位置。

我认为这是 Sample 本身的市场变化造成的。例如,样本一开始有一个真正的模式,然后就没有了。但整个样本都发生了拟合。

我们应该以某种方式避免样本内部出现这种断裂。


相反的效果也可能发生:左侧 OOS - 下降,右侧 OOS - 上升。也就是说,在最初的 Sample 中没有发现模式,而只是找到了合适的模式。

我猜可能是训练过度或非稳态。当然,除非原始数据或算法本身存在问题。

我通常会尝试 "移动 "一下问题--稍微改变一下所有可能的参数(以及可用的元参数),看看结果有什么变化。有时,结果会变得更清晰一些。

 
mytarmailS #:
如果您在 OOS 上获得的利润与培训时一样多,这就意味着这种效应(定向消耗 OOS)是市场固有的,我们可以进一步提出假设

交易、自动交易系统和交易策略测试论坛。

交易中的机器学习:理论、模型、实践和算法交易

fxsaber, 2023.08.16 11:38 AM

这就是会发生的无稽之谈。左边的 OOS 通过,右边的 - 不通过。而右侧则立即 "跳水"。

你能看到 OOS 在左侧通过吗?

 
fxsaber #:

你能看到 OOS 从左边穿过吗?

我们说的是对右边的影响

完全复制实验,但使用合成数据。


======================================

左边的 OOS 也是一种拟合,但属于二阶拟合


想象一下,在一般情况下,你只有 1000 个 TC 变体。


您的步骤 1 和 2

1) 您开始优化/搜索一个好的 TS,这就是训练 数据(拟合/搜索/优化)。

比方说,您已经找到了 300 个变体,在这些变体中,TC 可以赚钱...

2) 现在,您要从这 300 个变体中寻找一个能通过测试数据 OOS 的 TC。例如,您已经找到了 10 个既能在交易 中赚钱又能在测试 中赚钱(OOS)的 TC。


那么第 2 点是什么?

同样是继续拟合,只是您的搜索(拟合/搜索/优化)变得更深入或更复杂了,因为现在您的优化条件不是一个(通过测试),而是两个(通过测试 + 通过测试)。

 
fxsaber #:

这几乎是每个测试仪用户都能看到的画面。我对解释很感兴趣。

在这张图片中,统计意义相当高:超过 3000 个非重叠位置。

我认为这是 Sample 本身的市场变化造成的。例如,样本一开始有一个真正的模式,然后就没有了。但整个样本都发生了拟合。

我们应该以某种方式避免样本内部出现这种断裂。


相反的效果也可能出现:左侧 OOS - 下降,右侧 OOS - 上升。也就是说,在最初的 Sample 中没有发现模式,而只是找到了合适的模式。

OOS 应该总是在右边。

如果 OOS 在左侧,则无法保证 TC 没有过度训练,也没有瞻前顾后。这些是测试 TC 时首先要解决的主要问题。


您使用的是哪一种?没有区别!无论是其中一个还是两个都没有关系。您需要正确地进行测试,并在正确的情况下进行 OOS。

最好忘掉测试器和表格文件,如下所示进行测试:


我们有两个文件。


第一个文件按样本随机分为三个部分:训练、测试和验证。先研究一个(随机的)训练样本,然后检查一个随机的测试和验证样本,这些都是第一个文件的不同部分。比较结果。如果结果大致相同,再检查第二个 "自然序列 "文件。如果它们在这里也大致相同,那么我们就能得出主要结论:我们的 TC 没有过度训练,也没有提前观察。只有有了这个结论,谈论其他事情才有意义:准确性、盈利能力和其他事情,所有这些都是次要的。


我注意到,实际上没有其他方法来检查前瞻性和再训练。

 
fxsaber #:

就是这种情况。左边的 OOS 可以通过,右边的则不行。而在右侧,它会立即 "跳水"。


这种情况经常发生。

也就是说,它立即大幅下潜。跳水的性质并不明确。我认为应该是接近 SB 的情况,但我经常看到这样的图片。


感觉就像如果在优化后运行倒 TC,可能根本不会排水。

P-hacking(或称数据挖掘)是一种统计实践,研究人员通过分析数据,直到找到具有统计意义的结果。他或她可能会改变分析参数,只选择某些数据,或进行多重比较,以发现数据中的重要关系或差异。这可能会导致假阳性结果,并扭曲科学结论。P-hacking 是一种科学上的不诚实,会导致基于错误前提的错误建议和决策。


***正如您正确指出的那样,相反的情况也可能发生
 
fxsaber #:

你能看到 OOS 从左边穿过吗?

如果缩短训练期,图表趋势反转会不会发生得更快?

我不太了解勾选策略,但造成这种行为的因素之一是训练期间缺乏可比数据,例如--训练期间某些 TF 的趋势大多是向下的。

我不知道您使用的是什么训练方法,如果是树形系统或过滤器,只是箝制条件指标(函数)的范围,那么值得估算一下属于每个此类范围的示例数量。

一种可能的情况是数据漂移和过滤器/列表的概率结果分布发生了变化。

例如,当我在一个样本上选择量子片段进行训练,然后在另外两个样本上估计它们的分布(对目标 0||1 的正确和错误回答的百分比)时,发现在 3 个样本上满足稳定性标准的比例在 25%-30% 之间--很明显,在这种情况下,模型有更多机会选择一个不稳定的预测器,它将在其中一个站点上停止工作。

最后,一切都归结为分析简单的规律性,即寻找将其视为规律性的理由,而不是在望远镜中随机观测彗尾。

 
fxsaber #:

你能看到 OOS 从左边穿过吗?

系统保持盈利的时间有多长?

我遇到过类似的系统行为,当 OOS 右侧出现急剧的梅花时,我不认为这与发现的市场模式发生 180 度的急剧逆转有直接联系(这将表明神秘的原因、巫术的应用和一般的任何原因,而不是任何真正的问题,如重新训练或调整,因为它至少是奇怪的,当急剧的梅花总是发生在训练结束之后)。通常情况下,这是由于代码中的某些错误导致了误报(或误负),如 Max 上文所述,纠正这些错误在最坏的情况下会导致 OOS 右侧的随机行为(过度训练),在最好的情况下会导致盈利能力逐渐减弱(发现的模式逐渐减弱和/或逐渐改变)。

 
Andrey Dik #:

该系统能持续盈利多久?

我也遇到过类似的情况,当 OOS 右侧出现急剧下跌时,我不认为这与发现的市场形态发生 180 度的急剧逆转有直接联系(这说明了神秘的原因、巫术的应用以及一般情况下的任何原因,而不是任何真正的问题,如重新训练或调整,因为在训练结束后总是出现急剧下跌至少是很奇怪的)。通常情况下,这是由于代码中的某些错误导致了误报(或误负),如 Max 上文所述,纠正这些错误在最坏的情况下会导致 OOS 右侧的随机行为(过度训练),在最好的情况下会导致盈利能力逐渐减弱(发现的模式逐渐减弱和/或逐渐改变)。

如果 TS 有很多参数或拟合得很好,则下降总是很剧烈。因为它是 "薄 "的。大量参数会导致误差不断增加。如果甚至只是粗化 TS 并减少参数,那么在测试仪中它就不那么漂亮了,但它会更平滑地塌陷。

我们可以用马丁格尔扑克来做个类比。有大量的失败位置。用大量失败的参数或其他东西来代替它。结果是一样的。

因为 "黑客攻击 "并不能解决问题,反而会把问题掩盖起来。减少偏差,增加方差,反之亦然。误差依然存在,只是被隐藏起来了。
 

我添加了测试和考试子样本的可视化图表,并剪切了火车--去掉了最初的部分,以便图片能够兼容。

事实上,这些都是火车->测试->考试的时间顺序部分。

看完 gif 后,我们可以清楚地看到,测试和考试样本反而降低了振荡的幅度,而不是在任何方向上都有趋势。

不过,如果仔细观察,就会发现在某些迭代中,这些样本的情况有所改善,也就是说,我们可以认为这些规则(以量子片段的形式)在不同样本上表现出了稳定性。我们还可以注意到,在不同的迭代过程中,不同部分的变化是不同的,也就是说,测试中的改进与考试中的改进并不直接相关。

正如我在上面所写的那样--这可以用单个量子片段所属类别概率偏差的变化来解释。

量子片段本身,作为跳过目标信号的信号,即把目标信号归零,或者换句话说,把样本分成两部分,是根据其成本估算来选择的。也就是说,减少错误信号的成本是可以估算的。每次迭代都会进行重新计算,并删除价格最低的变量。

以下是根据其中一种计算方法得出的价格变化情况。下面是一张图片,每个点都是一个量子段(x 轴是序列号)。

如果在第一次迭代时随机选择价格,测试/考试样本的结果是否会发生重大变化?

 

在第 4 次和第 5 次迭代之间,我们可以看到测试子样本的目标正确回答数急剧下降,这立即导致了与考试样本的背离(delta 增加)。


原因: