交易中的机器学习：理论、模型、实践和算法交易

Aleksey Vyazmikin 2023.08.17 13:41 #31751

fxsaber #:

当然，情况各不相同。但很多时候，你可以在样本之后立即看到故障。也许这是一种认知扭曲，当你更多地关注某件事情时，就会觉得它发生得太频繁了。

如果这种情况经常发生，那么就不存在全球模式发生变化的问题，否则断裂点就会出现在同一天。

但是，从纯粹的统计学角度来看，它们出现的频率可能会发生变化。也就是说，旧的模式还在继续运行，但对模型来说也有了新的模式，这些模式是以前没有遇到过的，原因有很多--最重要的是在训练过程中没有出现过。例如，波动率发生了重大变化，而代码（条件预测因子）中有一些固定值，或者这种波动率的观测值很少--它在训练期间或其他范围内一直保持稳定。换句话说，样本中会出现新的观测值（如果收集到新数据）--在这种情况下，我们需要一种机制来检测此类事件的出现。

相反的情况也可能发生--当一个策略建立在罕见事件的基础上时，趋势会持续一年以上。最近，我看到了这样一个构建 EA 的奇迹。

此人最初只看到了 EA 自 2016 年以来的行为历史（黄金增长），并抱怨说有什么东西坏了，有必要在 MO 的帮助下优化正确的图表细分。

在引擎盖下，结果发现有十几个指标，每个指标平均发出 100 个信号，即实际上被历史上不同指标检测到的排放物合并成一个共同的组。这些离群值是否会以同样的概率结果继续在历史数据中重复出现？

是的，有些异常值虽然从统计学角度看是异常值，但它们并不是异常值，但如何将它们与其他异常值区分开来是个问题。

fxsaber#：

图表显示了三年的每日交易情况。

对于刻度线来说，似乎很多，但我使用的范围更大--从 10 年的分钟开始，信号最初并不那么频繁--有一个基础信号。

fxsaber#:

我没有为每个区间制作图表。我计算了统计数据，但没有查看图表本身。

查看形态的动态--通常它们可能是在相对较短的时间间隔内出现的团块--相对于样本而言，如果形态的观察结果倾向于在整个时间间隔内重复出现，那就很好。

另一个细微差别是，同样是 CatBoost，在新数据中约有 50%的树叶会枯死，也就是说，模式停止出现，而模型正是在这种情况下建立的。

fxsaber#：

不理解突出显示。

另外两个样本是测试样本和考试样本，紧随训练所依据的样本。

然后你问为什么要使用它们--最初测试是用来控制 CatBoost 中的过度训练，即当新模式不能改善测试样本时，就停止迭代改进。而考试--只是对模型的独立测试。理想情况下，您应该学会通过训练和测试来选择一个能在考试中取得成功的模型，这是另外一个问题。

当然，如果模型选择的任务已经解决，那么必要时可以增加训练样本，或者至少将训练和测试样本转移到更接近当前日期的地方。

Aleksey Nikolayev 2023.08.17 17:45 #31752

Aleksey Vyazmikin #:

您提出了哪些显著性检验方法？我并不是说量子片段选择的算法是完美的，恰恰相反--有很多垃圾进入了这个算法，我想改进它。

我不明白，你是根据什么迹象断定这是某种"π-黑客"行为的--量子片段的选择或字符串的筛选究竟是哪一部分？是的，这种方法与建立木质模型的常见方法有些不同，但并无太大差别，概念依然存在。

关于 SB 上的例子，有两个考虑因素：

1.如果过程是未知的，只有数据，那么可以将其视为一种模式，即存在某种最佳交易时间。或者，是否有否定这一假设的考虑？

2.如果这些观察结果在时间上相对均匀分布（事件历史），那么这更像是随机数生成器的错误。

在训练中，我使用了很长一段时间的样本--通常至少 10 年。

我可以建议修改我的实验。假设有十个装有 1 到 10 数字的盒子、一百个白球和一百个黑球（10 和 100 这两个数字是有条件的）。这些球以某种方式排列在盒子里，然后你看看每个盒子里有多少球，并试着了解排列算法是否有规律可循--在哪个数字的盒子里，某种颜色的球占多数。

因此，如果每个球（两种颜色的球）都以 0.1 的概率随机地放在其中一个抽屉里，那么最终颜色的比例是不均匀的！几乎总是会有一个盒子里几乎全是白色，而另一个盒子里几乎全是黑色。问题根本不在于 DSP 的质量，你可以使用真正的量子 DSP，一切都会是一样的。这与概率随机性的本质有关。不规则性总是存在的，但在下一次布局中发现不规则性的盒子数量是绝对不可预测的。上一个例子中的星期几也是如此（星期几与方格数类似）。

有两种方法可以解决这个问题。一是试图证明实际中的不均匀性比等概率情况下的不均匀性要大得多。这可以通过某种统计检验来实现。或者只是确定不均匀性虽然很小，但却是由于某种规律性造成的，而这种规律性只是由于噪声而表现得很微弱。但这是一个信仰和实践的问题，如果能行，那就行。

我希望大家清楚，方框数字（星期几）是对量子的一种类比。

Aleksey Vyazmikin 2023.08.17 18:41 #31753

Aleksey Nikolayev #:

我可以建议修改我的实验。假设有十个盒子，里面装有从 1 到 10 的数字、一百个白球和一百个黑球（数字 10 和 100 按常规取值）。这些球以某种方式排列在盒子里，然后你看看每个盒子里有多少球，并试着了解排列算法是否有规律可循--在哪个数字的盒子里，某种颜色的球占多数。

因此，如果每个球（两种颜色的球）都以 0.1 的概率随机地放在其中一个抽屉里，那么最终颜色的比例是不均匀的！几乎总是会有一个盒子里几乎全是白色，而另一个盒子里几乎全是黑色。问题根本不在于 DSP 的质量，你可以使用真正的量子 DSP，一切都会是一样的。这与概率随机性的本质有关。不规则性总是存在的，但在下一次布局中发现不规则性的盒子数量是绝对不可预测的。上一个例子中的星期几也是如此（星期几是方框编号的类似物）。

有两种方法可以解决这个问题。一是试图证明实际中的不均匀性比同等概率下的不均匀性要大得多。这可以通过某种统计检验来实现。或者只是确定不均匀性虽然很小，但却是由于某种规律性造成的，而这种规律性只是由于噪声而表现得很微弱。不过，这已经是信仰和实践的问题了，如果行得通，那就行。

我希望大家清楚，方框数字（星期几）是对你的量子的一种类比。

如果我们谈论的是 SB，那么我们可以谈论什么样的模型，因为模型（木质模型或神经模型）的本质是在数据中寻找模式。

关于一个盒子里可能有大多数相同颜色的球这一事实--所以我做了 10 次实验，每次都得到了结果（我把样本分成了 10 份），只有当其中大多数结果相似时，我才会选择一个量子段。做完 10 次实验后，我们在同一个盒子中发现某种颜色的球比在其他盒子中发现的球多的概率是多少？

你知道还有什么统计检验方法适合这种情况吗？

你无法确定任何事情，加上 SB tho....

我在寻找能增加确定性的方法。

另外，我假设被选中的量子片段仍然比预测器的其他部分有更大的非随机分裂的可能性--我不知道如何用公式或某种估计来表达这一点。我把这样的片段抽象地理解为鹅卵石内有价值的矿脉/金属.....。

Aleksey Vyazmikin 2023.08.17 19:22 #31754

我不知道怎样才能说得更清楚，所以我以示意图的形式展示了两棵树的分裂。

两条横杠是两个预测因子--竖杠象征时间（但我没有完全照搬）。

粗线是树状模型分割预测因子的标准位置。

第二个预测因子（图中左侧）显示，从 2 到 3（含 3）的范围内的单位累积量最大，我用颜色将其突出显示。

在第一次拆分后，我用蓝色标出了第一次拆分后留下的数字（假设是右侧部分，单位沿着分支移动）。

因此，如果我们计算第一次分割后留下的单位总数，分割应该正好在中间进行，从 1 到 2（包括 2），但第一列包含了绝对值最弱的反应统计指数，以及 4--各只有 8，而中间的包含了 10 和 12。量子截断可以将第 1 列和第 4 列移至一侧，将第 2 列和第 3 列移至另一侧，这比没有量子截断时总共只少了一个单位，但在这一范围内观察到的单位最初多了 8 个，这似乎很重要。也就是说，预计这一范围将继续比相邻的两个范围包含更多的单位。

您是否已经解释了量子段选择这一概念的实质？

我应该补充一点：这是一个惯例--允许计算错误--这里重要的是文字和逻辑，而不是数字。

Aleksey Vyazmikin 2023.08.17 19:46 #31755

那么，在日常情况下，我们有一个预测器，它发送信号的范围是 -162 和 +162。

在量子分段检测的帮助下，我们可以找到电平的范围，当击中哪个电平的频率较高时，例如，反弹到下面的电平。剩下的不接近电平的部分可以简单地按顺序分类。事实证明，虽然只有一个预测器，但有两种方式可以出于不同目的表示数据--作为一种选择。

Aleksey Nikolayev 2023.08.17 19:52 #31756

Aleksey Vyazmikin #:

您知道还有什么统计检验适合这种情况吗？

最通用的可能是蒙特卡罗。反复模拟明显不可分割的类的情况，看看你的量子平均表现如何。如果他们发现了什么，那么这就是不攻自破。

通过提取与特征分布相同的样本，可以得到看似不可分割的类。

Aleksey Vyazmikin 2023.08.17 20:03 #31757

Aleksey Nikolayev #:

最通用的方法可能是蒙特卡洛。反复模拟明显不可分割的类的情况，看看你的量子平均表现如何。如果发现了什么，那就是自欺欺人。

通过提取与特征分布相同的样本，可以得到看似不可分割的类。

蒙特卡洛是关于混合序列和随机得到字符串--这有什么用呢？如果假设序列不是随机的，那么混合序列可能是不正确的.....时间序列也不是随机的。我不明白你的意思，如果你能更详细地描述一下。

你能用 csv 制作这样一个测试样本吗？我觉得用 R 可以做得很快。否则我又要花一天时间写代码了，而且我也不知道能不能写对。

Aleksey Nikolayev 2023.08.17 20:15 #31758

Aleksey Vyazmikin #:

蒙特卡洛是关于混合序列和随机得到字符串--这有什么用？如果我们假设序列不是随机的....，那么混合序列可能是不正确的。时间序列也不是随机的。我不明白你的想法，如果你能更详细地描述一下。

你能用 csv 格式制作这样一个测试样本吗？我觉得用 R 可以做得很快。否则我又要花一天时间写代码了，而且我不知道能不能写对。

您可以在 MT5 中完成，统计库中有生成不同分布样本的函数。例如，您可以在第一列中生成一个 200 的正态样本作为标志，在第二列中您可以随机选择概率为 0.5 的标志。

如果您能在软件包中以某种方式自动完成这项工作，效果会更好，因为您必须多次完成这项工作，并且每次都要计算一些东西--只有您自己知道是什么。

Aleksey Vyazmikin 2023.08.17 20:56 #31759

Aleksey Nikolayev #:

您可以在 MT5 中做到这一点，统计库中有生成不同分布样本的函数。例如，在第一列中生成 200 个正态样本作为符号，在第二列中以随机选择的方式做出标记，每个标记的概率为 0.5。

如果您能在软件包中以某种方式实现自动化，效果会更好，因为您必须多次操作，每次都要计算一些东西--只有您自己知道是什么。

我以前从未使用过这个功能。

是关于这个功能吗？

Генерирует псевдослучайные величины, распределенные по нормальному закону с параметрами mu и sigmа. В случае ошибки возвращает false. Аналог rnorm() в R. 



bool  MathRandomNormal( 
   const double  mu,             // математическое ожидание 
   const double  sigma,          // среднеквадратическое отклонение 
   const int     data_count,     // количество необходимых значений 
   double&       result[]        // массив для получения псевдослучайных величин 
   );

Maxim Dmitrievsky 2023.08.17 21:15 #31760

Aleksey Vyazmikin #:

就像我在文章中写到的那样，随机过度射击是一种毫无益处的方法。

在测试抽样潜力时，我使用了带有预测因子选择随机性元素的超采样，而且在 CatBoost 中已经使用了很多年。

随机化并不能为期望模型继续工作提供任何理由，因为预测因子的反应已经被随机化了。

这有可能再次陷入毫无意义的争论。一个随机找到的、在 OOS 上有效的集合，和一个经过最艰苦的精神折磨才发明出来的、但也没有基本理由的集合，两者之间有什么区别呢？在验证方法相同的情况下。反问。

随机搜索和带有随机选择因素的搜索有什么区别？))

交易中的机器学习：理论、模型、实践和算法交易 - 页 3176