文章 "突破机器学习的局限(第一部分):缺乏可互操作的度量指标"

 

新文章 突破机器学习的局限(第一部分):缺乏可互操作的度量指标已发布:

无论以何种形式构建可靠的人工智能(AI)交易策略,都有一种强大且普遍存在的力量,正悄然地侵蚀着我们社区的集体努力,本文提到,我们所面临的部分问题,源于对“最优实践”的盲目遵循。通过为读者提供基于现实市场的简单证据,我们说明为何必须摒弃这种做法,转而采用特定领域内的最优实践,这样一来,我们的社区才有可能重振AI的潜在力量。

想象您正在参加一场彩票式的竞赛。您和另外99人被随机选中,共同角逐1,000,000美元的大奖。规则很简单:您必须猜测其他99名参与者的身高。猜测总误差最小的人即为获胜者。

现在,情况有了变化:在本例中,假设全球人类的平均身高为1.1米。如果您对每个人都猜测为1.1米,那么您实际上可能会赢得大奖,尽管从技术层面上讲,您的每一个预测都是错误的。为什么呢?因为在充满噪声和不确定性的环境中,猜测平均值往往能产生最小的总体误差。


作者:Gamuchirai Zororo Ndawana

[删除]  

"然而,我们的战略展示了恢复和保持正轨的能力,这正是我们所追求的"。

我一直认为,一个人应该努力追求的是能够产生利润的战略:)

 
Maxim Dmitrievsky #:

"然而,我们的战略显示出我们有能力恢复并保持正轨,这正是我们的目标"。

我一直认为,应该努力制定一项能带来利润的战略:)

的确如此,但遗憾的是,我们仍然没有考虑到盈亏差异的标准化机器学习指标。
 

谢谢你的文章,@Gamuchirai Zororo Ndawana

我同意@Maxim Dmitrievsky 的观点,最终目标是盈利。作为稳健性和缩水控制,"恢复并保持在正轨上 "的想法是有道理的,但它不能取代盈利。

关于衡量标准:的确,目前还没有标准化的 ML 衡量标准是考虑到 PnL 的,不过在实践中,模型是通过夏普(Sharpe)、索蒂诺(Sortino)、卡尔马(Calmar)、利润因子、最大 DD 以及强化学习(RL 风格)中的非对称损失或奖励来验证的,这些都包含了 PnL 和成本(成本和周转率)。

从技术上讲,我想回顾一下文章中的两个要点:
  • 示例包含前瞻性偏差(使用 i + HORIZON 的特征),这使得评估无效;
  • 总和为零 "的 DRS 检验是同义反复,因为这两个标签在结构上是不对称的,它不能证明市场理解。
即便如此,提醒不要根据回报率的均方根值或 MAE 进行选择也是有用的。

实用建议:前向检验、成本和滑点、非对称或量化损失或基于效用的目标,以及惩罚换手率以避免均值拥抱。(务实的看法:使亏损与盈利方式保持一致)。
 

引用:的确如此,但遗憾的是,我们仍然没有标准化的机器学习指标来区分盈利和亏损。

答: 是的:只有当您的反向测试产品 或平盘与您针对后续投资组合或一篮子指数所使用的远期市场一样好时,才会存在盈亏栏。

有一些指数和新创立的 ETF `s 即将推出,或正在不断增加,用于这种预期用途,并将产生这些结果,利润率,如道琼斯 30 指数以及许多其他指数,已创建用于这种预期用途。 彼得-马蒂

 
Miguel Angel Vico Alba # :

谢谢你的文章, @Gamuchirai Zororo Ndawana

我同意 @Maxim Dmitrievsky 的观点,最终目标是盈利。从稳健性和控制缩水的角度来看,恢复并保持在正轨上的想法是有道理的,但它不能替代盈利。

关于衡量标准:确实没有将 PnL 考虑在内的标准化 ML 衡量标准,不过在实践中,模型是通过 Sharpe、Sortino、Calmar、Win Factor、Max DD 以及包含 PnL 和成本(成本和收入)的强化学习(RL 风格)中的非对称损失或奖励来验证的。

从技术角度来看,我想检查一下文章中的两个要点:
  • 示例包含前瞻性偏差(i + HORIZON 的特征),这会使评估失效;
  • DRS 测试中的 "总和为零 "是同义反复,因为这两个词在设计上是不对称的;这并不能证明对市场的理解。
尽管如此,不要根据回报率的均方根误差(RMSE)或最大均方根误差(MAE)进行选择的建议还是有用的。实用建议:前瞻性测试、成本与滑坡、非对称或基于损失或收益的量化目标,以及惩罚收益以避免平均抱团。(务实的方法:将损失与盈利方式挂钩)

有时我在想,我们所依赖的翻译工具是否无法捕捉到原始信息。您的回复比我从 @Maxim Dmitrievsky 的原文中理解到的更多。

感谢您指出了前瞻性偏差(带 i + HORIZON 的功能)中的疏忽,这是我最讨厌的 bug,它们需要整个重新测试。

您还提供了宝贵的反馈意见,说明了在实践中用于验证模型的验证措施,夏普比率(Sharpe Ratio)一定类似于通用的黄金标准。我需要更多地了解 Calmar 和 Sortino,才能形成自己的观点,谢谢您的建议。

我同意你的观点,这两个术语在设计上是反对称的,而检验的标准是模型应保持反对称,任何偏离这一预期的行为都是不合格的。如果一个或两个模型存在不可接受的偏差,那么它们的预测就不会像我们期望的那样保持反对称。

然而,利润的概念只是我为了突出问题而给出的一个简单说明。我们今天所拥有的衡量标准都不能告诉我们什么时候会出现均值拥抱现象。关于统计学习的文献都没有告诉我们为什么会发生均值拥抱。不幸的是,由于我们遵循的最佳实践,这种情况正在发生,而这只是我希望就最佳实践的危险性展开更多讨论的众多方法之一。

这篇文章更像是一种求助,希望我们能够团结起来,从头开始设计新的协议。新标准。我们的优化人员可以直接针对我们的利益制定新的目标。