文章 "神经网络在交易中的应用：演员—导演—评论家框架"

MetaQuotes 2026.06.30 15:03

我们诚邀您探索演员-导演-评论家（Actor-Director-Critic）框架，该框架结合了分层学习和多组件架构，用于创建自适应交易策略。在本文中，我们将详细探讨如何利用导演（Director）对演员（Actor）生成的动作进行分类，以有效优化交易决策，并提高模型在金融市场环境下的稳健性。

在金融应用中，通常使用演员-评论家架构来构建能够预测短期收益同时管理长期风险的智能体。例如，在投资组合再平衡任务中，评论家学习估计预期收益，而演员选择最大化投资组合价值的资产权重。然而，即使是这种先进的架构也有其局限性。在训练的早期阶段，评论家的估计可能非常不准确，导致演员收到误导性信号。因此，智能体可能会反复探索已知无利可图的动作空间区域。

为了解决这一局限性，论文“Actor-Director-Critic:一种新型深度强化学习框架”引入了一个新框架：演员—导演—评论家（ ADC ）。除了演员和评论家之外，该架构还包含第三个组成部分 — 导演。它的作用是作为一个分类器，即使在评论家学会提供可靠评估之前，也能区分出高质量的动作和低质量动作。与评论家不同，导演执行的是分类而不是评价功能。它决定是否应使用某一特定动作来训练策略，或者该动作本身质量低下，应排除在进一步的考虑之外。

引入导演一职有诸多优势。首先，在训练的早期阶段，选择性至关重要，应尽可能避免无效动作。其次，在交易成本高、市场波动大的环境中，每一次失败的动作对演员来说都可能代价高昂。在这种情况下，导演作为演员的初步引导机制，使其能够专注于可能有效的动作。这种方法降低了探索熵，并加速了有效策略的形成。

作者：Dmitriy Gizlyk

新评论