文章 "神经网络在交易中的应用:演员—导演—评论家框架"

 

新文章 神经网络在交易中的应用:演员—导演—评论家框架已发布:

我们诚邀您探索演员-导演-评论家(Actor-Director-Critic)框架,该框架结合了分层学习和多组件架构,用于创建自适应交易策略。在本文中,我们将详细探讨如何利用导演(Director)对演员(Actor)生成的动作进行分类,以有效优化交易决策,并提高模型在金融市场环境下的稳健性。

在金融应用中,通常使用演员-评论家架构来构建能够预测短期收益同时管理长期风险的智能体。例如,在投资组合再平衡任务中,评论家学习估计预期收益,而演员选择最大化投资组合价值的资产权重。然而,即使是这种先进的架构也有其局限性。在训练的早期阶段,评论家的估计可能非常不准确,导致演员收到误导性信号。因此,智能体可能会反复探索已知无利可图的动作空间区域。

为了解决这一局限性,论文“Actor-Director-Critic:一种新型深度强化学习框架”引入了一个新框架:演员—导演—评论家ADC )。除了演员评论家之外,该架构还包含第三个组成部分 — 导演 。它的作用是作为一个分类器,即使在评论家学会提供可靠评估之前,也能区分出高质量的动作和低质量动作。与评论家不同,导演执行的是分类而不是评价功能。它决定是否应使用某一特定动作来训练策略,或者该动作本身质量低下,应排除在进一步的考虑之外。

引入导演一职有诸多优势。首先,在训练的早期阶段,选择性至关重要,应尽可能避免无效动作。其次,在交易成本高、市场波动大的环境中,每一次失败的动作对演员来说都可能代价高昂。在这种情况下,导演作为演员的初步引导机制,使其能够专注于可能有效的动作。这种方法降低了探索熵,并加速了有效策略的形成。


作者:Dmitriy Gizlyk