文章 "神经网络变得简单(第 97 部分):搭配 MSFformer 训练模型"

 

新文章 神经网络变得简单(第 97 部分):搭配 MSFformer 训练模型已发布:

在探索各种模型架构设计时,我们往往对模型训练过程的关注投入不足。在本文中,我旨在弥补这一差距。

初始训练数据集为模型提供了对环境的初步理解。然而,金融市场是如此多面,以至于任何训练集都无法完全复现它们。此外,模型从所分析指标和盈利交易之间学到的依赖关系,也许是错误的、或不完整的,因为训练集也许缺乏能够揭示此类差异的示例。因此,在训练过程期间,我们需要优化训练数据集。在此阶段,收集额外数据的方式会有所不同。

在此阶段的任务是优化参与者的学习政策。为了达成这一点,我们所需的数据,要相对接近当前参与者政策轨迹,这令我们能够明白当动作偏离当前政策时奖励的变化方向。依据这些信息,我们就可以朝着回报最大化的方向前进,从而提高当前政策的盈利能力。

有多种方式可以达成该目的,且它们也许会根据模型架构等因素而变化。举例,配以随机政策,我们可以在策略测试器中简单地按照当前政策运行若干个参与者通验。随机头会这样做。参与者动作的随机性将覆盖我们感兴趣的动作空间,我们将能够使用更新的数据重新训练模型。在判定性参与者政策的情况下,模型在环境状态和动作之间建立了明确的关系,我们可以往个体的动作里添加一些干扰,从而围绕当前参与者政策创建一个云状动作集。

在这两种情况下,使用策略测试器慢速优化模式来为训练数据集收集额外的数据都很方便。

作者:Dmitriy Gizlyk