記事「ニューラルネットワークが簡単に(第97回):MSFformerによるモデルの訓練」についてのディスカッション

 

新しい記事「ニューラルネットワークが簡単に(第97回):MSFformerによるモデルの訓練」はパブリッシュされました:

さまざまなモデルアーキテクチャの設計を検討する際、モデルの訓練プロセスには十分な注意が払われないことがよくあります。この記事では、そのギャップを埋めることを目指します。

初期の訓練データセットによって、モデルは環境に関する基礎的な理解を得ることができます。しかし、金融市場は非常に多様であり、どのような訓練データセットでも完全に再現することは不可能です。さらに、モデルが学習する指標と利益の関係は、必ずしも正確または完全ではない可能性があります。これは、訓練データセットにその関係性の誤りや欠落を示す十分なデータが含まれていないためです。そのため、訓練プロセスの途中でデータセットを適宜調整する必要があります。この段階では、追加データの収集方法が異なります。

この段階での目的は、Actor'sの学習済み方策を最適化することです。これを達成するには、現在のActor方策の軌道に比較的近いデータが必要になります。このデータを用いることで、行動が現在の方策から逸脱した場合に、報酬がどのように変化するかを把握できます。この情報を活用し、報酬を最大化する方向へと方策を調整することで、Actorの収益性を向上させます。

この目的を達成するためのアプローチはさまざまで、モデルのアーキテクチャなどの要因によって変化します。例えば、確率的方策を採用している場合は、現在の方策を用いてストラテジーテスターで複数のActorパスを実行することが可能です。確率的ヘッドがランダムな動作をおこなうため、探索する行動空間が広がり、収集した新しいデータを用いてモデルの訓練をおこなうことができます。一方で、決定論的Actor方策(モデルが環境状態と行動の明確な対応関係を学習する場合)では、エージェントの行動にノイズを加えることで、現在のActor方策の周囲に行動の「クラウド(分布)」を作成することができます。

どちらのケースでも、ストラテジーテスターの低速最適化モードを活用することで、追加の訓練データを効率的に収集できます。

作者: Dmitriy Gizlyk