記事「ニューラルネットワークが簡単に（第40回）：大量のデータでGo-Exploreを使用する」についてのディスカッション

MetaQuotes 2023.11.21 09:10

この記事では、長い訓練期間に対するGo-Exploreアルゴリズムの使用について説明します。訓練時間が長くなるにつれて、ランダムな行動選択戦略が有益なパスにつながらない可能性があるためです。

Go-Exploreアルゴリズムの訓練期間が長くなるにつれ、ある困難が生じます。その一部を紹介します。

次元の呪い：訓練期間が長くなるにつれて、エージェントが訪問できる状態の数は指数関数的に増加し、最適な戦略を見つけることが難しくなります。
環境の変化：訓練期間が長くなるにつれて、エージェントの学習結果に影響を与えるような環境の変化が起こるかもしれません。これによって、以前は成功していた戦略が効果がなくなったり、不可能になることさえあります。
行動の選択が難しい：訓練期間が長くなるにつれて、エージェントは、情報に基づいた意思決定をおこなうために、タスクのより広い文脈を考慮する必要があるかもしれません。これによって、最適な行動を選択するタスクが複雑になり、アルゴリズムを最適化するために、より複雑な方法が必要となる可能性があります。
訓練時間の増加：訓練期間が長くなると、十分なデータを集めてモデルを訓練するのに必要な時間も長くなります。これは、エージェントの訓練の効率とスピードを低下させる可能性があります。

訓練期間が長くなると、探索すべき状態空間の次元が大きくなるという問題が生じる可能性があります。これは、可能な状態の数が次元の増加とともに指数関数的に増加する「次元の呪い」問題につながる可能性があり、状態空間の探索を困難にし、アルゴリズムが無関係な状態の探索に多くの時間を費やす原因となります。

学習したモデルの品質と効率を確認するために、訓練サンプルとテストサンプルでテストします。私たちのモデルは、訓練セットには含まれていませんでしたが、訓練セットに直接従った2023年5月の第1週の履歴データから利益を得ることができたことに注意することが重要です。

テストサンプル（2023年5月）