Deep Q-learningがニューラルネットワークを使ってQ関数を近似するものであることは、もうお分かりだと思います。そのような方法のメリットは何でしょうか。前回の交差エントロピーの表形式法の実装を思い出してください。表形式での実装は、可能な状態や行動の数が有限であることを前提としていることを強調しました。そこで、初期データをクラスタリングすることで、可能な状態の数を限定しました。でも、そんなにいいのでしょうか。クラスタリングは常に良い結果を生むのでしょうか。ニューラルネットワークを使用することで、可能な状態の数が制限されることはありません。これは、取引関連の問題を解決する上で、大きなメリットになると思います。
新しい記事「ニューラルネットワークが簡単に(第27部):DQN (Deep Q-Learning)」はパブリッシュされました:
強化学習の研究を続けます。今回は、「Deep Q-Learning」という手法に触れてみましょう。この手法を用いることで、DeepMindチームはアタリ社のコンピューターゲームのプレイで人間を凌駕するモデルを作成することができました。取引上の問題を解決するための技術の可能性を評価するのに役立つと思います。
Deep Q-learningがニューラルネットワークを使ってQ関数を近似するものであることは、もうお分かりだと思います。そのような方法のメリットは何でしょうか。前回の交差エントロピーの表形式法の実装を思い出してください。表形式での実装は、可能な状態や行動の数が有限であることを前提としていることを強調しました。そこで、初期データをクラスタリングすることで、可能な状態の数を限定しました。でも、そんなにいいのでしょうか。クラスタリングは常に良い結果を生むのでしょうか。ニューラルネットワークを使用することで、可能な状態の数が制限されることはありません。これは、取引関連の問題を解決する上で、大きなメリットになると思います。
一番最初のわかりやすい方法は、前回の表をニューラルネットワークに置き換えることですが、残念ながら、そう簡単にはいきません。実際には、この方法はあまり良いものではないことが判明しました。この方法を実現するために、いくつかのヒューリスティックを追加する必要があります。
まず、エージェント訓練の目標を見てみましょう。一般的に、その目標は総報酬を最大化することです。下の図をご覧ください。エージェントは、startセルからFinishセルまで移動しなければなりません。エージェントは、Finishセルに到達したときに一度だけ報酬を受け取ることになります。それ以外の状態では、報酬はゼロです。
図には2つのパスが示されています。私たちにとって、橙色の道の方が短く、好ましいことは明らかですが、報酬の最大化という点では、両者は等価です。
作者: Dmitriy Gizlyk