ADXオシレーターとCCIオシレーターはそれぞれトレンドフォローインジケーターおよびモメンタムインジケーターであり、エキスパートアドバイザー(EA)を開発する際に組み合わせることができます。前回の記事に続き、今回は開発済みモデルの運用中の学習や更新を、強化学習を用いてどのように実現できるかを検討します。この記事で使用するアルゴリズムは、本連載ではまだ扱っていない「TRPO(Trust Region Policy Optimization、信頼領域方策最適化)」として知られる手法です。また、MQL5ウィザードによるEAの組み立ては、モデルのテストをより迅速におこなえるだけでなく、異なるシグナルタイプで配布し検証できる形でセットアップできる点も利点です。
新しい記事「知っておくべきMQL5ウィザードのテクニック(第62回):強化学習TRPOでADXとCCIのパターンを活用する」はパブリッシュされました:
かつては、コンピュータプログラムに実用的な応答をさせるためには、その応答をプログラムに手動で組み込む必要がありました。本質的に、多くのプログラムでは「if文」がコアでした。そして考えてみれば、if文への依存は、ユーザー入力やプログラムが処理するデータが特定のカテゴリに分類されていることを前提としていました。つまり、データは離散的である必要がありました。このため、私たちが離散データを開発し使用してきた背景は、データや解くべき問題そのものに起因するのではなく、プログラミングの制約に応じた結果であったと言えます。
しかし、2023年秋にOpenAIが最初の公開GPTを発表したことで、状況は一変しました。TransformerネットワークやGPTの開発は一夜にしておこなわれたわけではなく、最初のパーセプトロンは1960年代後半に開発されましたが、ChatGPTの登場は重要なマイルストーンであったと言えます。大規模言語モデルが広く採用される中で、トークン化、単語埋め込み、そしてSelf-Attention(自己注意)が、モデルの処理能力を拡張する上で重要な要素であることが明らかになりました。もはやif文に依存する必要はありません。このような背景のもと、ネットワーク入力を可能な限り連続的にするためのトークン化や単語埋め込みの手法を応用し、教師あり学習MLPの入力も「より連続的」に設計しました。
作者: Stephen Njuki