記事「機械学習の限界を克服する(第5回):時系列交差検証の簡単な概要」についてのディスカッション

 

新しい記事「機械学習の限界を克服する(第5回):時系列交差検証の簡単な概要」はパブリッシュされました:

本連載では、機械学習を活用した取引戦略を実運用に展開する際に、アルゴリズムトレーダーが直面する課題について考察します。私たちのコミュニティには、より深い技術的理解を必要とするがゆえに、見過ごされがちな課題がいくつも存在します。本日の議論は、機械学習における交差検証の盲点を検討するための足がかりとなるものです。交差検証はしばしば定型的な手順として扱われますが、不注意に実施すると、誤解を招く、あるいは最適とは言えない結果を容易に生み出してしまいます。本記事では、その隠れた盲点をより深く考察する準備として、時系列交差検証の基本を簡単に振り返ります。

これまでの関連連載では、市場の振る舞いによって生じる問題に対処するためのさまざまな戦術を取り上げてきました。しかし本連載では、戦略に適用しようとする機械学習アルゴリズムそのものに起因する問題に焦点を当てます。こうした問題の多くは、モデルのアーキテクチャ、モデル選択に用いるアルゴリズム、性能評価のために定義する損失関数、そしてそれらと同種の要素から生じます。

機械学習モデルを構成するあらゆる要素は、アルゴリズム取引に機械学習を適用しようとする過程において、意図せず障害を生み出す可能性があります。そのため、私たち一人ひとりがこれらの制約を理解し、コミュニティとして新たな解決策を構築し、新しい基準を定義していくことが重要です。

アルゴリズム取引で用いられる機械学習モデルは、検証やテストの方法に起因する特有の課題に直面します。その中でも重要なステップの一つが、時系列交差検証です。これは、時間順に並んだ未観測データに対してモデルの性能を評価する手法です。

通常の交差検証とは異なり、時系列データはシャッフルできません。シャッフルをおこなうと、未来の情報が過去に漏れてしまうためです。この制約により、時系列データにおけるリサンプリングはより複雑になり、バイアス、分散、ロバスト性の間に特有のトレードオフが生じます。

本記事では、時系列データにおける交差検証を紹介し、それが過学習を防ぐ上で果たす役割を解説します。また、限られたデータしかない状況においても、信頼性の高いモデルを学習させる方法を示します。2年間の小規模なデータセットを用い、適切な交差検証をおこなうことで、単純な線形モデルと比較してディープニューラルネットワークの性能がどのように改善されたかを実例として示します。


作者: Gamuchirai Zororo Ndawana