記事「MetaTrader 5機械学習の設計図(第4回):金融機械学習パイプラインの隠れた欠陥 - ラベルの同時発生」についてのディスカッション

 

新しい記事「MetaTrader 5機械学習の設計図(第4回):金融機械学習パイプラインの隠れた欠陥 - ラベルの同時発生」はパブリッシュされました:

金融機械学習における重大な欠陥であるラベルの同時発生が、過学習や実運用でのパフォーマンス低下を引き起こす問題をどのように修正するかを解説します。トリプルバリア法を使用すると、学習用ラベルが時間的に重複し、ほとんどの機械学習アルゴリズムにおける核心的な独立同分布(IID)の仮定に違反します。本記事では、サンプル重み付けを用いた実践的な解決策を提示します。具体的には、売買シグナル間の時間的重複を定量化し、各観測値が持つ固有情報を反映したサンプル重みを計算し、scikit-learnでこれらの重みを実装することで、より堅牢な分類器を構築する方法を学びます。これらの手法を習得することで、取引モデルの堅牢性、信頼性、収益性を向上させることができます。

ほとんどの非金融系の機械学習研究者は、観測値がIID(独立同分布:Independent and Identically Distributed)過程から取得されていると仮定できます。たとえば、多数の患者から血液サンプルを採取し、コレステロール値を測定する場合です。もちろん、さまざまな共通要因によってコレステロール分布の平均や標準偏差は変動しますが、サンプル自体は独立しています。患者ごとに1つの観測値があるためです。しかし、検査室で各チューブの血液を右隣の9本のチューブに流してしまったとします。つまり、チューブ10には患者10の血液だけでなく、患者1~9の血液も混ざっているという状況です。チューブ11には患者11の血液に加え、患者2~10の血液が入っています。こうなると、各患者のコレステロール値が確実にわからない状態で、高コレステロールを予測する特徴量(食事、運動、年齢など)を特定する必要があります。これは、金融機械学習で直面する課題と同等で、さらに血液の混入パターンが非決定的かつ未知であるというハンディキャップが加わります。

同時発生する観測値で学習したモデルは、同じパターンを何度も学習するためインサンプル性能が過大評価されますが、実際のアウトオブサンプルではそのパターン出現頻度がモデルの想定よりも低いため、性能が低下します。

サンプル重み付けは、この問題に対する有効な解決策となります。すべての観測値を同等に扱うのではなく、各観測値が持つ固有情報量に応じて重みを割り当てます。重複が多い観測値は低い重み、真に独立した観測値は高い重みを付与します。


作者: Patrick Murimi Njoroge