ほとんどの非金融系の機械学習研究者は、観測値がIID(独立同分布:Independent and Identically Distributed)過程から取得されていると仮定できます。たとえば、多数の患者から血液サンプルを採取し、コレステロール値を測定する場合です。もちろん、さまざまな共通要因によってコレステロール分布の平均や標準偏差は変動しますが、サンプル自体は独立しています。患者ごとに1つの観測値があるためです。しかし、検査室で各チューブの血液を右隣の9本のチューブに流してしまったとします。つまり、チューブ10には患者10の血液だけでなく、患者1~9の血液も混ざっているという状況です。チューブ11には患者11の血液に加え、患者2~10の血液が入っています。こうなると、各患者のコレステロール値が確実にわからない状態で、高コレステロールを予測する特徴量(食事、運動、年齢など)を特定する必要があります。これは、金融機械学習で直面する課題と同等で、さらに血液の混入パターンが非決定的かつ未知であるというハンディキャップが加わります。
新しい記事「MetaTrader 5機械学習の設計図(第4回):金融機械学習パイプラインの隠れた欠陥 - ラベルの同時発生」はパブリッシュされました:
ほとんどの非金融系の機械学習研究者は、観測値がIID(独立同分布:Independent and Identically Distributed)過程から取得されていると仮定できます。たとえば、多数の患者から血液サンプルを採取し、コレステロール値を測定する場合です。もちろん、さまざまな共通要因によってコレステロール分布の平均や標準偏差は変動しますが、サンプル自体は独立しています。患者ごとに1つの観測値があるためです。しかし、検査室で各チューブの血液を右隣の9本のチューブに流してしまったとします。つまり、チューブ10には患者10の血液だけでなく、患者1~9の血液も混ざっているという状況です。チューブ11には患者11の血液に加え、患者2~10の血液が入っています。こうなると、各患者のコレステロール値が確実にわからない状態で、高コレステロールを予測する特徴量(食事、運動、年齢など)を特定する必要があります。これは、金融機械学習で直面する課題と同等で、さらに血液の混入パターンが非決定的かつ未知であるというハンディキャップが加わります。
同時発生する観測値で学習したモデルは、同じパターンを何度も学習するためインサンプル性能が過大評価されますが、実際のアウトオブサンプルではそのパターン出現頻度がモデルの想定よりも低いため、性能が低下します。
サンプル重み付けは、この問題に対する有効な解決策となります。すべての観測値を同等に扱うのではなく、各観測値が持つ固有情報量に応じて重みを割り当てます。重複が多い観測値は低い重み、真に独立した観測値は高い重みを付与します。
作者: Patrick Murimi Njoroge