記事についてのディスカッション

 

新しい記事「高度なリサンプリングと総当たり攻撃によるCatBoostモデルの選択」はパブリッシュされました:

本稿では、モデルの一般化可能性を向上させることを目的としたデータ変換への可能なアプローチの1つについて説明し、CatBoostモデルの抽出と選択についても説明します。

前の記事で使用したラベルの単純な無作為抽出には、いくつかの欠点があります。

  • クラスが不均衡になる可能性 - 訓練期間中に、母集団(相場履歴全体)が上下両方の動きを示唆する一方、市場が主に上昇していたと仮定します。この場合、ナイーブな抽出では、買いラベルが多くなり、売りラベルが少なくなります。したがって、あるクラスのラベルが別のクラスよりも優先されます。モデルは売り取引よりも買い取引を予測する頻度が高くなりますが、これは、新しいデータでは無効になる可能性があります。

  • 機能とラベルの自己相関 - 無作為抽出が使用される場合、同じクラスのラベルは互いに続きますが、特徴自体(たとえば、増分など)はほとんど変化しません。このプロセスは、回帰モデルの訓練の例を使用して示すことができます。この場合、モデルの残差に自己相関が観察され、モデルの過大評価と過学習が発生する可能性があります。この状況を以下に示します。


モデル1には残差の自己相関があり、特定の市場プロパティ(たとえば、訓練データのボラティリティに関連する)でのモデルの過剰適合と比較できますが、他のパターンは考慮されません。モデル2には、(平均して)同じ分散の残差があります。これは、モデルがより多くの情報をカバーしているか、他の依存関係が見つかったことを示します(隣接する抽出の相関に加えて)。

作者: Maxim Dmitrievsky