もちろん、このテーマは永遠であり、常に関連性がある。
合成データではなく、実際のデータで、その有効性を比較するために、異なる方法を記事にするのは良いことだろう。
特徴数を5000に、行数を10000に増やしてみたが、結果を3日間待ったが結果は出なかった。では、特徴量の数をグループ分けして、例えば100例ずつにして、各グループから勝者を集めて最終的な選択をしたら、品質が著しく低下するのではないだろうか?
取引の機会を逃しています。
- 無料取引アプリ
- 8千を超えるシグナルをコピー
- 金融ニュースで金融マーケットを探索
新しい記事「主成分を用いた特徴量選択と次元削減」はパブリッシュされました:
この記事では、Luca Puggini氏とSean McLoone氏による論文「Forward Selection Component Analysis: Algorithms and Applications」に基づき、修正版のForward Selection Component Analysis (FSCA)アルゴリズムの実装について詳しく解説します。
金融時系列予測では、多数の特徴量を分析する必要があり、その多くが高い相関を持つ場合があります。次元削減技術として一般的に使用される主成分分析(PCA)は、これらの特徴をよりコンパクトに表現する際に役立ちます。しかし、PCAには限界があり、特に高相関の変数が含まれる場合には課題が生じます。このようなケースでは、PCAは「グループ化効果」と呼ばれる特性を示し、高相関の変数群が特定の主成分に集合的に寄与する傾向があります。PCAは個々の変数を際立たせるのではなく、相関のある変数群全体にわたって影響を比較的均等に分散させるのです。
この均等分散は、主成分が個別のランダムな揺らぎではなく共通のパターンを強調するため、ノイズ抑制には有益です。しかし、その代償として、主成分ごとの個々の変数の寄与が希薄化される場合があります。独立して重要である可能性のある変数も、その影響が変数群に吸収され、変換後の空間内では重要性が低下したように見えることがあります。これは、変数選択で最も影響力のある特徴を特定する場合や、特定の変数の直接的な影響を分析する必要がある根本原因分析において、大きな欠点となる可能性があります。
作者: Francis Dube