記事「データサイエンスと機械学習(第29回):AI訓練に最適なFXデータを選ぶための重要なヒント」についてのディスカッション

 

新しい記事「データサイエンスと機械学習(第29回):AI訓練に最適なFXデータを選ぶための重要なヒント」はパブリッシュされました:

この記事では、AIモデルのパフォーマンスを向上させるために、最も適切で高品質なFXデータを選択するための重要な側面について深く掘り下げます。

MetaTrader 5には36種類以上の指標が内蔵されており、相関ストラテジーのデータとして利用できる銘柄ペアも100種類以上存在します。さらに、トレーダーにとって価値のあるニュースなど、さまざまな取引データや情報が豊富にあります。 つまり、トレーダーが手作業で取引を行う際や、取引ロボットを用いてスマートな取引判断をおこなうための人工知能モデルを構築する際に利用できる情報は膨大です。

しかし、私たちが持っている情報の中には、役に立たない情報も含まれていることは常識です。  すべての指標、データ、戦略が、特定の取引銘柄や状況に対して有用であるとは限りません。取引や機械学習モデルの効率性と収益性を最大化するためには、どの情報が適切であるかをどう判断すればよいのでしょうか。そこで、特徴選択の重要性が浮かび上がります。

作者: Omega J Msigwa

 
私がまさに理解しようとしていたことであり、自分自身で相関関係をチェックするために取り組んでいた。パイソンファイルもありがとう。いくつかの分析の後、何が可能かについて私の目を開いてくれてありがとうと言いたい。
 
«Объединяя или удаляя сильно коррелированные признаки, можно упростить модель, не теряя при этом важной информации. Например, в представленной выше корреляционной матрице переменные Open, High и Low имеют 100% корреляцию. Их корреляция составляет 99 с лишним % (округленные значения). В этом случае можно исключить часть этих переменных, оставив лишь одну, либо применить методы снижения размерности, которые мы рассмотрим далее.»
市場データを殺す。

たとえば、この記事https://link.springer.com/article/10.1186/s40854-024-00622-6?utm_source
では、OHLCは 単なる4つの数字ではなく、 1つのトポロジカルなオブジェクト であることを証明している

Closeだけを残すと、バー内のボラティリティに関する情報が失われる。99%という高い相関は線形回帰にとっては「ノイズ」だが、トレーダーにとってはその1%の差が「シグナル」である(シャドーの長さ、ブレイクアウトの強さ)。相関する」価格を取り除くと、ローソク足チャートは線形チャートに変わり、ローソク足分析の本質を破壊する。


「相関係数は数値変数間の線形関係のみを評価する。"

著者自身もこの手法の限界を認めているが、それでも特徴選定のために使うことを提案している。
市場は線形ではない。同記事では、構造的限界High Close)という概念を紹介している。ピアソン相関はこのような制約を見ていない。最初の記事の論理に従い、「冗長な」High/Lowを削除すると、モデルは許容値の限界を理解しなくなる。その結果、両者の始値が一致する場合、「平穏な市場」と「巨大な尾を引く市場」の違いを理解できないアルゴリズムが得られる。


「次元を小さくすることでモデルを単純化し、計算コストを削減する。"

これは "マッチの節約 "である。
データを単純化するためにデータを "捨てる "のではなく、データを変換(Unconstrained Transformation)することができる。HighとLowはOpenと相関があるため削除する代わりに、相対値(ローソクの広がり、極端値に対する近い位置)に変換する必要があります。こうすることで、次元数は変わらない(あるいは若干少なくなる)が、情報量(ジオメトリ)は100%のままであり、相関の問題は消える。

A structural VAR and VECM modeling method for open-high-low-close data contained in candlestick chart - Financial Innovation
A structural VAR and VECM modeling method for open-high-low-close data contained in candlestick chart - Financial Innovation
  • 2024.03.05
  • link.springer.com
The structural modeling of open-high-low-close (OHLC) data contained within the candlestick chart is crucial to financial practice. However, the inherent constraints in OHLC data pose immense challenges to its structural modeling. Models that fail to process these constraints may yield results deviating from those of the original OHLC data...