記事についてのディスカッション

 

新しい記事「高度なリサンプリングと総当たり攻撃によるCatBoostモデルの選択」はパブリッシュされました:

本稿では、モデルの一般化可能性を向上させることを目的としたデータ変換への可能なアプローチの1つについて説明し、CatBoostモデルの抽出と選択についても説明します。

前の記事で使用したラベルの単純な無作為抽出には、いくつかの欠点があります。

  • クラスが不均衡になる可能性 - 訓練期間中に、母集団(相場履歴全体)が上下両方の動きを示唆する一方、市場が主に上昇していたと仮定します。この場合、ナイーブな抽出では、買いラベルが多くなり、売りラベルが少なくなります。したがって、あるクラスのラベルが別のクラスよりも優先されます。モデルは売り取引よりも買い取引を予測する頻度が高くなりますが、これは、新しいデータでは無効になる可能性があります。

  • 機能とラベルの自己相関 - 無作為抽出が使用される場合、同じクラスのラベルは互いに続きますが、特徴自体(たとえば、増分など)はほとんど変化しません。このプロセスは、回帰モデルの訓練の例を使用して示すことができます。この場合、モデルの残差に自己相関が観察され、モデルの過大評価と過学習が発生する可能性があります。この状況を以下に示します。


モデル1には残差の自己相関があり、特定の市場プロパティ(たとえば、訓練データのボラティリティに関連する)でのモデルの過剰適合と比較できますが、他のパターンは考慮されません。モデル2には、(平均して)同じ分散の残差があります。これは、モデルがより多くの情報をカバーしているか、他の依存関係が見つかったことを示します(隣接する抽出の相関に加えて)。

作者: Maxim Dmitrievsky

 
GMMの代わりにEM(Expectation Maximisation)を加えるというアイデアはなかったのですか?
 
Stanislav Korotky:
GMMの代わりにEM(Expectation Maximisation)を使うというアイデアはありませんでしたか?

私が理解している限りでは、EMアルゴリズムですでに機能しています。

これにディープニューラルネットワークを 使うアイデアもありますが、まだ研究中です。

 
Maxim Dmitrievsky:

私が見た限りでは、すでにEMアルゴリズムが実行されている。

このためにディープニューラルネットワークを使うアイデアもあるが、まだ研究中だ。

わかりました。また、元の系列を反転させるアプローチも研究中です。

 
Stanislav Korotky:

OKだ。この方法だと、クラスのバランスは自動的に調整される。

オプションとして、オーバーサンプリング・アンダーサンプリングとそれらの組み合わせを使うことができる。しかし、GMMがそうであったのに対して、これは有意な改善を与えなかった。さらに、クラスタは多ければ多いほどよい。純粋に経験的なものです。

https://imbalanced-learn.readthedocs.io/en/stable/index.html。リサンプリングに関する良い記事がある。

カーネル 密度推定もGMMより悪い。ディープ・ニューラル・ネットワークは、理論的にはGMMよりも優れているはずである。なぜならGMMは大きな特徴空間ではうまく機能しないからだ。

Welcome to imbalanced-learn documentation! — imbalanced-learn 0.5.0 documentation
  • imbalanced-learn.readthedocs.io
The exact API of all functions and classes, as given in the doctring. The API documents expected types and allowed features for all functions, and all parameters available for the algorithms.
 

興味深い記事だ。

ランダム割り付けと擬似サンプル生成というトリッキーな方法で、トレーニング期間からテストに有意な同様の依存関係を見つけるだけだと感じました。

テストに失敗するモデルの割合は?

3つ目のサンプルを追加して、1つ目のサンプルから学び、テストで良い結果を選択し、試験で選択結果をチェックするのは面白いでしょう。

 
主な疑問点は、最新のデータから学び、古いデータでテストすることである。現在の最新モデルには以前のモデルのものが組み込まれているが(市場参加者には記憶がある)、その逆で未来を予測するのは難しい。アルゴリズムを正規の方法(古いデータでトレーニングし、新しいデータでテストする-この方が現実に近い)で再開すると、結果はあまりよくないと思う。
 
Stanislav Korotky:
主な疑問点は、最新のデータから学び、古いデータでテストすることである。最新の現在のモデルは、以前のモデルから何かを組み込んでいる(市場参加者には記憶がある)が、その逆で未来を予測するのは難しい。アルゴリズムを正規の方法(古いデータでトレーニングし、新しいデータでテストする、より現実に近い方法)で再開すると、結果はあまり良くないと思います。

私が理解する限り、この方法は総当たり時間の問題でしかない。

 
Aleksey Vyazmikin:

私が理解する限り、この方法では総当たり時間の問題でしかない。

そうだったのか。間違っているかもしれないが、設定では2015年から、昨年はトレーニング、前年はテストと鉄則で定められている。

 
Stanislav Korotky:

それは知らなかった。間違っているかもしれないが、設定では2015年から前年度にトレーニング、前年度にテストすることが鉄則として定められている。

つまり、2015年からの全期間において有効であったパターンを2020年に見つけるというブルートフォースが存在する。理論的にはもっと総当たりする必要があるかもしれないが、目的は達成される。もうひとつは、それがパターンなのかフィッティングなのかが明確でないことで、この疑問に対する仮説的な答えさえなければ、TCを実戦に導入することの実現可能性を判断することは難しい......。

 
Aleksey Vyazmikin:

つまり、オーバーサンプリングが行われているのだ。その目的は、2015年以降、全期間にわたって有効であったパターンを2020年に見つけることである。理論的には、もっと総当たりする必要があるかもしれないが、目的は達成される。もうひとつは、それがパターンなのかフィッティングなのかが明確でないことで、この疑問に対する仮定の答えさえなければ、TCを現実に設置することの便宜性についての判断を下すことは難しい......。

何を規則性と考えるかにもよるが、もしそれが時間に縛られたインクリメントの順序であれば、それはインクリメントの振る舞いの季節的な規則性 であり、縛りがなければ、精度にある程度の自由がある同じインクリメントの順序である。

また、何をフィッティングとみなすかにもよる。しかし、テストの目的は(どちらからであれ)同一でない領域での結果をチェックすることである。

また、近過去でトレーニングするという論理は論理的ではあるが、歴史の深さでテストしても、近過去でテストしても結果は同じはずである。

我々は、テストとトレーニングのプロットに規則性があるという仮説を確認するだけである。