記事「CatBoostモデルにおける交差検証と因果推論の基本、ONNX形式への書き出し」についてのディスカッション

MetaQuotes 2024.04.11 14:24

新しい記事「CatBoostモデルにおける交差検証と因果推論の基本、ONNX形式への書き出し」はパブリッシュされました:

この記事では、機械学習を使用してボットを作成する方法を提案しています。

結論が間違っていることが多く、検証する必要があるように、機械学習モデルによる予測結果も再確認する必要があります。再確認のプロセスを自分に向ければ、自制心が生まれます。機械学習モデルの自己制御は、異なるが似たような状況で何度も予測に誤りがないか確認することに尽きます。モデルのミスが平均的に少なければ過学習ではないことを意味しますが、頻繁にミスをする場合は、そのモデルに何か問題があることを意味します。

選択したデータでモデルを一度訓練すると、自己制御ができなくなります。無作為なサブサンプルでモデルを何度も訓練し、それぞれの予測の質を確認し、すべての誤差を合計すれば、実際に間違っているケースと、よく当たっているケースについて、比較的信頼性の高い図を得ることができます。これらのケースは、2つのグループに分けられ、互いに分離することができます。これは、ウォークフォワード検証や交差検証の実施に似ているが、追加要素があります。これが自制心を獲得し、よりロバストなモデルを得る唯一の方法です。

したがって、訓練データセットで交差検証をおこない、モデルの予測値と訓練ラベルを比較し、すべてのフォールドで結果を平均化する必要があります。平均的に誤って予測された例は、最終的な訓練セットから誤りとして削除されるべきです。また、予測可能なケースと予測不可能なケースを区別し、すべての可能な結果をより完全にカバーできるようにするために、すべてのデータに対して2つ目のモデルを訓練する必要があります。

作者: Maxim Dmitrievsky

fxsaber 2023.11.21 15:51 #1

Если модель в среднем мало ошибается, значит она не переобучена, если же ошибается часто, значит с ней что-то не так.

しかし、この提案にはなんという落とし穴がある！モデルをエラー率でランク付けし、その中からベストなものを選ぶと、これまたオーバートレーニングになってしまう。

fxsaber 2023.11.21 16:01 #2

Поэтому необходимо провести кросс-валидацию на тренировочном датасете, сравнить предсказания модели с обучающими метками и усреднить результаты по всем фолдам. Те примеры, которые в среднем были предсказаны неверно, следует удалить из финальной обучающей выборки как ошибочные. Еще следует обучить вторую модель уже на всех данных, которая отличает хорошо предсказуемые случаи от плохо предсказуемых, позволяя наиболее полно охватить все возможные исходы.

最初のモデルは取引を行い、2番目のモデルは弱い取引場所を分類（予測）する。そうだろう？

Maxim Dmitrievsky 2023.11.21 16:23 #3

fxsaber #:
最初のモデルは取引を行い、2番目のモデルは弱い取引場所を分類（予測）する。そうでしょう？

そうですね

Maxim Dmitrievsky 2023.11.21 16:23 #4

fxsaber #:
しかし、この提案にはなんという落とし穴がある！もしモデルがエラー率でランク付けされ、その中からベストなものが選ばれるのであれば、それはまたオーバートレーニングになってしまう。

まあ、常に選択肢はあるべきですが :)

重要なのは、すべてのモデル＋-がOOSをパスするということだ。

これは数十あるアルゴリズムの中で最も理解しやすいものです。過去の記事からのフィードバックでは、読者は何が起こっているのか理解していないようだった。それなら、書く意味はない。

Maxim Dmitrievsky 2023.11.21 16:30 #5

MoDにおける統計的手法に特化した興味深い議論だ。

mytarmailS 2023.11.21 17:02 #6

1) トレースでもテストでもなく、モデルの作成と選択に一切関与していない3つ目のサンプルに対するモデルのパフォーマンスを見たい。

2) ノイズ検出とラベルの再ラベリングまたはメタラベリングについては、Vladimirが2017年の論文で説明しており、彼はこの目的のためにNoiseFiltersRパッケージを使用している。

Глубокие нейросети (Часть III). Выбор примеров и уменьшение размерности

www.mql5.com

Эта статья продолжает серию публикаций о глубоких нейросетях. Рассматривается выбор примеров (удаление шумовых), уменьшение размерности входных данных и разделение набора на train/val/test в процессе подготовки данных для обучения.

Maxim Dmitrievsky 2023.11.21 18:14 #7

mytarmailS #:

1) t-trainでもテストでもなく、モデルの作成と選択に一切関与していない第3のサンプルに対するモデルのパフォーマンスを見たい。

ボットは論文に添付されている

これは数十から数百の類似した方法のうちのいくつかを記述しているもので、特に結果を検証することなく、その一つ一つを掘り下げる気はない。それよりも、自分でデザインしてすぐにテストすることに興味がある。コアのアプローチは、他のコードを変更することなく簡単に追加・書き換えが可能で、これも非常にクールだ。このCVを使ったバグ発見の例には、因果推論について十分に語ることができない欠点があるので、これは入門編である。また別の機会に説明しようと思う。

この記事は、MOで実験するための既成のソリューションなので、すでに有用である。関数は最適化されており、高速に動作する。

Yevgeniy Koshtenko 2023.11.21 19:03 #8

素晴らしい。勉強になります。私もONNXでランダムフォレストモデルをエクスポートするための資料を作成し、現在テスト中です。）

Maxim Dmitrievsky 2023.11.21 19:50 #9

Yevgeniy Koshtenko ランダムフォレストモデルをエクスポートするための資料を作りました。）

より多くのMOは大歓迎です :)私もアマチュアです。

Forester 2023.11.21 20:54 #10

。順序を逆にすることはできない。

   int k = ArraySize(Periods) - 1;
   for(int i = 0; i < ArraySize(Periods); i++) {
      f[i] = features[i];
      k--;
   }

f[k] = features[i];

なぜ順番を逆にするのか？

1 2

新しいコメント