記事についてのディスカッション

MetaQuotes 2020.12.22 10:03

新しい記事「PythonやRの知識が不要なYandexのCatBoost機械学習アルゴリズム」はパブリッシュされました:

この記事では、具体的な例を用いて、機械学習プロセスのコードと主要な段階の説明をします。このモデルを取得するためには、PythonやRの知識は必要ありません。さらに、MQL5の基本的な知識があれば十分です - まさに私のレベルです。したがって、この記事が、機械学習の評価やプログラムへの実装に興味のある人たちの手助けとなり、幅広い人たちの良いチュートリアルとなることを期待しています。

結果はあまり印象的ではありませんが、メインのトレードルールである「損切りを避ける」が観察されていることに注目しましょう。 CB_Svod.csvファイルから別のモデルを選択しても、得られた最も失敗したモデルの決算は-25ポイント、全モデルの平均決算は3889.9ポイントなので、効果はプラスになります。

図9 学習したモデルの財務結果期間 01.08.2019 - 31.10.2020

作者: Aleksey Vyazmikin

削除済み 2020.11.09 14:17 #1

記事をありがとうございます。ROC-AUC、Accuracy、F1、あるいは他の何か。

Aleksey Vyazmikin 2020.11.09 14:36 #2

Maxim Dmitrievsky:
記事をありがとうございます。ROC-AUC、Accuracy、F1、あるいは他の何かでしょうか？

どういたしまして :)

私は、2値分類の場合、0が単位を上回り、単位の値が0よりはるかに高い、アンバランスなサンプルを扱うことがほとんどです。実際、私はRecallとPrecisionだけを見ています。

Recall - モデルが受け取った "知識 "によるモデルの活動を示します。すなわち、モデルがユニットの形の "刺激 "に応答する頻度を示します。

精度- 反応の精度を示し、ここでは、戦略によっては、この精度は小さなパーセンテージ、例えば45％でも許容できる。

標準的な測定基準は、主に分類されたオブジェクトの同等性を考慮に入れますが、これは最終決定を下すには十分ではありません。

モデルのグループを選択するために、私は「エラー・バランス」というメトリクスも使っています。

一般的に、30以上の異なるメトリクスが使用されています。

削除済み 2020.11.09 15:03 #3

Aleksey Vyazmikin:

どういたしまして :)

私は、バイナリ分類の場合、ゼロが単位よりも多く、単位の値がゼロよりもはるかに多い、アンバランスなサンプルを扱うことがほとんどです。実際、私はRecallとPrecisionしか見ていません。

Recallは、モデルがユニットの形の「刺激」に反応する頻度を示し、指数が高いほど、モデルが反応するユニットの割合が高くなります。

Precision（精度） - フィードバックの精度を示し、この精度は、戦略によっては、例えば45％のような小さなパーセンテージでも許容できる。

標準的な測定基準は、主に分類されたオブジェクトの同等性を考慮に入れますが、これは最終決定を下すには十分ではありません。

モデルのグループを選択するために、私は「エラー・バランス」という指標も使っています。

一般的に、30以上の異なる測定基準が使用されます。

それぞれの戦略について、条件的に言えば、シグナルの頻度が少ない別々のモデルを使い、それらを組み合わせるということですか？記事を読んでもよくわかりませんでした。アプローチの哲学自体は興味深い。以前、MOのトピックで葉の選択などについて話していましたね。それとも別の話題ですか？

Aleksey Vyazmikin 2020.11.09 15:10 #4

Maxim Dmitrievsky:
つまり、シグナルの頻度が少ない個別のモデルを各戦略に使用し、それらを組み合わせるのですか？

シグナルジェネレーターの形式で異なる設定の基本戦略を使用し、それに応じて各シグナルに異なるモデルを使用することを計画しています。予測値を計算するプロセスにコストがかかるため、1つのExpert Advisorで行う必要があります。現時点では、バーチャル・ポジションを扱うシステムを持っておらず、保留中の注文とストップをサポートすることができない。

Aleksey Vyazmikin 2020.11.09 15:16 #5

Maxim Dmitrievsky:
ただ、記事からはよく理解できなかった。アプローチの哲学自体は興味深い。以前、MOのスレッドで葉の選択などについて話していましたね。それとも別の話題ですか？

葉は別のトピックだ。ブスティングから、実は葉の特徴という点ではあまりよく出ていなかった（最初の木から取っただけ）。先日、XGBoostに葉を保存するオプションがあることを知ったが、Phytonが必要だ。

Denis Kirichenko 2020.11.09 22:26 #6

アレクセイ、スタート！

最初の記事としては、とてもまともだと思う。何十本も記事を書いているライターよりもずっと質が高い。ありがとう、ニュアンスを調べてみるよ。

追伸：ビデオを見ました。こんなに熱心な若者がいるなんて......。

Aleksey Vyazmikin 2020.11.10 04:01 #7

Denis Kirichenko:

アレクセイは驚いた！

最初の記事としては、とてもまともだと思う。何十本も記事を書いているライターよりもクオリティが高い。ありがとうございます。

追伸：ビデオを見ました。こんなに熱心な若者がいるなんて......。

ありがとうございました！

この記事は、CatBoostのコマンドラインでの使用と、その後のMT5への統合に関するマニュアルとして書かれたものですが、私は、基本的に大きなCSVファイルでの作業を容易にしたテーブル「CSVfast」での作業に関する良いクラスを示したいと思い、すでに2年以上使用しています。この必要性の下で、私は標準的なインジケータで実験を行うことにし、それは成功しました。

付録には、EAのコードとインフラ全体を構成するスクリプトがあります。私が説明していることが再現できることが重要でした。

ええ、もちろん若者は違います。ただ、年齢が上がるほど、社会環境から切り離され、客観的に認識されにくくなります。

Andrey Dibrov 2020.11.10 10:53 #8

記事をありがとう。準備中であることは知っていたので、掲載されるのを待っていたのだが......。あなたの記事もマキシム・ドミトリエフスキーの前の記事も、短周期テストの結果は良い。機械学習に関する研究の結果は、nsが訓練されていないデータに対する隣接する短期間のテストは、ほとんど常にニューラルネットワークの学習の論理のみに基づいて入札の肯定的な結果を有し、さらに任意の最適化や再学習を必要とすることを示している。再トレーニングのプロセスを自動化すること、あるいはニューラルネットワークをトレーニングする前に、短いテスト期間とシフト期間を設けることを考えたことはありますか？そうすることで、特定のアプローチの成否をより幅広く把握することができるだろう。

Aleksey Vyazmikin 2020.11.10 11:44 #9

Andrey Dibrov:

記事をありがとう。準備中であることは知っていたので、掲載されるのを待っていたのだが......。あなたの記事もマキシム・ドミトリエフスキーの前の記事も、短周期テストの結果は良い。機械学習に関する研究の結果は、nsが訓練されていないデータに対する隣接する短期間のテストは、ほとんど常にニューラルネットワークの学習の論理のみに基づいて入札の肯定的な結果を有し、さらに最適化や再学習を必要とすることを示している。再トレーニングのプロセスを自動化すること、あるいはニューラルネットワークをトレーニングする前に、短いテストとシフトの期間を設けることを考えたことはありますか？そうすることで、特定のアプローチの成否をより幅広く把握することができるだろう。

記事を面白いと思ってくれてうれしい。

私のアプローチとマキシムの記事のアプローチは、使用するツール（CatBoost）以外はすべて異なっている。私の記事では、サンプルはシグナルごとに準備され、シグナル間に100本以上のバーが経過するのに対し、マキシムの記事では、一般的なパターンを見つけるために各バーに長いトレーニング期間があり、マキシムのトレーニングはよりトレンドに焦点を当て、私は複雑な予測子を使用することを提案し、マキシムの記事では、価格系列の単純な変換の変形を示しています。マキシムは、まず第一に、パイソンでモデルを訓練し、パイソンなしでMT5でそれを適用する方法を示した！私の記事は、CatBoostモデルのMT5へのトレーニングと統合のプロセスにも焦点を当てていますが、トレーニングはpythonではなく、CatBoostライブラリのラッパーである別の独立したコンソールプログラムで行われます。さらにこの記事では、AからZまでの情報の収集と処理の完全なサイクルを示すために、アドバイザーの構造を考慮した。トレーニングの成否は予測変数に左右されるが、この記事では主に標準的なオシレータ形式の予測変数を使用した。目標は、マキシムのように、お金を稼ぐために既製のソリューションを提供することではありませんでしたが、私は良い基盤を与えた。

テストに関しては - あなたは不注意です - マキシムの記事では、4ヶ月間のトレーニング以外のサンプルでのEAの動作を示していますが、私のEAは15ヶ月間肯定的な結果を示しています。市場のボラティリティというパラダイムに忠実であれば、再トレーニングなしで1年以上動作することは非常に良い結果です。

あなたが提案した実験は、サンプルが十分であれば可能ですが、ここでは私の方法はマキシムの記事で説明されている方法よりも劣っています。私の観察によると、特に予測因子が別々に分析されず、選択されないことを考慮に入れると、トレーニングには少なくとも15000シグナルが必要です。

また、テストサンプル(記事中のtest.csv)は、結果モデルの品質を評価する手段としてのみ使用され、トレーニングは行われていないことに注意してください。その結果、2014.06.01から2018.04.30までの全サンプルの60%のみをトレーニングしました。

Andrey Dibrov 2020.11.10 12:29 #10

Aleksey Vyazmikin:

記事を面白いと思ってくれてうれしい。

私とマキシムの記事のアプローチは、CatBoostというツールを除いて、すべてにおいて異なっています。私の記事では、サンプルはシグナルごとに準備され、シグナル間に100本以上のバーが通過することができます。一方、マキシムの記事では、一般的なパターンを検索するために各バーで長いトレーニング期間があります。マキシムは、まず最初に、pythonでモデルを訓練し、pythonなしでMT5でそれを適用する方法を示した！私の記事は、CatBoostモデルのMT5へのトレーニングと統合のプロセスにも焦点を当てていますが、トレーニングはpythonではなく、CatBoostライブラリのラッパーである別の独立したコンソールプログラムで行われます。さらにこの記事では、AからZまでの情報の収集と処理の完全なサイクルを示すために、アドバイザーの構造を考慮した。トレーニングの成否は予測変数に左右されるが、この記事では主に標準的なオシレータ形式の予測変数を使用した。目標は、マキシムのように、お金を稼ぐための既製のソリューションを提供することではありませんでしたが、私は良い基盤を与えた。

テストに関しては - あなたは不注意です - マキシムの記事では、4ヶ月間のトレーニング以外のサンプルでのEAの動作を示していますが、私のEAは15ヶ月間肯定的な結果を示しています。あなたが市場のボラティリティのパラダイムに固執する場合、再トレーニングなしで1年以上動作することは非常に良い結果です。

あなたが提案した実験は、サンプルが十分であれば可能ですが、ここでは私の方法はマキシムの記事で説明されている方法よりも劣っています。私の観察によると、特に予測変数が個別に分析されず、選択されないことを考慮に入れると、トレーニングには少なくとも15000のシグナルが必要です。

私は、テスト期間の長さに注意を払った。しかし、安定した肯定的な結果は、トレーニング期間に隣接する短い期間、つまり1カ月～2カ月で得られています。仮に2年間の履歴でトレーニングするとしよう。テスト＋1ヶ月。結果を保存する。トレーニング（再トレーニング）の前に、この月をシフト（または追加）する。テスト＋月。結果を保存。などなど。

1 2 3 4 5 6 7 8

新しいコメント