トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング

Maxim Dmitrievsky 2018.01.06 11:28 #5521

エリブラリウス

ミスド)

もうひとつ、例えば0ではなく、0.5とした場合、その方法でもサンプルごとに「浮く」ことになります。

各入力のレンジを手動で設定するのみです。しかし、それをどのように判断するかは明確ではありません。例えば、1年間データを実行し、1～5％の異常値を拒否することができます。そして、1年間一緒に仕事をする。1年後には変わっているでしょうが。

そうです、まず利用可能な最大のサンプルを取って、乗数を求める必要があります（私はなぜか乗数という名前にしています :)。

そして、新しいサンプルが突然高い値を示したら...まあ、それで割るしかないでしょう。しかし、例えばclose[0]/close[10]のように小さなラグで増分する場合はほとんど起こりませんし、close[0]/close[100]ではすでにもっと頻繁に起こることがあります。

0.5なんて考えている暇はないんです。:)

СанСаныч Фоменко 2018.01.06 11:37 #5522

ターゲット変数と関係のある予測変数のみを使用する必要があります。直線的に」か「非直線的に」かは、非常に正確に表現された「関係を持つ」とは無関係、無関係。

改めて「関係がある」の意味を明らかにするために、このスレッドで何度か出したことのある例を挙げます。

ターゲット：人口、男性と女性の2つのクラスがあります。

服装という一つの指標をとってズボンとスカートの2つの価値観を持っています。

このようなクラスとこのような予測器があれば、予測器のある部分は「ズボン-男性」「スカート-女性」という基準で、あるクラスを予測し、他の部分は他のクラスを予測することになるのです。理想は、間違いのない分類を構築することである。

このシステムをスコットランド人に当てはめると、男女が着用する「スカート」に重なりが出てくる。この重なりは、誤差の上限を与えることになり、克服することはできない。

1月1日以前と1月1日以降の2種類の時間ファイルでモデルをテストすることが義務付けられています。

最初のファイルで：ティーチ、テスト、"out-of-sample".3つの誤差がほぼ等しい場合、2番目のファイルで実行します - 誤差は最初の3つと大きく違わないはずです（10%以下）。

このモデルは再トレーニングされません。

PS.

コーヒーのカス」というターゲットに関係のない予測因子を入れれば、誤差は激減します。私自身は、誤差が10％以下のモデルは検討しません。しかし、いつも同じように、2番目のファイルのエラーは、1番目のファイルのエラーの倍数になっています。モデルはREBUILDで、分類誤差を減らすためにノイズから値を拾っていますが、将来的にはそのような値は存在しない可能性が高いですし、存在するでしょうし、時代的にも......。このモデルには予測能力がない。

Forester 2018.01.06 11:52 #5523

サンサンフォーメンコ。

最初のファイルについて：学習、テスト、「サンプル外」。3つの誤差がほぼ等しい場合、2番目のファイルで実行します。誤差は最初の3つとあまり変わらない（10%以下）はずです。

とはどのような違いがあるのでしょうか。

1)最初のファイルから「サンプル切れ」部分＋もう1つの「サンプル切れ」ファイル

2)と1つの「サンプル外」ですが、2つ目のファイルを含むより大きなセクション？

結果は同じになるような気がします。最初のバリアントですべてが悪いと、2番目のファイルでも同じデータですべてが台無しになります。

Mihail Marchukajtes 2018.01.06 11:54 #5524

NSの研修では、一般的に3つのセクションがあります。トレーニングセクション、テストセクション、コントロールセクション。テスト区間での誤差が正常範囲内であれば、モデルの再教育は行われないと判断します。IMHO

Forester 2018.01.06 12:10 #5525

ミハイル・マルキュカイツ

NSの研修では、一般的に3つのセクションがあります。トレーニングセクション、テストセクション、コントロールセクション。テスト区間での誤差が正常範囲内であれば、モデルの再教育は行われないと判断します。IMHO

私もそう思いますが、なぜSanSanychが第4部（第2オフィスの方）を導入するのかが不明です。結局のところ、一方を拡張して両方を含めることは可能なのです。

СанСаныч Фоменко 2018.01.06 12:43 #5526

エリブラリウス

とはどのような違いがあるのでしょうか。

1)最初のファイルから「サンプル切れ」部分＋もう一つの「サンプル切れ」ファイル

2)と、2つ目のファイルを含む「サンプル外」だが大きめのセクションが1つ？

結果は同じになるような気がします。2つ目のファイルの1つ目で調子が悪いと、2つ目のファイルでも同じデータで調子が悪くなります。

最初のファイルはランダムに3つの部分に分けられます。つまり、トレーニングサンプル、テストサンプル、コントロールサンプルが日付ごとに混在しているのです。実際の取引では、そんなことは起こりません。

しかし、2つ目は模造貿易です。私たちはいつもトレーニングセクションのAFTERで貿易を行います。あなたの見解とは逆に、2つ目のファイルの結果が1つ目のファイルの結果と大きく異なることが非常に多く、モデルは過剰に学習さ れ、使用には適さないのです。

Ivan Negreshniy 2018.01.06 12:56 #5527

グリゴリー・チャウニン

https://github.com/RandomKori/Py36MT5 MT5用Pythonライブラリのソースはこちらです。唯一の問題は、配列の場合です。配列の受け渡しや受信が正常に行われない。Visual StudioでDLLのコードをデバッグしてみました。そこではすべてがうまくいく。問題は、端末のバグかもしれないということです。ライブラリとの連携方法は書いていません。意味がないんです。アレイがなければ誰も必要としない。pythom.mqhファイルにねじ込まれているかもしれませんが、それを理解するのを助けてください。すべてが役に立つでしょう。

良いアイデアで便利なMT5ライブラリですが、pythonのスクリプトファイルと同期させるのがやや面倒です。

MQLの変数とPythonの変数をローカル辞書を通じて直接同期させ、EAのコード内の文字列定数から直接Pythonのコードフラグメントを実行する方が良いと思います。

試しにbcc64をコマンドラインからコンパイルしてみたところ、python3.6で問題なく動きました。

#include <stdio.h>
#include "python.h"
#pragma link "python36.lib"

int main(int argc, char **argv)
{
  Py_Initialize();
  PyObject* main = PyImport_AddModule("__main__");
  PyObject* global = PyModule_GetDict(main);
  PyObject* local = PyDict_New();

  int a, b = 2, c = 2; // synchronize python variables and calc a = b * c
  PyDict_SetItemString(local, "b", PyLong_FromLong(b));
  PyDict_SetItemString(local, "c", PyLong_FromLong(c));
  a = PyLong_AsLong(PyRun_String("b * c", Py_eval_input, global, local));
  printf("%d*%d=%d\n",b,c,a);

  PyRun_SimpleString("import sys"); // import python sys and read version
  printf(_PyUnicode_AsString(PyRun_String("sys.version", Py_eval_input, global, local)));

  Py_Finalize();
  return 0;
}

この機能を御社のライブラリに追加していただけるとうれしいのですが。

ちなみに、この新しいニューラルネットワークについては、こちらの枝に書きましたが、FisherのIrisを使った例題でテストした予備結果によると、TensorFlowのDNNよりも3桁速く学習でき、テスト結果も同等でした。

Forester 2018.01.06 13:09 #5528

サンサニッチ・フォメンコ

最初のファイルはランダムに3つの部分に分けられます。つまり、トレーニング、テスト、コントロールのサンプルは日付ごとに混在しています。実際の取引ではこうはいきません。

しかし、2つ目は模造貿易です。私たちはいつもトレーニングセクションのAFTERで貿易を行います。しかし、2つ目のファイルの結果が1つ目のファイルの結果と大きく異なることはよくあることで、モデルが過剰に訓練さ れ、目的に合っていないのです。

私はいつも最初の3つのパートを順番に並べます。そして、3rdが悪いと、モデルはオーバートレーニングになってしまいます。

Mihail Marchukajtes 2018.01.06 16:26 #5529

データの重複があると、モデルの戦闘への参加が遅れるので注意しましょう。これは、後に受信する信号の品質に直接影響します...。

個人的には、次のような方法論を選びました。買いシグナルで得られたモデルを反転させ、同じ部分の売りシグナルでテストしてみました。そのため、貴重な時間を無駄にすることなく、モデルの能力を適切に見積もることができるのです。IMHO

Mihail Marchukajtes 2018.01.06 16:27 #5530

サンサニッチ・フォメンコ

最初のファイルはランダムに3つの部分に分けられます。つまり、トレーニング、テスト、コントロールのサンプルは日付ごとに混在しています。実際の取引ではこうはいきません。

しかし、2つ目は模造貿易です。私たちはいつもトレーニングセクションのAFTERで貿易を行います。しかし、2つ目のファイルの結果が1つ目のファイルの結果と大きく異なることはよくあることで、モデルが過剰に学習さ れ、目的に合っていないのです。

予測システムにとって、データの到着順序は重要である。分類については、NO.

トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング - ページ 553