マトリックスパッケージの研究

削除済み 2016.02.16 21:37 #71

Alexey Volchanskiy:
議論に参加している皆さんに関連した質問をします。ティックデータを扱うのですか？私は長い間、バー分析から離れ、もっぱらDSPの手法に取り組んできました。

私はLevel2だけでなく、Ascを使ったM1-bar bidも使っています。

Alexey Volchanskiy 2016.02.16 21:40 #72

zaskok3:
Level2だけでなく、askでM1-bar bidを使用しています。

L2はMT5に搭載されていますか？

Alexey Burnakov 2016.02.16 21:42 #73

Vladimir Perervenko:

ご紹介の記事は、回帰に関するものです。私たちは、分類を扱っています。この2つが大きな違いです...。

まだ質問が理解できません。

グッドラック

ここでは、回帰も分類も関係ない。すべて同じです。あくまで回帰に特化した記事です。

1本のバー（データ配列の各行の入力）、またはn本のバー、行間にタイムラグがあるように、どのようなステップを踏んで学習させるのか、例を挙げてください。

私はただオタクなだけではありませんし、確かにあなたの仕事を貶めたいわけでもありません（あなたの記事には助けられています）。

統計的な研究結果を引用するのではなく、実際の例で説明しましょう。

決定木では、例えばm個の終端ノードを持つことになる。各ノードには、入力ベクトルが類似したケース、つまり入力値の部分空間が含まれることになる。つまり、数バー（最悪の場合、数百バーも）を振り返る入力を使ってバーシフトした例が連続すると、近くのポイント間には明るい自己相関が生じますが、同時に数バー先（最悪の場合、数百バーも）の未来を予測するので、近くの出力も同じになるのです。例えば、出力の列は、0 0 0 0 0 0 0 00 0 1 1 1 1 1 1という配列で形成されることになる。つまり、何十もの同じ出力が、隣接する（類似した）入力を参照して、終端ノードに落ちることになる。同一の事例を時間軸で束ねたものが冗長になり、回答の分布が最も強調された形で歪むと言えるでしょう。そのため、ターミナルでEAをトレーニングする際にも、隣り合ったエントリーやイグジットの依存効果があるため、複数のポジションを市場に維持しないことがよく推奨される理由です。

この場合、厳しい再トレーニングというか、非依存的な観測の統計量を形成することになる。つまり、時系列を解析する際に最も嫌なのは、隣り合うデータベクトルの依存関係が得られることである。データベクトルが時間的に離れていても、大丈夫です。この場合、機械学習は、時間に対して不変なパターンを見つけることに集約される。

そして、記事の中で例としてあげているエラーマトリックスを参考にしながら。

OOB confusion matrix:
          Reference
Prediction   -1    1 class.error
        -1 1066  280      0.2080
        1   254 1043      0.1958

Test set
Error rate: 19.97%

Confusion matrix:
          Reference
Prediction  -1   1 class.error
        -1 541 145      0.2114
        1  119 517      0.1871

素晴らしいとしか言いようがありません。) 実験に誤りがあった。独立した例題を持つサンプルでこのような急峻な誤差行列を達成することはできず、同時にテストデータセットとトレーニングデータセットを時間によって厳密に分離する（ルックアヘッドバイアス）こともできない。

そして、テストセットの誤差行列も素晴らしいことから、類似の例も「寄せ集め」となっている学習用サンプルに時間差で混ざってサンプルが取られていることが推測されます。つまり、この結果は、構築されたモデルが市場を予測する能力について何も語っていないのである。

もう少しデータを取ってtail(all_data, 1/3) ロジックでテストしてみて、行列のセル内の観測数がどのように整列しているかを見てみるとよいでしょう。カイ二乗基準を適用して、推測がほとんどランダムになったかどうかを確認することもできます。

私が伝えたかったことは、すべて実行したつもりです。注・善意で)

がんばってください。アレクセイ

削除済み 2016.02.17 00:10 #74

Alexey Volchanskiy:
L2はMT5で？

MT4です。フォーラムでソースコードが流れてきた...。

Alexey Volchanskiy 2016.02.17 02:30 #75

zaskok3:
MT4です。フォーラムでソースコードが流出した...。

友人や同僚の皆さん、質問があります。

公開されている取引データをもとに、どのようにアルゴリズムを組み立てるのか。

Alexey Volchanskiy 2016.02.17 02:32 #76

Alexey Volchanskiy:

友人や同僚の皆さん、質問があります。

公開されている取引データをもとに、どのようにアルゴリズムを組み立てるのか。

書き方が悪かったのですが、formulate, from the word formula)

削除済み 2016.02.17 08:56 #77

Alexey Volchanskiy:

公開されている取引データをもとに、どのようにアルゴリズムを組み立てるのか。

状態に応じてTSを再構築するのであれば、機械学習を使えばいい。

状態の出力である入力に、たくさんの指標値を取る。数理モデルによるフィッティング。

そんなくだらないものは相手にしなかった。

СанСаныч Фоменко 2016.02.17 08:59 #78

Alexey Volchanskiy:
ところで、議論している皆さんに質問があります。ティックデータを扱うのですか？私はずいぶん前にバー分析から離れ、もっぱらDSPの手法で仕事をしています。

DSPの使用には大いに疑問がある。

ティックデータの場合、共和分説がより適している。

СанСаныч Фоменко 2016.02.17 09:21 #79

Alexey Burnakov:
ここでは、回帰も分類も関係ない。すべて同じです。これはあくまで回帰に特化した記事です。

1本のバー（データ配列の各行の入力）、またはn本のバー、行の間に時間間隔があるように、どのようなステップで学習させるのか、例を挙げて説明してください。

私はただオタクなだけではありませんし、確かにあなたの仕事を貶めたいわけでもありません（あなたの記事には助けられています）。

統計的な研究結果を引用するのではなく、実際の例で説明しましょう。

決定木では、例えばm個の終端ノードを持つことになる。各ノードには、入力ベクトルが類似したケース、つまり入力値の部分空間が含まれることになる。つまり、数バー（最悪の場合、数百バーも）を振り返る入力を使ってバーシフトした例が連続すると、近くのポイント間に明るい自己相関が生じますが、数バー先（最悪の場合、数百バーも）の未来を予測しているので、近くの出力は同じになるのです。例えば、出力の列は、0 0 0 0 0 0 0 00 0 1 1 1 1 1 1という配列で形成されることになる。つまり、何十もの同じ出力が、隣接する（類似した）入力を参照して、終端ノードに落ちることになる。同一の事例が時点をまたいで束ねられた冗長性があり、回答の分布が最も強調された形で歪むと言えるでしょう。そのため、ターミナルでEAをトレーニングする際にも、隣り合ったエントリーやイグジットの依存効果があるため、マーケットで複数のポジションを保有しないことをよく推奨されるのだそうです。

この場合、厳しい再トレーニングというか、非依存的な観測の統計量を形成することになる。つまり、時系列を解析する際に最も嫌なのは、隣り合うデータベクトルの依存関係が得られることである。データベクトルが時間的に離れていても、大丈夫です。この場合、機械学習は、時間に対して不変なパターンを見つけることに集約される。

そして、記事の中で例としてあげているエラーマトリックスを参考にしながら。

素晴らしいとしか言いようがありません。) 実験に誤りがあった。独立した例題を持つサンプルでこのような急峻な誤差行列を達成することはできず、同時にテストデータセットとトレーニングデータセットを時間によって厳密に分離する（ルックアヘッドバイアス）こともできない。

そして、テストセットの誤差行列も素晴らしいことから、類似の例も「寄せ集め」となっている学習用サンプルと時間差で混在したサンプルが取られたことが推測されます。つまり、この結果は、構築されたモデルが市場を予測する能力について何も語っていないのである。

もう少しデータを取ってtail(all_data, 1/3) ロジックでテストしてみて、行列のセル内の観測値の数がどう揃うか見てみるとよいでしょう。カイ二乗基準を適用して、推測がほとんどランダムになったかどうかを確認することもできます。

私が伝えたかったことは、すべて実行したつもりです。注・善意で)

がんばってください。アレクセイ

お節介で申し訳ないのですが、公開討論のようです。

あなたの投稿は、関連するが異なるいくつかの問題が混在しているように私には思えます。

1.モデルには何を教えているのですか？トレンドやレベル分けは？何かからの逸脱？モデルの先生を選ぶのはとても簡単そうに見えますが、実際にはある困難が生じます。とにかく、「私はトレンドをトレードする」というように、自分のトレードアイデアに特化した教師（モデルを学習させるベクトル）を用意することが大切です。

2.何について教えているのですか？あなたの投稿では、隣接するバー間の依存性の存在に言及しています。しかし、あなたが提起した問題は、より広範で厄介なものであり、あなたが使用するモデルとはほとんど関係がありません。それはモデルの再トレーニングです。 私が考えるに、常に過剰に学習されたモデルを生成するデータセットが存在するのです。そして、オーバートレーニングをなくすためのテクニックがいくらあっても、ここでは役に立ちません。

入力データセット（予測変数のセット）の中には、過学習でないモデルを構築するために使用できる予測変数が存在します。しかし、残りの予測変数は非常に多くのノイズを発生させるため、既存の予測変数選択パッケージではこれらのノイズ予測変数をスクリーニングすることができない。

したがって，"我々の教師，ターゲット変数に関連しそうだ "という基準に基づく予測変数の手動選択が必須である．

PS.

おかしな話ですが、トレンドの売買では、平滑化、特にMAによって得られる予測値は非常にノイズが多く、モデルは常に過剰に訓練されます。また、OOVのサンプルで学習させると、同様に5%の誤差を得ることができるのです

Vladimir Perervenko 2016.02.17 10:52 #80

Alexey Burnakov:
ここでは、回帰も分類も関係ない。すべて同じです。あくまで回帰に特化した記事です。

1本のバー（つまり、配列データの各行の入力）、またはn本のバー、行の間にタイムラグがあったように、どのようなステップで撮影されたトレーニングのための例を持っていることを明確にするために？

初期データセットは、入力とターゲットを含む行列またはデータフレームである。トレーニングセットとテストセットに分ける（層別する）場合、サンプルはランダムにシャッフルされるが、セット内のクラスの分布は元のセットと同じに保たれる。そのため、どのようなピッチで撮影されているかは、一概には言えません。明らかにベクトルから行列への変換を混同していますね、そこではタイムラグについて話すことができます。

私はただオタクなだけでなく、確かにあなたの仕事を貶めたいわけではありません（あなたの記事には助けられています）。

そうですね......そういう考えにはほど遠いです。でも、その質問が本当に理解できないんです。

私の考えを、統計調査の引用をせずに、実例で説明しよう。

決定木では、例えばm個の終端ノードを持つことになる。各ノードには、入力ベクトルが類似したケース、つまり入力値の部分空間が含まれることになる。つまり、数バー（最悪の場合、数百バーも）を振り返る入力を使ってバーシフトした例が連続すると、隣接するポイントの間に明るい自己相関が生じますが、同時に、数バー先（最悪の場合、数百バーも）の未来を予測するので、隣接する出力も同じになるのです。例えば、出力の列は、0 0 0 0 0 0 0 00 0 1 1 1 1 1 1という配列で形成されることになる。つまり、何十もの同じ出力が、隣接する（類似した）入力を参照して、終端ノードに落ちることになる。同一の事例を時間軸で束ねたものが冗長になり、回答の分布が最も強調された形で歪むと言えるでしょう。そのため、ターミナルでEAをトレーニングする際にも、隣り合ったエントリーやイグジットの依存効果があるため、マーケットで複数のポジションを保有しないことをよく推奨されるのだそうです。

この場合、厳しい再トレーニングというか、非依存的な観測の統計量を形成することになる。つまり、時系列を解析する際に最も嫌なのは、隣り合うデータベクトルの依存関係が得られることである。データベクトルが時間的に離れていても、大丈夫です。この場合、機械学習は、時間に対して不変なパターンを見つけることに集約される。

そして、記事の中で例としてあげているエラーマトリックスを参考にしながら。

素晴らしいとしか言いようがありません。) 実験に誤りがあった。独立した例題を持つサンプルでこのような急峻な誤差行列を達成することはできず、同時にテストデータセットとトレーニングデータセットを時間によって厳密に分離する（ルックアヘッドバイアス）こともできない。

そして、テストセットの誤差行列も素晴らしいことから、類似の例も「寄せ集め」となっている学習用サンプルに時間差で混ざってサンプルが取られていることが推測されます。つまり、この特別な結果は、構築されたモデルの市場予測能力については何も語っていない。

もう少しデータを取ってtail(all_data, 1/3) ロジックでテストしてみて、行列のセル内の観測数がどのように整列しているかを見てみるとよいでしょう。カイ二乗基準を適用して、推測がほとんどランダムになったかどうかを確認することもできます。

だから、指に例を敷いて説明するのだ......。それとも、私がそのようなテストをしていないとでも思っているのでしょうか？

私が伝えたかったことは、すべて実行したつもりです。お知らせ、善意で )

何を伝えようとしているのか、本当に理解したいのです。例を挙げると、より分かりやすいと思います。

間違って実験をしてしまったと言われたら、それが何なのか、正しい解決方法を教えてあげなければなりません。あなたはパッケージ、例を持っている、あなたは計算を実行するべきだと思う方法を説明します。

悪気はないんです。

グッドラック

マトリックスパッケージの研究 - ページ 8