トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング

Valeriy Yastremskiy 2020.05.14 19:48 #17821

マキシム・ドミトリエフスキー

現在の状態はどうなっているのでしょうか。クラスターについてであれば、新しいデータで統計を掃引すればいいだけです。同じであれば、TCを組むことができます。

バー上のパラメータ。インクリメント、ベロシティ、ヒストリーアベレージ。なぜみんな最後のフルバーでパラメータを考えるのか理解できませんが、本来は不正解です。平均値が平均値幅の半分かそれより少し遅れており、増分が十分でない。そして、シリーズ全体のパラメータをカウントしている人はいません。フラットとトレンドの2つのグラデーションは、面白くもなんともない。

Valeriy Yastremskiy 2020.05.15 07:18 #17822

マキシム・ドミトリエフスキー

クラスタが同じであれば、TCを作ることができます。同じであれば、TCを作ることができる。

クラスタと統計の対象領域を明確に理解する必要がある。70年から20年までのすべての楽器で同一であれば、可能です))

Aleksey Vyazmikin 2020.05.16 15:51 #17823

mytarmailS:

キャットバストは役に立ちません、問題はデータの大きさです、形質も作れない、トレーニングもできないでしょう...。

50kのサンプルを作る、小さくする、深刻にならないようにする、オーバートレーニングの可能性を高める、...などです。..., ...目的は生産用のロボットを作ることですが、共同作業で誤差を減らすだけで、得られた知識はどんなツールや市場にも応用できますし、どんな兆候があるのかを知るには50Kで十分でしょう。

よし、ちょっとだけサンプリングしてみるか。

mytarmailS:

OHLKを知らないなら書かなくていいし、なんでOHLK全体をずらす必要があるんだ？誰もそんなことしない、学習のために1歩だけ未来を見るようにZZをずらせばいい、それだけだ。Vladimir Perervenkoのdeerelearningに関する記事を1つでも読んだことがありますか？ぜひ読んでみてください。データを使った最適な動作が定着し、誰もがそれに慣れているときに、誰かが同じことを別の方法でやろうとすると非常に不快です。それは一種の無意味で迷惑で、その著者のデータで作業しようとする人に多くのエラーを引き起こします。

彼の記事を読んでいますが、私はRのコードを理解していないので、そこにあるすべてを本当に理解することはできません。

そこで、この問題を理解されているあなたにお聞きしたいのです。分類は始値しか分からないゼロバーで行われますが、ゼロバーの始値は使用せず、1バー目以降の情報のみを使用するのですね。実際には、ターゲットがゼロバーのZZベクトルを決定するのですか？次のバーのベクトルが予測されたというのはわかったのですが、それは本質的なことではありませんよね？そうしないと、また何度も手直しをしなければならず、疲れるんです。

データを取ってモデルを適用するためのソリューションが用意されているだけで、計算モデルではないんです。

mytarmailS:

もし、それでも何かやりたいというのであれば、次のような条件があります。

1）データ50〜60kはこれ以上、好ましくは1つのファイル、ちょうど最後のろうそくのNはテストになることに同意するものとします。

2) データは、できれば糊付けなしで、最新の価格だけでなく、糊付けでは不可能なサポートとレジスタンスも考慮できるようにすること

3) ターゲットがすでにデータに含まれていること

4) 日付、時刻、o、h、l、c、ターゲットのフォーマットによるデータ

それとも、データセットを作成したほうがいいのでしょうか？

コミットメントをした人たち、つまり私ではない人たちに要求すればいいのです :)取引しよう。

1.トレーニング用に50本、テスト用にもう50本（トレーニング以外のサンプリング）やってみましょう。

2.OKです。

3.OKです。

4.OKです。

追記：Si-3.20のフューチャーはノーマルバー（22793）が足りず、接着が嫌なことに気づく。

スベルのサンプルを追加 - アキュラシー67を得た。

ファイル:

Setup.zip 891 kb

mytarmailS 2020.05.17 04:56 #17824

アレクセイ・ヴャジミキン

そこで、せっかくわかったのだから聞いてみよう。分類は始値しか分からないゼロバーで行われますが、ゼロバーの始値は使用せず、1バー以降の情報のみを使用するのですね。実際には、ターゲットがゼロバーのZZベクトルを決定するのですか？次のバーのベクトルが予測されたというのはわかったのですが、それは本質的なことではありませんよね？そうしないと、また何度も手直しをしなければならず、面倒です。

分類は、既知の句（すなわち、本格的なOHLSキャンドル）が、我々は将来のろうそくのZZ記号を予測し、最後のバーで行われます。なぜ私は理解することはできません唯一の既知のオプションのアカウントにろうそくを取る、複雑さのほかに利点は何ですか？理解と実現の両方で、あなたはオプション[i]はほとんど常に句[i - 1]に等しいことを理解した場合、私はこのアプローチのための唯一の疑問符があります。

アレクセイ・ヴャジミキン

コミットメントをした人に要求することができます - つまり、私にはできません :)合意を得よう。

個人的には何も要求しませんが...)サンプルの条件として、サンプルはすべて同じでなければならないので、何かを比較することができますよね。当たり前のことだと思うのですが。

そして、ご清聴ありがとうございました )

1) データ 50-60k以下、できれば1ファイル。

トレーニング用に50人、テスト用（トレーニング以外のサンプル）にもう50人用意しましょう。

好奇心で5〜6万円と考えたが、なぜ2倍でないのか？)))

)))

1) データ 50-60k以上、1ファイルでよい、同意する。

そして、2つのファイルではなく、1つのファイルに記入していただき、ありがとうございます))

mytarmailS 2020.05.17 09:30 #17825

まずは箱から出して試してみる、いわば...。

最後のn個の値だけが、あなたと同じように、予測に関与しています、誤差が同じですから。

217のインジケーターがあります。重複している部分もあると思いますが、掃除するのは億劫なので。

OHLC_Train.csv ファイルを使って、合計54147個の学習と検証を行いました。

最初の10k個のオブザベーションでモデルをテスト（正確には、8k個、最初の2k個は、指標がそれらで計算されたので、考慮されませんでした）。

は残りの44kのデータでモデルをテストしたので、再トレーニングはないと思います。 5.5 times trayn 44/8 =5.5

ブースティングとフォレストを試した機種のうち、ブースティングは感動がなく、フォレストで止めています。

トレーニングでは、強力な不均衡クラスを設定しますが、私はあまりにも怠惰なシャーマンになります

table(d$Target[tr])

   0    1 
3335 4666

現在の機能に関する最終モデル - フォレスト200本

盆の上に...

 Type of random forest: classification
                     Number of trees: 200
No. of variables tried at each split: 14

        OOB estimate of  error rate: 14.75%
Confusion matrix:
     0    1 class.error
0 2557  778  0.23328336
1  402 4264  0.08615517

しけんちゅう

Confusion Matrix and Statistics

          Reference
Prediction     0     1
         0 12449  5303
         1  9260 17135
                                          
               Accuracy : 0.6701          
                 95% CI : (0.6657, 0.6745)
    No Information Rate : 0.5083          
    P-Value [Acc > NIR] : < 2.2e-16       
                                          
                  Kappa : 0.3381          
                                          
 Mcnemar's Test P-Value : < 2.2e-16       
                                          
            Sensitivity : 0.5734          
            Specificity : 0.7637          
         Pos Pred Value : 0.7013          
         Neg Pred Value : 0.6492          
             Prevalence : 0.4917          
         Detection Rate : 0.2820          
   Detection Prevalence : 0.4021          
      Balanced Accuracy : 0.6686          
                                          
       'Positive' Class : 0

ご覧のように、結果はあなたと同じで、何百万ものデータは必要ありません。

つまり、同じ結果が得られた。これが出発点であり、これからこのエラーを改善する必要がある。

mytarmailS 2020.05.17 09:47 #17826

))Hohma ))

いわゆるテクニカル分析の指標をすべて削除

上記の例のように217個ではなく、86 個のインジケータがあります

そして、モデルの質は向上する一方です )

Confusion Matrix and Statistics

          Reference
Prediction     0     1
         0 12769  5597
         1  8940 16841
                                          
               Accuracy : 0.6707          
                 95% CI : (0.6663, 0.6751)
    No Information Rate : 0.5083          
    P-Value [Acc > NIR] : < 2.2e-16       
                                          
                  Kappa : 0.3396          
                                          
 Mcnemar's Test P-Value : < 2.2e-16       
                                          
            Sensitivity : 0.5882          
            Specificity : 0.7506          
         Pos Pred Value : 0.6953          
         Neg Pred Value : 0.6532          
             Prevalence : 0.4917          
         Detection Rate : 0.2892          
   Detection Prevalence : 0.4160          
      Balanced Accuracy : 0.6694          
                                          
       'Positive' Class : 0

Aleksey Vyazmikin 2020.05.17 10:59 #17827

mytarmailS:

分類は、既知の句（それらの本格的なOHLSキャンドル）、符号ZZ将来のろうそくを予測する最後のバーで発生します。なぜ私は理解することはできません唯一の既知のオプションのアカウントにろうそくを取る、複雑さ以外の利点は何ですか？理解と実装の両方で、あなたはオプション[i]はほとんど常に句[i - 1]に等しいことを理解するなら、私は唯一のこのアプローチのための疑問符があります。

Rにデータがあるからわからないのであって、現在のバーでいつOHLCが形成されるかは端末ではわからない、だから最初のバーから0本目のバーでしかOHLCは得られないのです。ゼロバーで開いているのは新しい時間のデータで、特に大きなTFに関連します。

mytarmailS:

1) データ 50-60k以下、できれば1ファイル.............................。

トレーニング用に50個、テスト（トレーニング以外のサンプル）用に50個を用意しよう。

おそらく5〜6万円の名前を出しただけで、なぜ倍にしないのか？)))

)))

1) データ 50-60k これ以上ない、1ファイルが良い、ただ同意する。

そして、2つのファイルではなく、1つのファイルに記入していただき、ありがとうございます))

mytarmailS:

OHLC_Train.csvに対して学習・検証を行った結果、合計54147個のデータが得られました。

最初の10k個のオブザベーションでモデルをテスト（正確には、8k個、最初の2k個は、指標を計算するために使用されたので、考慮されませんでした）。

残りの44kのデータでモデルをテストしたので、再トレーニングはないと思います。テストは5.5倍で、44/8 = 5.5

ご覧のように、結果はあなたと同じで、何百万ものデータは必要なく、パターンを見つけるには5万で十分です。

つまり、同じ結果が得られた。これが出発点であり、今、このエラーは改善される必要がある

サンプルを2つのファイルに分けて、1つ目のファイルはひねくれた学習を試みるためのもの、2つ目のファイルは学習結果を確認するためのものです。

モデルを保存して、新しいデータでテストするオプションはないのですか？その場合は、サンプルのOHLC_Exam.csvの結果をお渡ししていますので、ご確認ください。

同じように、この2つのファイルを分割して、予測因子と分類結果の列を追加して送り返してもらえますか？

オーバートレーニングの有無について。

私見ですが、明らかにオーバートレーニングだと思います。

mytarmailS 2020.05.17 13:05 #17828

アレクセイ・ヴャジミキン

うん...新しいデータでは何もかもが悲しい((.

Confusion Matrix and Statistics

          Reference
Prediction    0    1
         0 9215 5517
         1 3654 7787
                                          
               Accuracy : 0.6496          
                 95% CI : (0.6438, 0.6554)
    No Information Rate : 0.5083          
    P-Value [Acc > NIR] : < 2.2e-16       
                                          
                  Kappa : 0.3007          
                                          
 Mcnemar's Test P-Value : < 2.2e-16       
                                          
            Sensitivity : 0.7161          
            Specificity : 0.5853          
         Pos Pred Value : 0.6255          
         Neg Pred Value : 0.6806          
             Prevalence : 0.4917          
         Detection Rate : 0.3521          
   Detection Prevalence : 0.5629          
      Balanced Accuracy : 0.6507          
                                          
       'Positive' Class : 0

トレイの最初の2k文字列は使用しないでください。

テストの最初の100行で

UPD====

ファイルが適合しない場合は、受信トレイにメールを送ってください。

Aleksey Vyazmikin 2020.05.17 13:20 #17829

mytarmailS:

うん...新しいデータでは何もかもが悲しくなりますね((

最初の2k行は使用しないでください。

は、テストでは、最初の100行。

アプリケーションにはファイルがありません。

トレーニング用と検証用でサンプリングの内訳を変え、検証用では5行ごとにサンプリングしたところ、おかしなグラフになりました。

サンプル OHLC_Exam.csv の場合精度 0.63

Xでは、新しい木が増えるごとに結果が減少しており、サンプルの例数が不足しているため、過剰訓練になっていることがわかる。

ZIPで圧縮する。

mytarmailS 2020.05.17 13:53 #17830

アレクセイ・ヴャジミキン

アプリケーションにはファイルがありません。

トレーニング用と検証用でサンプリングの内訳を変え、検証用では5行ごとにサンプリングしたところ、おかしなグラフになりました。

サンプル OHLC_Exam.csv 精度 0.63

Xでは、新しい木が増えるごとに結果が減少しており、サンプルの例数が不足しているため、過剰訓練になっていることがわかる。

ZIPで圧縮する。

そうそう、うちのモデルはオーバートレーニングなんですよ......。

圧縮ファイルでもフォーラムに入りきらないので、ダウンロードするためのリンクはこちらです。

https://dropmefiles.com.ua/56CDZB

私の看板のモデルを試してみて、精度はどうだろうか。

トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング - ページ 1783