Type of random forest: classification
Number of trees: 200
No. of variables tried at each split: 14
OOB estimate of error rate: 14.75%
Confusion matrix:
01class.error
025577780.23328336140242640.08615517
しけんちゅう
Confusion Matrix and Statistics
Reference
Prediction 0 1
0 12449 5303
1 9260 17135
Accuracy :0.6701
95% CI : (0.6657, 0.6745)
No Information Rate : 0.5083
P-Value [Acc > NIR] : < 2.2e-16
Kappa : 0.3381
Mcnemar's Test P-Value : < 2.2e-16
Sensitivity : 0.5734
Specificity : 0.7637
Pos Pred Value : 0.7013
Neg Pred Value : 0.6492
Prevalence : 0.4917
Detection Rate : 0.2820
Detection Prevalence : 0.4021
Balanced Accuracy : 0.6686
'Positive' Class : 0
現在の状態はどうなっているのでしょうか。 クラスターについてであれば、新しいデータで統計を掃引すればいいだけです。同じであれば、TCを組むことができます。
クラスタが同じであれば、TCを作ることができます。同じであれば、TCを作ることができる。
クラスタと統計の対象領域を明確に理解する必要がある。70年から20年までのすべての楽器で同一であれば、可能です))
キャットバストは役に立ちません、問題はデータの大きさです、形質も作れない、トレーニングもできないでしょう...。
50kのサンプルを作る、小さくする、深刻にならないようにする、オーバートレーニングの可能性を高める、...などです。..., ...目的は生産用のロボットを作ることですが、共同作業で誤差を減らすだけで、得られた知識はどんなツールや市場にも応用できますし、どんな兆候があるのかを知るには50Kで十分でしょう。
よし、ちょっとだけサンプリングしてみるか。
OHLKを知らないなら書かなくていいし、なんでOHLK全体をずらす必要があるんだ? 誰もそんなことしない、学習のために1歩だけ未来を見るようにZZをずらせばいい、それだけだ。Vladimir Perervenkoのdeerelearningに関する記事を1つでも読んだことがありますか? ぜひ読んでみてください。 データを使った最適な動作が定着し、誰もがそれに慣れているときに、誰かが同じことを別の方法でやろうとすると非常に不快です。それは一種の無意味で迷惑で、その著者のデータで作業しようとする人に多くのエラーを引き起こします。
彼の記事を読んでいますが、私はRのコードを理解していないので、そこにあるすべてを本当に理解することはできません。
そこで、この問題を理解されているあなたにお聞きしたいのです。分類は始値しか 分からないゼロバーで行われますが、ゼロバーの始値は使用せず、1バー目以降の情報のみを使用するのですね。実際には、ターゲットがゼロバーのZZベクトルを決定するのですか?次のバーのベクトルが予測されたというのはわかったのですが、それは本質的なことではありませんよね?そうしないと、また何度も手直しをしなければならず、疲れるんです。
データを取ってモデルを適用するためのソリューションが用意されているだけで、計算モデルではないんです。
もし、それでも何かやりたいというのであれば、次のような条件があります。
1)データ50〜60kはこれ以上、好ましくは1つのファイル、ちょうど最後のろうそくのNはテストになることに同意するものとします。
2) データは、できれば糊付けなしで、最新の価格だけでなく、糊付けでは不可能なサポートとレジスタンスも考慮できるようにすること
3) ターゲットがすでにデータに含まれていること
4) 日付、時刻、o、h、l、c、ターゲットのフォーマットによるデータ
それとも、データセットを作成したほうがいいのでしょうか?
コミットメントをした人たち、つまり私ではない人たちに要求すればいいのです :)取引しよう。
1.トレーニング用に50本、テスト用にもう50本(トレーニング以外のサンプリング)やってみましょう。
2.OKです。
3.OKです。
4.OKです。
追記:Si-3.20のフューチャーはノーマルバー(22793)が足りず、接着が嫌なことに気づく。
スベルのサンプルを追加 - アキュラシー67を得た。
そこで、せっかくわかったのだから聞いてみよう。分類は始値しか 分からないゼロバーで行われますが、ゼロバーの始値は使用せず、1バー以降の情報のみを使用するのですね。実際には、ターゲットがゼロバーのZZベクトルを決定するのですか?次のバーのベクトルが予測されたというのはわかったのですが、それは本質的なことではありませんよね?そうしないと、また何度も手直しをしなければならず、面倒です。
分類は、既知の句(すなわち、本格的なOHLSキャンドル)が、我々は将来のろうそくのZZ記号を予測し、最後のバーで行われます。なぜ私は理解することはできません唯一の既知のオプションのアカウントにろうそくを取る、複雑さのほかに利点は何ですか? 理解と実現の両方で、あなたはオプション[i]はほとんど常に句[i - 1]に等しいことを理解した場合、私はこのアプローチのための唯一の疑問符があります。
コミットメントをした人に要求することができます - つまり、私にはできません :)合意を得よう。
個人的には何も要求しませんが...)サンプルの条件として、サンプルはすべて同じでなければならないので、何かを比較することができますよね。 当たり前のことだと思うのですが。
そして、ご清聴ありがとうございました )
1) データ 50-60k以下、できれば1ファイル。
トレーニング用に50人、テスト用(トレーニング以外のサンプル)にもう50人用意しましょう。
好奇心で5〜6万円と考えたが、なぜ2倍でないのか?)))
)))
1) データ 50-60k以上、1ファイル でよい、同意する。
そして、2つのファイルではなく、1つのファイルに記入していただき、ありがとうございます))まずは箱から出して試してみる、いわば...。
最後のn個の値だけが、あなたと同じように、予測に関与しています、誤差が同じですから。
217のインジケーターがあります。重複している部分もあると思いますが、掃除するのは億劫なので。
OHLC_Train.csv ファイルを使って、合計54147個の学習と検証を行いました。
最初の10k個のオブザベーションでモデルをテスト(正確には、8k個、最初の2k個は、指標がそれらで計算されたので、考慮されませんでした)。
は残りの44kのデータでモデルをテストしたので、再トレーニングはないと思います。 5.5 times trayn 44/8 =5.5
ブースティングとフォレストを試した機種のうち、ブースティングは感動がなく、フォレストで止めています。
トレーニングでは、強力な不均衡クラスを設定しますが、私はあまりにも怠惰なシャーマンになります
現在の機能に関する最終モデル - フォレスト200本
盆の上に...
しけんちゅう
Confusion Matrix and Statistics Reference Prediction 0 1 0 12449 5303 1 9260 17135 Accuracy : 0.6701 95% CI : (0.6657, 0.6745) No Information Rate : 0.5083 P-Value [Acc > NIR] : < 2.2e-16 Kappa : 0.3381 Mcnemar's Test P-Value : < 2.2e-16 Sensitivity : 0.5734 Specificity : 0.7637 Pos Pred Value : 0.7013 Neg Pred Value : 0.6492 Prevalence : 0.4917 Detection Rate : 0.2820 Detection Prevalence : 0.4021 Balanced Accuracy : 0.6686 'Positive' Class : 0
ご覧のように、結果はあなたと同じで、何百万ものデータは必要ありません。
つまり、同じ結果が得られた。これが出発点であり、これからこのエラーを改善する必要がある。
))Hohma ))
いわゆるテクニカル分析の指標をすべて削除
上記の例のように217個 ではなく、86 個のインジケータがあります
そして、モデルの質は向上する一方です )
Confusion Matrix and Statistics Reference Prediction 0 1 0 12769 5597 1 8940 16841 Accuracy : 0.6707 95% CI : (0.6663, 0.6751) No Information Rate : 0.5083 P-Value [Acc > NIR] : < 2.2e-16 Kappa : 0.3396 Mcnemar's Test P-Value : < 2.2e-16 Sensitivity : 0.5882 Specificity : 0.7506 Pos Pred Value : 0.6953 Neg Pred Value : 0.6532 Prevalence : 0.4917 Detection Rate : 0.2892 Detection Prevalence : 0.4160 Balanced Accuracy : 0.6694 'Positive' Class : 0
分類は、既知の句(それらの本格的なOHLSキャンドル)、符号ZZ将来のろうそくを予測する最後のバーで発生します。なぜ私は理解することはできません唯一の既知のオプションのアカウントにろうそくを取る、複雑さ以外の利点は何ですか? 理解と実装の両方で、あなたはオプション[i]はほとんど常に句[i - 1]に等しいことを理解するなら、私は唯一のこのアプローチのための疑問符があります。
Rにデータがあるからわからないのであって、現在のバーでいつOHLCが形成されるかは端末ではわからない、だから最初のバーから0本目のバーでしかOHLCは得られないのです。ゼロバーで開いているのは新しい時間のデータで、特に大きなTFに関連します。
1) データ 50-60k以下、できれば1ファイル.............................。
トレーニング用に50個、テスト(トレーニング以外のサンプル)用に50個を用意しよう。
おそらく5〜6万円の名前を出しただけで、なぜ倍にしないのか?)))
)))
1) データ 50-60k これ以上ない、1ファイルが良い、ただ同意する。
そして、2つのファイルではなく、1つのファイルに記入していただき、ありがとうございます))OHLC_Train.csvに対して 学習・検証を行った結果、合計54147個のデータが得られました。
最初の10k個のオブザベーションでモデルをテスト(正確には、8k個、最初の2k個は、指標を計算するために使用されたので、考慮されませんでした)。
残りの44kのデータでモデルをテストしたので、再トレーニングはないと思います。テストは5.5倍で、44/8 = 5.5
ご覧のように、結果はあなたと同じで、何百万ものデータは必要なく、パターンを見つけるには5万で十分です。
つまり、同じ結果が得られた。これが出発点であり、今、このエラーは改善される必要がある
サンプルを2つのファイルに分けて、1つ目のファイルはひねくれた学習を試みるためのもの、2つ目のファイルは学習結果を確認するためのものです。
モデルを保存して、新しいデータでテストするオプションはないのですか?その場合は、サンプルのOHLC_Exam.csvの結果をお渡ししていますので、ご確認ください。
同じように、この2つのファイルを分割して、予測因子と分類結果の列を追加して送り返してもらえますか?
オーバートレーニングの有無について。
私見ですが、明らかにオーバートレーニングだと思います。
うん...新しいデータでは何もかもが悲しい((.
Confusion Matrix and Statistics Reference Prediction 0 1 0 9215 5517 1 3654 7787 Accuracy : 0.6496 95% CI : (0.6438, 0.6554) No Information Rate : 0.5083 P-Value [Acc > NIR] : < 2.2e-16 Kappa : 0.3007 Mcnemar's Test P-Value : < 2.2e-16 Sensitivity : 0.7161 Specificity : 0.5853 Pos Pred Value : 0.6255 Neg Pred Value : 0.6806 Prevalence : 0.4917 Detection Rate : 0.3521 Detection Prevalence : 0.5629 Balanced Accuracy : 0.6507 'Positive' Class : 0
トレイの最初の2k文字列は使用しないで ください。
テストの最初の100行で
UPD====
ファイルが適合しない場合は、受信トレイにメールを送ってください。
うん...新しいデータでは何もかもが悲しくなりますね((
最初の2k行は使用しないで ください。
は、テストでは、最初の100行。
アプリケーションにはファイルがありません。
トレーニング用と検証用でサンプリングの内訳を変え、検証用では5行ごとにサンプリングしたところ、おかしなグラフになりました。
サンプル OHLC_Exam.csv の場合 精度 0.63
Xでは、新しい木が増えるごとに結果が減少しており、サンプルの例数が不足しているため、過剰訓練になっていることがわかる。
ZIPで圧縮する。アプリケーションにはファイルがありません。
トレーニング用と検証用でサンプリングの内訳を変え、検証用では5行ごとにサンプリングしたところ、おかしなグラフになりました。
サンプル OHLC_Exam.csv 精度 0.63
Xでは、新しい木が増えるごとに結果が減少しており、サンプルの例数が不足しているため、過剰訓練になっていることがわかる。
ZIPで圧縮する。そうそう、うちのモデルはオーバートレーニングなんですよ......。
圧縮ファイルでもフォーラムに入りきらないので、ダウンロードするためのリンクはこちらです。
https://dropmefiles.com.ua/56CDZB
私の看板のモデルを試してみて、精度はどうだろうか。