トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング - ページ 102

СанСаныч Фоменко 2016.08.12 15:55 #1011

アレクセイ・ブルナコフあなたがやっていることには、シミックがあるのです。ただし、ディレイサンプリングも試してみてください。これは名作ですね。トレーニング、テスト、バリデーション。そして、手順をさらに複雑にする。学習とテストがうまくいった各モデル（これをモデルXと呼ぶ）について、遅延データで検証を行う。このように、学習とテストだけで、正しいモデルを選択しているかどうかを知ることができます。パラメータを変えて多くのモデルを作り、最適なものを選ぶ（10、100、1000）。失敗する。自分の「ベスト」な指標が、今後のデータに反映されるかどうかが理解できるようになります。戦いに行くのはその後だ。

同じ確率変数の値がたくさんある場合、信頼区間を 数え、「近い値」の代わりに「信頼区間の交差/収束」で操作することができます。

Mihail Marchukajtes 2016.08.12 19:39 #1012

mytarmailS: 昨日の取引結果を見ることはできますか？そして、これは今日の分です。もちろん、失敗がなかったわけではありませんが、最終的には互角でしたね......。

mytarmailS 2016.08.13 09:50 #1013

ミハイル・マルキュカイツそして、これは今日の分です。もちろん間違いがないわけではありませんが、最終的にはかなりイーブンです......。悪くないですね！緑の丸と矢印の意味は何ですか？

Alexey Burnakov 2016.08.13 10:16 #1014

サンサニッチ・フォメンコ 同じ確率変数の値がたくさんある場合、信頼区間を 数え、「近い値」の代わりに「信頼区間の交差/収束」を操作することができます。三山 もう一度説明します。そして、誰にでもわかりやすくなると思います。下の表は、その実験のログです。各実験は表で書かれています。J列の前には、変数がある。モデル、損失関数学習、ツール、予測地平、モデルパラメータ（GBM）、キャレットでは最適化されないがループでも最適化するパラメータ：クロスバリッドファウル数、学習用に選択した予測変数の数、ツリーのランダム化、不確実性のグレーゾーンに入るとして予測のシェアをカットオフすること。そして、トレーニング（10年間の全アレイ）、クロスバリッドテストの失敗、遅延サンプルの品質測定が行われます。最も興味深いコラムを赤でマークした。次のページ延期したサンプルでとんでもない差が出たベストモデルを紹介します。でも～、装着が大変なんですよね～。一貫性のあるデータと適切な学習方法があれば、延期されたサンプルのメトリックとクロスバリデーション（テスト）のメトリックの間に関係が得られると単純に期待しています。それでは、ご覧ください。客観的に - 繰延サンプル（実際の取引の期間をエミュレートする）上で選択されたモデルの品質は、テスト上の品質メトリックとはほとんど無関係です（クロスバリデーションテストファウルズ。）結論から言うと、「テストではそのモデルの方が優れているはずだ」というヒューリスティックに従って最適なモデルを選択した場合、そのモデルが将来的にどのように機能するかについての確実性はゼロになります。この定義は、このようなシナリオにも適用される。「最良のモデルは、遅延したサンプルで良い品質を示すだろう」というヒューリスティックに従ってモデルを選択する。このような選択も、友人たちよ、不確実性につながるだろう。すべては確率的なものです。もちろん、運が良ければいいのですが、統計をごまかすことはできません。それが、ディレイサンプリングのメリットです。モデルの性能を確認し、最適なモデルを選択するヒューリスティックをチェックする。追記：どうすればよりよい結果が得られるか考えています。いい意味で、エリプティックな斜めの雲が必要なんです。そこから右端から委員会を取るなどして、平均的にうまくいきます。

Dr. Trader 2016.08.13 11:28 #1015

ヒューリスティックを評価するために開発されたツールキット、素晴らしいですね。モデル（委員会）を訓練するために開発した方法が、FXに適していないことが証明されましたが、次はどうするのですか？学習データ自体の結果、テストの結果、保留サンプルの結果に相関があるように、モデルを構築する方法を考えなければならないのです。例えば、データの前処理を変えたり、学習・予測用のパッケージを変えたり、予測の品質を評価する関数を変えたりしています。すべてが重要であり、その組み合わせは無限にあるのです。私は、「オッカムのカミソリ」の法則に従うようにしています。必要な予測変数は少なく、モデルのパラメータは少ないほど良いのです。

Dr. Trader 2016.08.13 11:38 #1016

また、私の主観ですが、予測値は目標値の予測には使えないと思います。少なくともdat_train_final_experimental1.csvというファイルでは、gbmパラメータをフィッティングする際にフィットネス関数に正の結果を得ることができません。つまり、どんなモデルでも、どんなパラメータで作っても、クロスバリデーションの結果に満足できないんです。私の個人的な意見ですが、モデルを構築する際には、より多くの予測因子を用いて、その数を減らすようにすることをお勧めします。例えば、私のトレーニングテーブルでは、各バーに対して150の予測変数があり、合計で100のバー、合計15000の予測変数があります。そして、遺伝学を使って予測因子とモデルのパラメータを探索し、適合度関数の最適な結果を探します。このようにして、目標値に関連し、かつモデルが予測できる予測因子を選択するのです。最終的には10～20の予測変数が残るのみです。昨日、フィットネス関数のおおよそのRコードをフォーラムに書きましたので、そちらが分かりやすいと思います。

Mihail Marchukajtes 2016.08.13 11:42 #1017

mytarmailS:悪くないですね、緑の丸と矢印の意味は何ですか？緑の点は、信号があることを示し、緑の点の各シリーズは、青または赤の点のいずれかで終了し、シーケンツは、対応する購入または売却する信号を意味します。まあ、矢印はレシェトフの分類器の仕業で、真の信号か偽の信号かということなんですが......。ちなみにSequentaはアタシです、使いこなしてください...。

Dr. Trader 2016.08.13 12:33 #1018

Dr.Trader（ドクタートレーダー） また、私の主観ですが、あなたの予測値は目標値を予測するために使用することはできないと思います。私はこのことをより明確に表現できたように思います -。トレーニングサンプルの予測結果は、平均してテストサンプルの予測結果とあまり相関がない。ForeCAというパッケージがあるのですが、その中に信号の「予測性」を推定するOmegaという関数があります。100%と推定される場合、その信号はいくつかの要件を満たしており、予測することが容易である。スコアが0％の場合は、信号が単なるノイズであり、予測不可能であることを意味します。まだ、あなたのテーブルdat_test_features_experimental.RDataがあり、最後の列が値上げになっています。例えば、eurusdの推定値＝0.83％（83％ではなく、0.83％ちょうど、1より小さい）です。ForeCAによれば、この時系列を 予測することは不可能である。このパッケージはあまり信用していないのですが、作者は明らかに何かを理解しているようなので、聴いてみようと思います。Omega(dat_test_features[dat_test_features[,109] == "eurusd", 110])あなたが扱っているタイムフレームを覚えていませんが、もしそれがM1であれば - 例えばH1など、もっと試すべき理由があるはずです。

Alexey Burnakov 2016.08.13 19:30 #1019

Dr.トレーダー聞いていますよ。何時間かのホリゾントで作業しています。分単位で見ると、リグレッションはうまく機能していますが、トレードの手口には欠けるところがあります。時間足では、絶対的な価格差は約8pipsです。なんだこれ...。ほらね？65_70%の推測精度が必要です。そして、9時の時点で53～53％あれば、スプレッドを圧倒できる。

СанСаныч Фоменко 2016.08.13 20:13 #1020

Dr.トレーダー...ForeCAというパッケージがあるのですが、その中に信号の「予測性」を評価するOmegaという関数があります。100%と推定される場合、その信号はいくつかの要件を満たしており、予測することが容易である。スコアが0％の場合は、信号が単なるノイズであり、予測不可能であることを意味します。...このパッケージでいう「予測可能性」とは？前回（前々回）の値を外挿する（という言葉）能力という意味だと思っていました。ARIMA、このモデルがうまくいかなければ、ARCHなどです。そして、ForeCAパッケージは、これらのモデルと比較されなければなりません。 一般的には、原点が失われるような気がします。私にとっての原点は、ターゲットとなる変数を予測するために使用される予測変数の能力を決定するために、モデルに依存しない方法が必要だということです。予測変数とターゲット変数のネクサスで必ず行ってください。そして、ノイズをスクリーニングした上で、モデルやその委員会を使う......。ただし、ノイズが淘汰された後でなければなりません。そして、ノイズがないことは、モデルの性能がサンプル間で近似的に不変であることで決定される。予測誤差の絶対値ではなく、性能指標がほぼ等しいという事実であり、（等しさは）モデルの過学習がないことの証明と解釈できる。 オーバートレーニングがないことが、私たちのすべてです。もしモデルが与えられた予測変数のセットで過剰に訓練された場合、他のすべては数字のゲームになります。再教育されないモデルのみが注目 される。
あなたがやっていることには、シミックがあるのです。
ただし、ディレイサンプリングも試してみてください。これは名作ですね。トレーニング、テスト、バリデーション。
そして、手順をさらに複雑にする。学習とテストがうまくいった各モデル（これをモデルXと呼ぶ）について、遅延データで検証を行う。このように、学習とテストだけで、正しいモデルを選択しているかどうかを知ることができます。パラメータを変えて多くのモデルを作り、最適なものを選ぶ（10、100、1000）。失敗する。自分の「ベスト」な指標が、今後のデータに反映されるかどうかが理解できるようになります。戦いに行くのはその後だ。
昨日の取引結果を見ることはできますか？
そして、これは今日の分です。もちろん、失敗がなかったわけではありませんが、最終的には互角でしたね......。
そして、これは今日の分です。もちろん間違いがないわけではありませんが、最終的にはかなりイーブンです......。
悪くないですね！緑の丸と矢印の意味は何ですか？
同じ確率変数の値がたくさんある場合、信頼区間を 数え、「近い値」の代わりに「信頼区間の交差/収束」を操作することができます。
三山 もう一度説明します。そして、誰にでもわかりやすくなると思います。
下の表は、その実験のログです。各実験は表で書かれています。J列の前には、変数がある。モデル、損失関数学習、ツール、予測地平、モデルパラメータ（GBM）、キャレットでは最適化されないがループでも最適化するパラメータ：クロスバリッドファウル数、学習用に選択した予測変数の数、ツリーのランダム化、不確実性のグレーゾーンに入るとして予測のシェアをカットオフすること。
そして、トレーニング（10年間の全アレイ）、クロスバリッドテストの失敗、遅延サンプルの品質測定が行われます。最も興味深いコラムを赤でマークした。
次のページ延期したサンプルでとんでもない差が出たベストモデルを紹介します。でも～、装着が大変なんですよね～。
一貫性のあるデータと適切な学習方法があれば、延期されたサンプルのメトリックとクロスバリデーション（テスト）のメトリックの間に関係が得られると単純に期待しています。それでは、ご覧ください。
客観的に - 繰延サンプル（実際の取引の期間をエミュレートする）上で選択されたモデルの品質は、テスト上の品質メトリックとはほとんど無関係です（クロスバリデーションテストファウルズ。）
結論から言うと、「テストではそのモデルの方が優れているはずだ」というヒューリスティックに従って最適なモデルを選択した場合、そのモデルが将来的にどのように機能するかについての確実性はゼロになります。
この定義は、このようなシナリオにも適用される。「最良のモデルは、遅延したサンプルで良い品質を示すだろう」というヒューリスティックに従ってモデルを選択する。このような選択も、友人たちよ、不確実性につながるだろう。すべては確率的なものです。もちろん、運が良ければいいのですが、統計をごまかすことはできません。
それが、ディレイサンプリングのメリットです。モデルの性能を確認し、最適なモデルを選択するヒューリスティックをチェックする。
追記：どうすればよりよい結果が得られるか考えています。いい意味で、エリプティックな斜めの雲が必要なんです。そこから右端から委員会を取るなどして、平均的にうまくいきます。
ヒューリスティックを評価するために開発されたツールキット、素晴らしいですね。モデル（委員会）を訓練するために開発した方法が、FXに適していないことが証明されましたが、次はどうするのですか？
学習データ自体の結果、テストの結果、保留サンプルの結果に相関があるように、モデルを構築する方法を考えなければならないのです。
例えば、データの前処理を変えたり、学習・予測用のパッケージを変えたり、予測の品質を評価する関数を変えたりしています。すべてが重要であり、その組み合わせは無限にあるのです。私は、「オッカムのカミソリ」の法則に従うようにしています。必要な予測変数は少なく、モデルのパラメータは少ないほど良いのです。
また、私の主観ですが、予測値は目標値の予測には使えないと思います。少なくともdat_train_final_experimental1.csvというファイルでは、gbmパラメータをフィッティングする際にフィットネス関数に正の結果を得ることができません。つまり、どんなモデルでも、どんなパラメータで作っても、クロスバリデーションの結果に満足できないんです。私の個人的な意見ですが、モデルを構築する際には、より多くの予測因子を用いて、その数を減らすようにすることをお勧めします。
例えば、私のトレーニングテーブルでは、各バーに対して150の予測変数があり、合計で100のバー、合計15000の予測変数があります。そして、遺伝学を使って予測因子とモデルのパラメータを探索し、適合度関数の最適な結果を探します。このようにして、目標値に関連し、かつモデルが予測できる予測因子を選択するのです。最終的には10～20の予測変数が残るのみです。昨日、フィットネス関数のおおよそのRコードをフォーラムに書きましたので、そちらが分かりやすいと思います。
悪くないですね、緑の丸と矢印の意味は何ですか？
緑の点は、信号があることを示し、緑の点の各シリーズは、青または赤の点のいずれかで終了し、シーケンツは、対応する購入または売却する信号を意味します。まあ、矢印はレシェトフの分類器の仕業で、真の信号か偽の信号かということなんですが......。
ちなみにSequentaはアタシです、使いこなしてください...。
また、私の主観ですが、あなたの予測値は目標値を予測するために使用することはできないと思います。
私はこのことをより明確に表現できたように思います -。
トレーニングサンプルの予測結果は、平均してテストサンプルの予測結果とあまり相関がない。
ForeCAというパッケージがあるのですが、その中に信号の「予測性」を推定するOmegaという関数があります。100%と推定される場合、その信号はいくつかの要件を満たしており、予測することが容易である。スコアが0％の場合は、信号が単なるノイズであり、予測不可能であることを意味します。
まだ、あなたのテーブルdat_test_features_experimental.RDataがあり、最後の列が値上げになっています。例えば、eurusdの推定値＝0.83％（83％ではなく、0.83％ちょうど、1より小さい）です。ForeCAによれば、この時系列を 予測することは不可能である。このパッケージはあまり信用していないのですが、作者は明らかに何かを理解しているようなので、聴いてみようと思います。
あなたが扱っているタイムフレームを覚えていませんが、もしそれがM1であれば - 例えばH1など、もっと試すべき理由があるはずです。
...
ForeCAというパッケージがあるのですが、その中に信号の「予測性」を評価するOmegaという関数があります。100%と推定される場合、その信号はいくつかの要件を満たしており、予測することが容易である。スコアが0％の場合は、信号が単なるノイズであり、予測不可能であることを意味します。
...
このパッケージでいう「予測可能性」とは？前回（前々回）の値を外挿する（という言葉）能力という意味だと思っていました。ARIMA、このモデルがうまくいかなければ、ARCHなどです。そして、ForeCAパッケージは、これらのモデルと比較されなければなりません。
一般的には、原点が失われるような気がします。私にとっての原点は、ターゲットとなる変数を予測するために使用される予測変数の能力を決定するために、モデルに依存しない方法が必要だということです。予測変数とターゲット変数のネクサスで必ず行ってください。そして、ノイズをスクリーニングした上で、モデルやその委員会を使う......。ただし、ノイズが淘汰された後でなければなりません。そして、ノイズがないことは、モデルの性能がサンプル間で近似的に不変であることで決定される。予測誤差の絶対値ではなく、性能指標がほぼ等しいという事実であり、（等しさは）モデルの過学習がないことの証明と解釈できる。 オーバートレーニングがないことが、私たちのすべてです。もしモデルが与えられた予測変数のセットで過剰に訓練された場合、他のすべては数字のゲームになります。再教育されないモデルのみが注目 される。