トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング

Maxim Dmitrievsky 2018.01.11 09:24 #5591

サンサニッチ・フォメンコ

森やアダも似たような数字がありますね。

さて、話を「ラム」に戻すと、任意の予測変数のリストからノイズを取り除くにはどうすればよいのでしょうか。私は、170の中から27の予測変数を選択する経験的アルゴリズムを持っています。また、他の人の予測変数のセットを分析するのにも使いましたが、これも成功しました。この経験に基づいて、私は、アルゴリズムに「重要度」変数を使用するRからのすべてのメソッドは、ノイズの予測器集合をクリアすることができないと主張します。

このスレッドの読者の皆さんに訴えます：生データがRDataや加工不要のExcelファイルで提示されれば、適切な解析をする気があります。

それ以外は。

添付ファイルには、予測変数のオリジナルセットをノイズからクリアにする問題を解決すると思われる、より質の高い論文を多数添付しています。残念ながら、今は試す時間がありません。もしかしたら、誰かが試して結果を投稿してくれるかも？

まずトピックを読むことにした（読んでいないことが判明）。などと、さまざまな疑問が湧いてきた。

1. scaffoldingは特徴のランダムなサブセットで学習されますが、学習用にランダムに選ばれなかった特徴は「重要ではない」というラベルが貼られるということでしょうか？

2. カテゴリ別の特徴があり、足場がより多くのカテゴリを持つ特徴よりも重要性を低くする場合、何をすれば理解できるのか？

3.新しいサンプルのPCAでは、「新しい」成分が割り当てられず、トレーニングサンプルの成分とは大きく異なってしまいますが、これにどう対処すればよいのでしょうか？

そして最後にもう一つ、少し変わった再帰的特徴除去法http://blog.datadive.net/selecting-good-features-part-iv-stability-selection-rfe-and-everything-side-by-side/。

この記事には、足場について説明した過去の記事へのリンクもあります。

Selecting good features – Part IV: stability selection, RFE and everything side by side

2014.12.20
blog.datadive.net

In this post, I’ll look at two other methods: stability selection and recursive feature elimination (RFE), which can both considered wrapper methods. They both build on top of other (model based) selection methods such as regression or SVM, building models on different subsets of data and extracting the ranking from the aggregates. As a wrap-up...

СанСаныч Фоменко 2018.01.11 11:46 #5592

マキシム・ドミトリエフスキー

は、まずトピックを読んでみることにしました（読んでいないことが判明）。などと、さまざまな疑問が湧いてきた。

1. フォレストはランダムな特徴のサブセットで学習されますが、ランダムに学習されない特徴は「重要でない」というラベルが付くということでしょうか？

2. カテゴリ別の特徴があり、足場がより多くのカテゴリを持つ特徴よりも重要性を低くする場合、何をすれば理解できるのか？

3.新しいサンプルのPCAでは、「新しい」成分が割り当てられず、トレーニングサンプルの成分とは大きく異なってしまいますが、これにどう対処すればよいのでしょうか？

そして最後にもう一つ、少し変わった再帰的特徴除去法http://blog.datadive.net/selecting-good-features-part-iv-stability-selection-rfe-and-everything-side-by-side/。

この記事には、足場について説明した過去の部分にもリンクが張られています。

残念ながら、私の個人的な答えは、ここに書かれていることや、このテーマに関する他の文献に書かれていることに何の足しにもならないでしょう。

特徴量の「重要度」を決定するアルゴリズムはかなり多く（回帰やカテゴリは関係ない）、そのすべてがRで実現されている。

時間をかけてマスターしたのですが、最終的には、ノイズの多い、対象変数と無関係な属性を取り除き、Rから使うことで、5～7％の誤差が減るということがプライマリであることがわかりました。20％以下の誤差は達成できなかった。

もう一度言いますが、各バーで重要なコンポーネントを選択し、その結果得られたセットでフォレストを再トレーニングしています。

その数値は以下の通りです。

数百の予測変数の中から、ノイズ基準、つまりターゲット変数に「関連する」予測変数を27個選びました。
各バーにある27個から重要度基準で選んだ（RFE）
5-15属性で森を覚える。このリストは、使用されている27の中で常に変化しています。

この方法の品質基準：私は2つのファイルを取り、最初の1つで私は教え、訓練し、検証=ほぼ同じエラーになります。得られたモデルを2つ目のファイルで確認すると＝1つ目のファイルとほぼ同じエラーが発生する。このことから、このモデルはオーバートレーニングではなく、将来、少なくとも1本のバーは、トレーニング時と同じような動作をすると結論づけました。

それ以外のアプローチではうまくいきませんし、あるモデルタイプを別のものに置き換えても、再トレーニングの面では何も改善されません。

PCAについて。主成分を使っても、元の集合に比べて誤差が減らないという意味で、否定的な結果が出ました。理論的にはエラーが減るはずなのに、なぜそうなったのか理解できない。

Maxim Dmitrievsky 2018.01.11 12:04 #5593

サンサニッチ・フォメンコ

PCAは、例えばFXのような異質な形質に対してモデルを使用する場合、一般的に役に立たない...と私は考えています。FXなど、異質な属性を持つモデルを使うのは無駄だと思います。

足場に戻れば

トレーニングサンプルに入らなかった形質がどのように評価されているかは、ソースコードを見てみないとわからないようです、そこには書かれていません（悪いと評価されている可能性が高いです）。

+ また、足場学習のプロセスはランダムであり、数回の連続したトレーニングによって、異なる結果が得られるかもしれませんし、時には大きく異なるかもしれません。さて、モデルを微調整して保存し、後でそれを使用する場合...しかし、モデルが自己学習である場合...我々はそれを連続して数回訓練する必要があり、最小誤差を選択する、そのような何か...さもなければ、テスターでの複数の実行は、私の観測では最大5またはそれ以上で、彼らはその後の実行で繰り返し/繰り返し異なる結果を生成します。

СанСаныч Фоменко 2018.01.11 12:26 #5594

マキシム・ドミトリエフスキー

PCAは、例えばFXのような異質な形質に対してモデルを使用する場合、一般的に役に立たない...と私は考えています。というのも、ある成分で学習したところ、テストでは別の成分の組み合わせが現れ、モデルには一切考慮されなかったからです。

足場に戻れば。

トレーニングサンプルに入らなかった形質がどのように評価されているかは、ソースコードを見てみないとわからないようです、そこには書かれていません（悪いと評価されている可能性が高いです）。

+ また、足場学習のプロセスはランダムであり、数回の連続したトレーニングによって、異なる結果が得られるかもしれませんし、時には大きく異なるかもしれません。さて、モデルを微調整して保存し、後でそれを使用する場合...しかし、モデルが自己学習である場合...我々はそれを連続して数回教える必要があり、最小誤差を選択する、そのような何か...さもなければ、テスターでの複数の実行は、私の観測によると最大5またはそれ以上で、彼らはその後の実行に繰り返し/繰り返し異なる結果を生成します。

あなたの言うような情熱は覚えていません。同じ種を使っても、結果は一貫して同じです。

Maxim Dmitrievsky 2018.01.11 12:28 #5595

サンサニッチ・フォメンコ

あなたの言うような情熱は覚えていません。同じ種を使っても、結果は一貫して同じです。

seedって何するんだっけ... 機能の数だっけ... alglib forest使ってます。

Vladimir Perervenko 2018.01.11 12:59 #5596

revers45 です。
掛け算表を知らない先生と、それを課さないNSの開発者、ランダムで正解を出す、もうかけない！？

私も賛成です。

ただ、無為に空気を揺らすだけです。確認できるように、例、天井のデータを投稿してください。

トレーニングの方法は大きく分けて、教師なし（ターゲットを提示しない）、教師あり（ターゲットを完全にマークする）、半教師あり（正しく訳す方法がわからない）の3種類があります。これは、モデルに完全には（部分的に）マークされていないターゲットが提示された場合である。残りはすべて邪悪な者のものだ。

グッドラック

Vladimir Perervenko 2018.01.11 13:02 #5597

マキシム・ドミトリエフスキー

seedは何を担当してるんだっけ...機能数？ alglibの森を使ってる。

さあ...

set.seedは乱数発生器をある状態に設定し、計算を繰り返したときに再現性のある結果を得ることができます。

数学を学ぶ。

Maxim Dmitrievsky 2018.01.11 13:08 #5598

ウラジミール・ペレヴェンコ

さあ...

set.seedは乱数発生器をある状態に設定し、計算を繰り返したときに再現性のある結果を得られるようにします。

計算を覚える。

そのような設定がないので、質問させていただきました。

mt5でもできるんですね、ありがとうございます。

Yuriy Asaulenko 2018.01.11 13:46 #5599

ウラジミール・ペレヴェンコ

私も賛成です。

ただ、無為に空気を揺らすだけです。確認できるように、例、天井のデータを投稿してください。

教え方は大きく分けて、教師なし（ターゲットを提示しない）、教師あり（ターゲットを完全にマークする）、半教師あり（正しく訳す方法がわからない）の3種類があります。これは、モデルに完全には（部分的に）マークされていないターゲットが提示された場合である。残りはすべて邪悪な者のものだ。

グッドラック

さて、さて))アルゴリズムを完全に理解し、ターゲットを見つけることができるのであれば、なぜNSが必要なのでしょうか？それがなくても何でもできる)

NSなどのDMは、わからないときこそ必要です。

学習アルゴリズムについては、特定の課題ごとに開発・修正される。ほとんどが基本に忠実です。

そして、言っていることは空気を揺さぶるだけです。序文から先を読む。)

頑張ってください。

Vladimir Perervenko 2018.01.11 14:38 #5600

ユーリイ・アサウレンコ

さて、さて))アルゴリズムを完全に把握し、ターゲットを見つけることができれば、なぜNSが必要なのでしょうか？それがなくても何でもできる)

自分の書いたものが理解できたか？ターゲットが見つかるのではなく、モデルが学習しなければならないものとしてあらかじめ定義されているのです。どのようなアルゴリズムのことをおっしゃっているのですか？

NSなどのDMは、わからないときこそ必要です。

何がわからないのか？

学習アルゴリズムについては、特定の課題ごとに開発・修正される。それらはほとんど基本的なものがベースになっています。

ここでは、回帰と分類（クラスタリングとランキングは省略）という2つの解決すべきタスクについて話しています。その他に「具体的な課題」を教えてください。

そして、あなたが言っているのは、空気を揺らすということです。序文から先を読む。)

???

頑張ってください。

トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング - ページ 560