記事"ランダムフォレストの予測トレンド"についてのディスカッション

СанСаныч Фоменко 2014.12.18 20:41 #91

TheXpert:

オーバートレーニングは確立された、かなり具体的な用語である。あなたはそれを置き換えているだけでなく、あなたの理解ではそれが何なのかも説明していない。

それはコミュニケーションの仕方において、スルトンを思い出させる。

モデルのトレーニングとは、モデルがプロセスの本質を抽出することであり、ローカルな専門用語で言うところの「パターン」であり、それはトレーニングサンプルの中だけでなく、トレーニングサンプルの外でも起こる。

オーバートレーニング（オーバーフィッティング）とは、モデルがトレーニングサンプルの外には存在しないランダム性を抽出し始め、そのためにモデルがトレーニング誤差とは大きく異なる誤差値を出すことです。

テスターの最適化の助けを借りてオーバートレーニングEAを得ることは非常に簡単であるため、このフォーラムでは多くの人がオーバートレーニングに直面しています。

しかし、これはすべて哲学です。

現実は、具体的なスキル、このプロセスで使用されるツールにあります。

私の記事と本で、私はオーバートレーニングの問題を解決しようとしているのではなく、予測モデルの世界への扉を開けようとしているだけなのだ。もし尊敬するgpwr 氏が2、3時間費やした後にガラガラを実行したなら、彼の質問は、彼が私の記事をわざわざ読まなかったが、その内容について意見を持っていることを実証することなく、より多くの内容を持っていただろう。しかし、最も重要なことは、Rattleは、標本外モデルの性能の推定、有意な予測変数のリスト、発見されたパターンの数......を含む、非常に複雑なモデルを作成するプロセス全体をカバーしているということだ。実際のモデルは異なるが、私は今でもラトルを使っている。ただ、それを理解するために、アイデアをテストするために......。20～30分で、開発の方向性が根本的に変わることもある。

非常に限られた目標だ。

記事や本に加え、私は有料サービスを提供している。そして、私が宣伝された仕事のリストをこなすのに必要な資格を持っているかどうかを判断するのは皆さん次第です。そして私は、特定の注文を引き受ける前に、顧客が私の労働の結果を理解できるかどうかを判断する。

ファイル:

PredictTrend.zip 858 kb

Vladimir 2014.12.19 06:55 #92

faa1947:

1. かなり大きな予測変数の集合を形成する。例えば、棒グラフの数が 15000で50個。

2.上記のアルゴリズムの1つを使用して、これらの15,000本の棒グラフから予測変数を選択します。

3.3.次に、より小さなウィンドウ、例えば2000本のバーを取り、それを一度に1本ずつ動かし始め、先に選択した50本のうち20本から有意な予測子を選択します。

4.有意な予測変数の特定のリストは常に変化する。

1.どのように？60年間の日次履歴が必要ですか？

2.あなたは未来を見ているのですよ。全履歴から15-20の予測因子を選択し、同じ15000バーの "訓練されていない "サンプルでチェックするのですか？もし誰かが今日、15-20の予測変数が将来どのように「サンプリング」されるかを教えてくれたら、私は億万長者になるために他のものは必要ないだろう。

私はMatLabを使っている。そこには様々なツールボックスがある。だから、私があなたの手法を知らないと決めつける必要はない。また、私が表面的なアプローチや、気弱なアプローチをしていると決めつける必要もない（私はあなたのアプローチについてそう思っているだけだ）。誰もが異なるパッケージやツールボックスを使うことができる。しかし、誰もがその本質を理解できるわけではない。それに、あなたは私に自分のサービスや本を宣伝する必要はない。私の問題はオーバートレーニングの定義よりもはるかに複雑だ。私には1万もの経済指標-予測があり、市場に影響を与えるものを選ぶのは非常に難しい。それぞれの予測因子を個別に調べていくと、上記の例のように、対象系列が予測因子の1つと一致しないのに、その予測因子が対象系列のモデルに含まれているような状況を見逃すことになります。異なる予測変数の可能な組み合わせをすべて調べると、時間が足りなくなります。10,000の中から2つの予測変数を検索するだけでも、1週間以上かかります。今のところ、私はN個の関連変数を選択するための生物学的セルフ・プルーニング・ネットワーク（説明するのに時間がかかるので、理解するには訓練が必要だ）を持っている。このネットワークは、予測変数の可能な組み合わせをすべて検索するよりは速いが、それでも遅い。もしあなたが、私の例のyとx1だけを見て、x1がyモデルの一部であると判断する素晴らしいアイデアを持っていたら、金メダルをあげよう。

СанСаныч Фоменко 2014.12.19 09:01 #93

gpwr:

1.どうだ？60年の日々の歴史が必要か？

2.あなたは未来を見ていますね。全履歴から15-20の予測因子を選択し、同じ15000バーの "訓練されていない "サンプルでチェックするのですか？もし誰かが今日、15-20の予測変数が将来どのように「サンプリング」されるかを教えてくれたら、私は億万長者になるために他には何も必要ないだろう。

私はMatLabを使っている。そこには様々なツールボックスがある。だから、私があなたの手法を知らないと決めつける必要はない。また、私が表面的な、あるいは勤勉なアプローチをしていると決めつける必要もない（それこそ、私があなたのアプローチに対して思っていることだ）。誰もが異なるパッケージやツールボックスを使うことができる。しかし、誰もがその本質を理解できるわけではない。それに、あなたは私に自分のサービスや本を宣伝する必要はない。私の問題は、オーバートレーニングの定義よりもはるかに複雑だ。私には1万もの経済指標-予測があり、市場に影響を与えるものを選ぶのは非常に難しい。それぞれの予測因子を個別に調べていくと、上記の例のように、対象系列が予測因子の1つと一致しないのに、その予測因子が対象系列のモデルに含まれているような状況を見逃してしまいます。異なる予測変数の可能な組み合わせをすべて調べると、時間が足りなくなります。10,000の中から2つの予測変数を検索するだけでも、1週間以上かかります。今のところ、私はN個の関連変数を選択するための生物学的セルフ・プルーニング・ネットワークを持っている（説明が長くなるので、理解するにはトレーニングが必要）。このネットワークは、予測変数のすべての可能な組み合わせの検索よりは速いが、それでも遅い。では、私の例でyとx1だけを見てx1がyモデルの一部であると判断する方法を、あなたが素晴らしいアイデアを持っているならば、私はあなたに良いアイデアをあげよう。

1.どうだ？60年の日々の歴史が必要？

誇張はやめよう。

私はFXの仕事をしている。私はトレンドを予測し、50～100ピプスの反転があるトレンドにかなり満足しています。そのために日足の履歴は必要ありません。私の例では、これはH1で、18000は3年です。

2.あなたは未来を見ていますね。全履歴から15-20の予測因子を選択し、同じ15000バーの "訓練されていない "サンプルでテストするのですか？

それはすでに説明しました。私が個人的に説明していることを読んでいただくことが非常に望ましい。私は未来を見ません。パフォーマンスは常にサンプルから外れている。ラトルは、私が望んだとしても、あなたが提案する他の可能性を提供しない。

私にはオーバートレーニングの定義よりもはるかに複雑な問題がある。私は1万もの経済指標-予測因子を持っているが、市場に影響を与えるものをどう選ぶかは非常に難しい。各予測を個別に見ていけばいい、

完全な探索などできない。ランダムフォレストが最もうまく機能するのは、予測変数の数が数千の場合です。私のデータでは以下のようになる：90予測変数、10000行（棒グラフ） - モデルのトレーニング時間は1コアで約1分。結果：クラス・ラベル、クラス・ラベルの確率、モデル構築における各予測子の重要性。

このネットワークは、予測変数のすべての可能な組み合わせの探索よりも高速です、

予測変数の探索はない．アルゴリズムは以下のとおりである．ツリー・ノード中の予測変数の数というパラメータがあり，それに基づいて分類の決定がなされる．デフォルト = sqrt（私は予測変数の最大数の90を持っている）．およそ，各ノードで9個の予測変数が使用される．アルゴリズムは，木の各ノードを考慮するとき，常に9個の予測変数をとるが，常に合計数=90からランダムに選択する．クロス検証を通して，最も有意な予測変数が最終的に選択され，最終的な木構築に使用される．

PS.

なぜRを使わないのですか？有償ならSAS...。

Matlabは専門的な統計パッケージには全く入っていません。

CyberCortex 2015.01.14 23:57 #94

なぜわざわざ予測因子を選択するのか、説明してください。結局のところ、現代のアルゴリズムは何千もの予測因子を処理することができる。この場合、モデルは信頼できる。

СанСаныч Фоменко 2015.01.15 08:13 #95

CyberCortex:
なぜわざわざ予測因子を選択するのか、説明してください。結局のところ、現代のアルゴリズムは何千もの予測因子を処理することができる。そしてモデルは信頼できる。

残念ながら、そうではない。少なくとも私にとってはそうだ。

私は予測変数の選択アルゴリズムを知らない（数十の選択アルゴリズムは知っているが）。

統計学の古いルールはまだ適用されます："Garbage in - rubbish out"。

CyberCortex 2015.01.15 10:07 #96

faa1947:

残念ながら、そうではない。少なくとも私にとっては。

私は予測変数の選択アルゴリズムを知らない（数十の選択アルゴリズムは知っているが）。

統計学の古いルールがまだ適用されている。

私のプログラムをテストしてみたが、問題ないようだ。

別のリソースで私が書いた文章を引用させてもらえば、「ここから引用したデータでプログラムの正しさをテストしました：

http://archive.ics.uci.edu/ml/index.html

(機械学習・知能システムセンターのサイト）。

この場合、健康な人とがん患者の血液分析データを使用した。仮説は、その分析結果に基づいて人間のがんを予測できるモデルを構築することだった。分類は2つのクラス（病気かそうでないか）に分ける必要があった。

学習例の長さは10000特徴であった。そのうちの3000はランダムなもので、分類の質をテストするために特別に追加された。合計で100の例がトレーニング・サンプルに使用され、これは間違いなく非常に小さいが、我々はそれ以上を見つけることができなかった。テストの間、我々は同様に100個の量で他の例を使用した。

http://archive.ics.uci.edu/ml/datasets/Arcene

(元データのあるアーカイブへのリンク）。

見慣れないデータでの認識精度は75％だった。学習するデータがもっとあれば、予測精度を大幅に上げられると確信している。"引用終わり。

追伸：学習時間は、8コアのプロセッサと8GBのメモリを搭載したPCで約2分かかりました。なぜなら、アルゴリズムの学習時間は予測変数の数によって指数関数的に増大しないからです。そして、有益でない予測変数は自動的に使用されない。

ご興味のある方は、cybercortex.blogspot.ruのリンクをご覧ください。

СанСаныч Фоменко 2015.01.15 18:36 #97

CyberCortex:

私のプログラムをテストしてみたが、すべて問題ないようだ。

別のリソースで私が書いた文章を引用させてもらえば、「ここから引用したデータでプログラムの正しさをテストしました：

指標のような形式的で数学的な数値が使われる。そして、結局のところ、様々な種類のゴミをモデルに含めることは非常に簡単であり、「ゴミを入れる-ゴミを出す」というルールが機能し始める。

ゴミのような予測変数、つまりターゲット変数に弱い影響力を持つ予測変数をモデルに含めると、モデルのオーバートレーニングにつながります。

CyberCortex 2015.01.15 19:01 #98

faa1947:

あなたは、この問題を示す素晴らしい、そして典型的な例を持っている。

1.表面的には、あなたの例とは異なり、すべての金融系列はいわゆる時系列に属し、値の順序が重要であるという事実がある。したがって、金融市場のモデルは、医学のモデルとは異なり、このニュアンスを考慮に入れる必要がある。

2.しかし、もっと深刻な事情があり、それはご質問のテーマに直接関係しています。

医学では、「病気でない」という問いの解決は診断を意味し、これが医学全体の半分を占める。多くの人々が研究し、正当化し、我々の専門用語で言う「予測因子」を探し、これらの研究者によれば、それは「病気か病気でないか」という評決に関連する。FXにはそのようなものはない。株式市場では、経済的要因と動きの方向性との関係についての研究は一般的だが、日中の時間帯には当てはまらない。

そのため、日中足で機械学習モデルを構築する際には、指標のような形式的で数学的な数値が使われる。そして、結局のところ、様々な種類のゴミをモデルに含めることは非常に簡単であり、「ゴミを入れる-ゴミを出す」というルールが機能し始める。

モデルにゴミ予測変数，つまり目的変数に弱い影響を持つ予測変数を含めると，モデルの再トレーニングにつながり，トレーニング・サンプルではすべてがうまくいくが，サンプルの外では問題が発生する．

1.「すべての金融系列は、値の順序が重要な、いわゆる時系列に属します。- 誰もこのことを否定しませんし、時系列であってもこの順序に違反することはありません。価格P1、P2、P3...Pnでモデルを学習させ、サンプル外または実際の使用でテストする際に、その順序を変更することはありません。

2.入力が100％ゴミ予測変数の場合、出力も100％ゴミになります。これは明らかなことで、誰も反論していません。私が言いたいのは、100%以外のゴミデータがどれだけあっても、Out Of Samplesで良い結果が得られるので、データを淘汰することが問題にならないアルゴリズムがあるということです。また、主成分分析やオートエンコーダのようにデータの次元削減が重要なアルゴリズムと、データの次元に無頓着なアルゴリズムを区別することも重要です。

「株式市場では、経済的要因と動きの方向性との関係に関する研究が一般的だが、日中の時間帯には当てはまらない。- そうですね、非農業部門雇用者数の発表のような日中間隔には当てはまります。

3.もちろん、誰もが自分のできる範囲で稼いでいることは理解しているが、自分で機械学習アルゴリズムを実装したことはあるのか？私は、アルゴリズムがどのように機能するかを理解するためには、ゼロから自分でそれを書く必要があると確信しています。そうすれば、本には書かれていないことを発見できるはずだ。そして、以前は簡単だと思われた一見明白な要素でさえ、実際にはあなたが考えていたのとは違う動きをするのです:)ありがとう。

CyberCortex 2015.01.15 19:14 #99

faa1947:

また、日中足で機械学習モデルを構築する場合、指標のような形式的で数学的な値が使われる。そして、結局のところ、モデルに様々なゴミを含めることは非常に簡単であり、「ゴミを入れる-ゴミを出す」というルールが機能し始める。

ちなみに、「指標のような数学的量」を使う必要はない。その気になれば、価格、出来高、時間、デルタに結びついた独自のヒューリスティックをたくさん思いつくことができる。私が使う数学的指標で本当に数学的なものは、平均、標準偏差、相関だけだ。

Andrey Dik 2015.01.15 21:32 #100

CyberCortex:
....

3.もちろん、誰もが自分の知っている方法で稼いでいることは理解していますが、機械学習アルゴリズムを自分で実装したことはありますか？私は、アルゴリズムがどのように機能するかを理解するためには、ゼロから自分で書く必要があると確信しています。この場合、本には書かれていないことを発見できるはずだ。そして、以前は簡単だと思われた一見明白な要素でさえ、実際はあなたが考えていたのとは違う動きをするのです:)失礼ながら。

私はこの言葉を素通りすることはできなかった。尊敬！

記事"ランダムフォレストの予測トレンド"についてのディスカッション - ページ 10