記事"ランダムフォレストの予測トレンド"についてのディスカッション

TheXpert 2014.12.18 09:58 #81

Reshetov:

これですべてが台無しだ。そして、あなたの高いAIが、些細な金額をすぐに認識しなかったのはなぜですか？

СанСаныч Фоменко 2014.12.18 10:08 #82

gpwr:

faa1947, 以下の例であなたのモデルがどのように機能するかを示してください。最初の列はモデル化された系列で、2番目と3番目の列は予測変数です。これらの予測変数の予測力は何ですか？

-0.35742	0.461646	-0.81907
0.431277	0.004545	0.426731
-0.00018	-0.4037	0.403528
-0.08575	0.90851	-0.99426
0.773826	0.008975	0.764852
0.426905	-0.96485	1.391757
0.253233	0.487955	-0.23472
0.20994	0.880554	-0.67061
-0.09929	0.160276	-0.25956
0.332911	-0.08736	0.420268
0.032258	0.360106	-0.32785
0.253027	-0.06859	0.321621
-0.66668	-0.54985	-0.11683
-0.5476	-0.13231	-0.41529
-0.75652	0.536488	-1.29301
-0.66109	-0.87314	0.212052
-0.09993	-0.86293	0.763
0.014625	0.715032	-0.70041
-0.48345	-0.62666	0.143206
-0.03596	0.935653	-0.97161
-0.17023	0.678024	-0.84826
0.293376	0.079529	0.213847
0.002922	0.754594	-0.75167
0.329194	-0.05535	0.384546
0.639423	-0.41358	1.053007
0.431631	-0.60334	1.034973
0.59125	0.497989	0.093262
0.266098	-0.79645	1.062549
-0.02624	0.643164	-0.6694
0.055014	-0.46214	0.517154
0.436132	-0.89992	1.336052
-0.30143	0.628619	-0.93005
-0.12168	0.886467	-1.00814
-0.10851	-0.0507	-0.0578
-0.74573	-0.50921	-0.23653
-0.574	0.244825	-0.81883
-0.87313	0.336188	-1.20932
-0.00344	0.117363	-0.1208
-0.20265	0.424326	-0.62697
0.177873	-0.17967	0.357541

私は一般的な数学者ではない。私は非常に具体的な推論をするように心がけており、取引の根拠として10000行のサンプルを得ることは難しいことではない。私は40行で結論を出す方法を知らないし、学ぶ必要もないと思っている。医学的には40ラインは普通です。

1.一般的に、私は「予測能力」が生じたモデルのオーバートレーニングについて書いている。

2.私は「ロング・ショート」という名目値の予測に関係している。これらは分類モデルです。あなたの例、回帰モデル私はしません。

私は続けるつもりです。

私はZZを実行し、複数のブレイクアウトを持つことができる引用符が必要です。したがって、私はかなり大きなファイルが必要です。

cotir自体に加えて、いくつかの予測因子、1つであっても。この予測因子はロング・ショートの予測力があるのか？

もちろん、ファイルが必要です - それとも、すべてを手で入力することをお勧めしますか？

Yury Reshetov 2014.12.18 10:25 #83

TheXpert:

レシェトフ

あなたのサンプルの「高い一般性」の秘密が明らかになりました：最初の列の値は、他の2つの列の値の合計です。

これですべてが台無しだ）。そして、あなたの高度なAIは、どうして些細な和をすぐに認識しなかったのでしょうか？

このAIは和を認識するようには設計されていません。なぜなら、このAIは二値分類のためのモデルを構築しており、このタスクは重回帰セクションのものだからです。

二値分類のモデルとはいえ、式：

double x0 = 2.0 * (v0 + 0.96485) / 1.900503 - 1.0;

double x1 = 2.0 * (v1 + 1.00814) / 2.399897 - 1.0;

y = 0.12981203254657206 + 0.8176828303879957 * x0 + 1.0 * x1 -0.005143248786272694 * x0 * x1;

は次のように単純化される： y ~ v0 + v1.

そして、あとはスプレッドシートで仮説を検定するだけです。

Vladimir Perervenko 2014.12.18 11:26 #84

こんにちは、サンサニッチさん。

アンダートレーニング、オーバートレーニングの問題については、こちらの草稿集http://www.iro.umontreal.ca/~bengioy/dlbook/。

5.3.3節にすべてがよく書かれています。一般的に、この本全体はとても役に立ちます。

幸運を祈る。

СанСаныч Фоменко 2014.12.18 12:01 #85

vlad1949:

こんにちは、サンサニッチさん。

アンダートレーニング、オーバートレーニングの問題については、こちらの草稿集http://www.iro.umontreal.ca/~bengioy/dlbook/。

5.3.3節にすべてがよく書かれています。一般的に、この本全体はとても役に立ちます。

幸運を祈る。

こんにちは！

リンクありがとう。

私はこのテーマに関するツール一式と文献のセレクションを持っています。しかし、それは実用化を促進するものではありません。

もしご希望であれば、このツールキット一式をオートマチックに使えるようにすることを期待して、共有することもできます。

Vladimir Perervenko 2014.12.18 12:06 #86

faa1947:

こんにちは！

リンクをありがとう。

私はこの問題に関する道具一式と選りすぐりの文献を持っている。しかし、これでは実用化は難しい。

もしご希望であれば、オートマティズムへのこのツールキットをすべて一緒にすることを希望して、共有することができます。

私はこの問題をプログラムで解決する。結果は上々だ。

幸運を祈る。

Vladimir 2014.12.18 15:34 #87

faa1947:

私は普遍的な数学の専門家ではない。私は非常に具体的に推論することを心がけており、取引に基づいて10000行のサンプルを得ることは難しくない。私は40本の線でどのような結論を出すのか知らないし、学ぶ必要もないと思っている。医学的には40ラインは普通である。

1.一般的に、私は「予測能力」が生じたモデルのオーバートレーニングについて書いている。

2.私は「ロング・ショート」という名目値の予測に関係している。これらは分類モデルです。あなたの例、回帰モデルは、私はしません。

私は続ける準備ができている。

私はZZを実行し、複数のブレイクアウトを持つことができる引用符が必要です。そこから私はかなり大きなファイルが必要です。

cotir自体に加えて、いくつかの予測因子、1つであっても。この予測因子はロング・ショートの予測力があるかという質問に答えよう。

そして、もちろん、ファイルが必要です - それとも、あなたは手ですべてを入力することをお勧めしますか？

なるほど。モデルが過剰訓練されているかどうかをチェックするのは、トレーニング・サンプルと外部での振る舞いを比較することで非常に簡単です。しかし、オーバートレーニングでないモデルにする方法は、どの予測入力がモデル化された系列に関連し、どれがそうでないかを決定する能力に依存します。モデルの汎化能力は、そのオーバーフィットに依存する。私が挙げた例は非常に単純である。モデル化される系列yはノイズの多い正弦波です。最初の予測変数x1は乱数です。2番目の予測変数x2は、差x2 = y-x1です。言い換えれば、このモデルは予測変数の和y = x1+x2によって正確に記述されます。この単純な例にあなたの手法を適用することを拒否したという事実は、あなたの手法がデータの関連性を決定する能力がないという疑念を抱かせるだけであり、この関連性を決定することこそが、オーバートレーニングを識別し、それを排除する主な目的なのです。実際のモデリング問題は、私の例よりもはるかに複雑で、関連性のあるデータと無関係なデータの両方が含まれます。一方を他方から切り離すのは信じられないほど難しい。すべての入力を持つニューラルネットワークは、関連性のある入力と関連性のない入力への接続を持つように訓練されるため、再学習されることになる。あなたはどうやらデータの関連性を判断する方法を知らないようなので、私はあなたの記事や本に興味はない。幸運を祈る！

СанСаныч Фоменко 2014.12.18 18:47 #88

gpwr:

モデルがオーバートレーニングになっているかどうかは、トレーニングサンプルと外部での挙動を比較することで簡単にチェックできる。

これは大きな錯覚であり、私が理解しているように、あなたはまだお金を払っていない。記事で紹介されているモデルは、トレーニング外の3つのサンプルで同じように良い結果を出しています。

しかし、このモデルはオーバートレーニングされているのです。どうすればオーバートレーニングされないモデルになるかは、どの予測入力がモデル化された系列に関連し、どれがそうでないかを判断する能力に依存しますが、これはオーバートレーニングを判断するよりもはるかに難しいのです。

まず、論文を注意深く読んでください - 表3は、ターゲット変数の予測における予測変数の有意性を示しています。

そして，例えば，予測変数varSerf，Boruta，FSelectorを選択するための特別なパッケージを研究して，行列を学ぶ．そして、CORElearnパッケージは、ターゲット変数に重要な予測変数を選択するための35（！）の異なるアルゴリズムを持っています。

ターゲット変数にとって重要な予測変数の選択における私の経験から言うと

1. 我々は予測変数のかなり大きな集合を形成する，たとえば，棒グラフの数が 15000で50個．

2.2. 上記のアルゴリズムの1つの助けを借りて、我々はこれらの15,000個の棒グラフで予測変数を選択します - 通常、我々は15個から20個を得ます。

3.3.次に、より小さなウィンドウ、例えば2000バーを取り、それを一度に1バーずつ動かし始め、50のうち先に選択した20から有意な予測子を選択します。

4.有意な予測変数の特定のリストは常に変化する。

どうやらあなたはデータの関連性を判断する方法を知らないようなので、私はあなたの論文や書籍に興味はありません。

なぜ必要なのか、どのように理解すればよいのか、実際のデータでの実例が説明されている私の本に少額でもお金を費やせば、これらのパッケージを手にしたときの使用効率は大幅に上がるだろう。

そして、あなたと私が一緒に、あなたの予測変数について訓練されていないモデルを作成しようとすれば、その効果はさらに大きくなるでしょう。成功が保証されるわけではありませんが、私とのコミュニケーション後、あなたがそのような表面的な書き込みをしなくなることは保証されます。さらに、実際のアカウントではもっと注意深くなるだろう。

Дмитрий 2014.12.18 19:16 #89

faa1947:

1.かなり大きな予測変数のセット、例えば、バーの数 15000で50個を形成する。

さて、なぜあなたが本を売ってお金を稼ぎ、取引をしないのか、その理由は明らかでしょう。

TheXpert 2014.12.18 20:08 #90

faa1947:

これらは大きな錯覚であり、まだあなたがお金を払っていないことに私は気づいている。しかし、このモデルは過剰に訓練されている。

オーバートレーニングは、確立されたかなり特殊な用語である。あなたはそれを置き換えているだけでなく、あなたの理解ではそれが何なのかも説明していない。

あなたの話し方はSultonを彷彿とさせる。

記事"ランダムフォレストの予測トレンド"についてのディスカッション - ページ 9