記事"ランダムフォレストの予測トレンド"についてのディスカッション

СанСаныч Фоменко 2015.01.16 08:41 #101

CyberCortex:

私は非常に特殊なことを扱っているので、"一般的 "なことを議論する気はない。

もっと具体的に言うと

私の仕事では、ランダムツリーフォレスト用の2つのパッケージとサポートベクターマシン（SVM）用の1つのパッケージを使っている。お分かりのように、Rで利用可能な機械学習ツールについて一般化することは、私にはできません。

さらに。

これは非常に限られたRattleシェルを使うブランチで、この記事ではrandomforestパッケージしか使っていない。

さらに。

この記事で使っているのは、このパッケージの関数の一部だけです。

さらに、私はこれらの制限だけを使用してあなたの投稿にコメントしますが、私はプログラムコードとその使用結果を私の言葉の下に置くことができます。

そこで

1.「すべての金融系列はいわゆる時系列であり、値の順序が重要である。- 誰もこれを否定しないし、時系列であってもこの順序は崩れない。価格P1、P2、P3...Pnでモデルをトレーニングしたあなたは、Out Of Samplesでテストするとき、または実際に使用するときに、それらの順序を変更しません。

これは、指定されたパッケージと完全に矛盾しています。他のパッケージの中であなたの発言を実装することは可能ですが、より複雑なコードになるでしょう。この記事で使われているコード（これは機械学習アルゴリズムで最も一般的なアプローチである）は以下の通りである：

初期サンプル（データセット）は、train(70%)、test(15%)、validate(15)の3つの部分に分割される。分割アルゴリズムは以下の通り：例えば、trainの場合、元のデータセットの70%の行が順次ではなくランダムに選択される。残りの30%から、さらに15%が再びランダムに選択される。残りの15%もランダムな行の並びであることは明らかである。棒グラフの並びが守られていることに疑問の余地はない。

しかしそれだけではない。

訓練セットでの訓練はデータの一部（約66％）しか使っていない。データの残りの部分はOOS（Out of sample）推定である。つまり、OOVが計算された棒グラフは異なるが、トレーニングが行われた棒グラフと混在している。論文ではこの推定値を与えており、常に最高のパフォーマンスを示している。

そしてラトルでは、さらに2つのデータセットで訓練されたモデルの推定値を得ることができる。つの推定値を比較することで、結論を導き出すことができる。

繰り返しますが、時系列でモデルを訓練するには特別な努力が必要です。ラトルを使用したい場合、ターゲット変数と対応する予測変数は、訓練とテストでのバーのランダムな順序を許すべきです。

2.入力が100%ゴミ予測変数の場合、出力も100%ゴミになります。これは明らかなことで、誰も反論しません。私が言いたいのは、100%以外のゴミデータがどれだけあっても、Out Of Samplesで良い結果が 得られるので、データを淘汰することが問題にならないアルゴリズムがあるということです。また、主成分分析やオートエンコーダのようにデータの次元削減が重要なアルゴリズムと、データの次元に無頓着なアルゴリズムを区別することも重要です。

そうではありません。Randomforestには、予測変数の有意性を決定するアルゴリズムが組み込まれています。予測変数の中にゴミがあると、このアルゴリズムはまったく役に立ちません。randomforestパッケージ自体には、ゴミ予測変数を事前にスクリーニングする追加機能がありますが、rattleでは利用できません。

"株式市場では、経済的要因と動きの方向性との関係に関する研究は一般的だが、日中足にはどれも当てはまらない。"- そうですね、非農業部門雇用者数の発表のような日中間隔には当てはまります。

私はこの情報を知らない。しかし、私は経済のことはよく知っている。そして、ガスプロムの1時間ごとのデータは、他社の経済データには依存していないと自信を持って断言できる。今月の結果について質問はない。

3.もちろん、誰もが自分の知っている方法で稼いでいることは理解していますが、自分で機械学習アルゴリズムを実装したことはありますか？私は、アルゴリズムがどのように機能するかを理解するためには、ゼロから自分でそれを書く必要があると確信して います。この場合、本には書かれていないことを発見できるはずだ。そして、以前は簡単だと思われた一見明白な要素でさえ、実際にはあなたが考えていたのとは違った動きをするのです:)

傭兵を作るのと運転するのは別のことだ。私は運転する方が好きだけど、人それぞれの選択がある。

PS.

私は、あなたが投げかけた質問に対してより深い答えを書いた本を書いた。

PSPS

私の個人的な経験では、最大70％の時間が予測変数の選択に費やされています。この本を売るという理由で、ある集団が形成されました-誰も、過学習モデルを生成しないような予測変数の迅速かつ効果的な選択を行うことに成功していません。そして、ほとんどの読者はすでにこの本の枠を超え、より良いツールを使っている。

このスレッドへの有意義な関心に感謝する。

エキスパートアドバイザの自己最適化：進化的遺伝的アルゴリズム

CyberCortex 2015.01.16 12:30 #102

faa1947:

詳細なご回答をありがとうございます。

しかし、いくつかの箇所で明確にしていただきたいことがあります。

まず、医療データを扱う私のプログラムの例は「例示的」であり、時系列には厳密な順序があるという事実に言及していると、あなたは上に書きました。

「すべての金融系列はいわゆる時系列であり、値の順序が重要である。

そして、あなたが使っているランダムフォレストでは、"棒グラフの順序に従うことに疑問の余地はない"と書いている。

もしアルゴリズムが最初にランダム部分空間法を使い、これらの時系列をシャッフルするのであれば、ランダムフォレストは時系列に対してどのように機能するのでしょうか？

「もう一度言うが、時系列でモデルを学習するには特別な努力が必要だ。- となると、また最初に戻ってしまう。では、時系列で機能させるために特別な努力が必要なら、なぜそのようなアルゴリズムに時間を浪費するのでしょうか？私たちは、そのような研究が奨励されている大学での研究というアカデミックな観点からこの話をしているのではなく、実用的な観点からこの話をしているのである。

「ガスプロムのセンチメントは、他の企業の経済データとは無関係であると自信を持って言える。- ということは、日中のガスプロム株は、ガスプロムや他の企業を含むRTS指数の影響を受けないということですか？

「メルセデスを作るのと運転するのは別のことだ。私は運転する方が好きだが、誰もが自分の選択をする。「詭弁では、これを本来の論旨からの逸脱と呼ぶ:)私はアルゴリズムとその実現について話していたのだが、あなたは気づかぬうちに車についてのテーゼを提示していた。私は、アルゴリズムと自動車の間には "小さな "隔たりがあると思う。気にしないでください、私はただこのような特異性に気づくのが好きなだけです:)

要約すると、あなたがラトルとランダムフォレストについて書いていることは、現実に即している可能性が高いし、あなたはそれについて知識がある。

しかし、まだ1つの疑問が残っています：なぜ人は、同じ品質の2つのアルゴリズム（前者は特別な努力やスキルがなくても時系列で完璧に機能し、後者はそれらがあっても機能する）を選択しなければならないのでしょうか？そしてこの場合、それは最適なのだろうか？

CyberCortex 2015.01.16 12:32 #103

joo:
その一文がどうしても理解できなかった。尊敬します！

ありがとう:)

СанСаныч Фоменко 2015.01.16 12:56 #104

CyberCortex:

しかし、まだ1つの疑問が残っている。それは、同等の分類品質を持つ2つのアルゴリズム（前者は特別な努力やスキルがなくても時系列で完璧に機能し、後者はそのようなものである）を選択する場合、なぜ後者を選択しなければならないのだろうか？そしてこの場合、それは最適なのだろうか？

異なるツールは異なる問題を解決し、それは利用可能な材料によって決定される。

ガラガラは、アイデアを素早く試すのに最適なツールだ。しかし、これで実用的なモデルを作るのはかなり難しいだろう。

ラトルにもっと深く入り込み、そこからrandomforestパッケージの一部として準備されたアクセスのログを引き出すことができる。あなたのターゲット変数が、例えば、トレンドではなく資産の増分を予測することであり、そのための予測因子を見つけることができたのであれば、randomforestは非常に便利です。トレンドを予測するのであれば、シーケンスを保持したままサンプルを手作業で塊に分割する必要がありますが、これはラトルでは難しく（可能ですが）、入力サンプル形成のアルゴリズムに制約を課さないrandomforestパッケージで直接作業することになります。テスト用のサンプル生成ツールはかなり充実している。これらは別のパッケージです。

などなど。一般的な結論は、「最適な」ツールは存在しないということです。

各パッケージには、生データの特定の問題を解決する多くの微妙な工夫がある。一般的に、プロセスは非常に単純というわけでもない。

追記ガスプロムについて書いたのは、相場と利益タイプの値の関係についてです。そして、インデックスは算術であり、同じ七面鳥である......。しかし、それは別の問題だ...。株式市場での機械学習の使用は、FXよりも有望ですが。私にはそう思える。

CyberCortex 2015.01.16 13:02 #105

faa1947:

道具によって解決できる問題は異なり、それは使用できる素材によって決まる。

ガラガラは、アイデアを素早く試すのに最適なツールだ。しかし、これで実用的なモデルを構築するのは難しい。

randomforestパッケージの一部として、ラトルに深く入り込み、そこから準備されたアクセスのログを引き出すことができる。あなたのターゲット変数が、例えば、トレンドではなく資産の増分を予測することであり、そのための予測因子を見つけることができたのであれば、randomforestは非常に便利です。トレンドを予測するのであれば、シーケンスを保持したままサンプルを手作業で塊に分割する必要がありますが、これはラトルでは難しく（可能ですが）、入力サンプル形成のアルゴリズムに制約を課さないrandomforestパッケージで直接作業することになります。テスト用のサンプル生成ツールはかなり充実している。これらは別のパッケージです。

などなど。一般的な結論は、「最適な」ツールは存在しないということです。

各パッケージには、生データの特定の問題を解決する多くの微妙な工夫がある。一般的に、プロセスは非常に単純というわけでもない。

追記ガスプロムについて書いたのは、相場と利益タイプの値の関係についてです。そして、インデックスは算術であり、同じ七面鳥である......。しかし、それは別の問題だ...。株式市場での機械学習の使用は、FXよりも有望ですが。私にはそう思える。

ありがとうございました。

Thomas Schroeder 2015.01.21 12:08 #106

いい記事

Andrew Kreimer 2015.01.22 21:02 #107

素晴らしい仕事だ！

Dr. Trader 2015.01.23 09:38 #108

興味深い記事だ。Rについて初めて知りましたが、とても便利なもののようですね。長い間、過去のデータに基づいて自己取引できるニューラルネットワークを作りたいと思っていたので、mt5から履歴（ohlc、スプレッド、数量）をアンロードして、それをラトルに渡してどうなるか試してみようと思います。

СанСаныч Фоменко 2015.01.23 12:11 #109

Dr.Trader:
興味深い記事だ。Rについて初めて知りましたが、とても便利なもののようですね。長い間、過去のデータに基づいて取引できるニューラルネットワークを作りたいと思っていたので、mt5から履歴（ohlc、スプレッド、数量）をアンロードして、それをラトルに渡して、どうなるか試してみようと思います。

ラトルには6つのモデルがあり、そのうちの1つがNSだ。NSの結果をランダムフォレスト、ADA、SVMと比較することをお勧めする。きっとその結果に驚くと思うよ。

Vladimir Perervenko 2015.01.28 16:13 #110

Dr.Trader:
興味深い記事だ。Rについて初めて知りましたが、とても便利なもののようですね。長い間、履歴データに基づいて取引できるニューラルネットワークを作りたいと思っていたので、mt5から履歴（owlc、スプレッド、ボリューム）をアンロードして、それをラトルに渡して、何が起こるか見てみようと思います。

これはまさにラトルが想定していないことです。Rで直接作業する必要がある。以下はそのようなソリューションの一例である。https://www.mql5.com/ja/articles/1103.

幸運を祈る。

Третье поколение нейросетей: "Глубокие нейросети"

2014.11.27
Vladimir Perervenko
www.mql5.com

Статья посвящена новому и очень перспективному направлению в машинном обучении — так называемому "глубокому обучению" и конкретней "глубоким нейросетям". Сделан краткий обзор нейросетей 2 поколения, их архитектуры связей и основных видов, методов и правил обучения и их основных недостатков. Далее рассмотрена история появления и развития нейросетей 3 поколения, их основные виды, особенности и методы обучения. Проведены практические эксперименты по построению и обучению на реальных данных глубокой нейросети, инициируемой весами накапливающего автоэнкодера. Рассмотрены все этапы от выбора исходных данных до получения метрик. В последней части статьи приведена программная реализация глубокой нейросети в виде индикатора-эксперта на MQL4/R.

記事"ランダムフォレストの予測トレンド"についてのディスカッション - ページ 11