トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング

Forester 2018.12.26 08:12 #12361

ドミトリー：

2年前、ここでマキシムカに「NSは核爆弾のようなおもちゃだ」と書いた。他のモデルが少なくとも満足のいく結果を出した場合、NSを使うことは推奨されないということです-彼らは存在しないものを見つけ、それについて何もすることができません。

木によるのは良いことですが、足場を使った方が良いですね。

私はR経由でxgboostを実験するつもりです、必要なものはすべてあるようです。そして、非常に高速で、最適な方法でメモリを使用しているようです。
例えば100の予測因子で10万のサンプルを扱えるのでしょうか？

Дмитрий 2018.12.26 08:15 #12362

エリブラリウス
私はRを通してxgboostを実験するつもりです、それは私が必要とするすべてを持っていると思います。そして、非常に高速で、最適な方法でメモリを使用しているようです。
例えば100の予測因子で10万のサンプルを扱えるのでしょうか？

)どうなんでしょうね～、それはFaのためなんでしょうね。

シンプルなモデルで遊んでいたのですが、バイナリで遊んでいたのですね。

Maxim Dmitrievsky 2018.12.26 11:16 #12363

エリブラリウス
私はRを通してxgboostを実験するつもりです、私は必要なすべてがそこにあると思います。そして、非常に高速で、最適な方法でメモリを使用しているようです。
例えば100の予測因子で10万のサンプルを扱えるのか？

チョー早い

mqlの行列を普通のファイルに保存する方法を学んだら、私のデータでテストしてみます（面倒だなぁ）)

私は、mqlpとlogの品質の差はありません...普通のモデルのものとほとんど差がありませんが、自分でボイスティングしてみたいです、もしかしたら本当に40倍かもしれません...でも実際は少し良いかもしれません。

上記の本についてですが、文章中に不必要な言葉や間投詞が多すぎると、すぐに著者の頭がおかしいと気づいて、本を閉じてしまいます ))

Forester 2018.12.26 11:41 #12364

マキシム・ドミトリエフスキー

チョー早い

mqlの行列を普通のファイルに保存する方法を学んだら、私のデータでテストしてみます（面倒だなぁ）)

私は、mqlpとlogの品質の差はありません...普通のモデルのものとほとんど差がありませんが、自分でボイスティングしてみたいです、もしかしたら本当に40倍かもしれません...でも実際は少し良いかもしれません。

本については、余分な言葉や間投詞が多すぎる文章を見ると、すぐに著者の頭がおかしいと思い、閉じてしまいます )) 。

NSはBackPropのため、多くのノイズがある場合、重要なデータを見つけることができません（そして、我々はすべての遠いバーがほとんどノイズであり、それは彼らが上から来たか、下から来たかどうかを本質的に重要である持っています）。

森については、（いろいろな木の投票であることは別として）ノイズにどう対処しているのか、まだ理解できていない。

一本の木そのものがノイズを抑制できるのか？(ノイズと一緒にサンプルを完全に記憶させることができると、1年前に読んだ内容で覚えています）

Maxim Dmitrievsky 2018.12.26 11:46 #12365

elibrarius:
NSはノイズの多い重要なデータを見つけることができません（そして、すべての長いバーはほとんどノイズであり、すなわち、それが上から来るか下から来るかは重要ではありません）。

森については、（いろいろな木の投票であることは別として）ノイズにどう対処しているのか、まだ理解できていない。

一本の木そのものがノイズを抑制できるのか？(1年前に読んだ本では、ノイズと一緒にサンプルを完全に記憶させることができると記憶している）。

ニューラルネットワークのアンサンブルをバギングで構築し、フォレストと同じものを得るのと同じように

森はバギングの特殊なケースで、木の代わりにどんな弱いモデルでも入れることができるということを理解する必要があります。一本の木は、何も抑制することができない初歩的なモデルです

森はランダムサンプリングのため、「なんとなく」再教育されないが、実はとても簡単に、気負わずに再教育される。

は、ディケイ（勾配ステップ）、早期停止、フォレストのrパラメータ、または前処理によって正則化する必要がありますが、これらの改善は通常5～10%以内です。悪いデータでは、どちらのモデルも同じように悪い結果になる

ブースト（GBMではなくエクストリーム）については、あまり再トレーニングしていないとのことなので、見てみてください。

https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/

Кеша Рутов 2018.12.26 11:52 #12366

ヴィザード_。

私の尊敬するイノセント。その言葉、恐るべし！マスター、喜びの瞬間をありがとうございます。
生命は新しい色（青、赤、灰、緑）で輝いた)))
いくつかの質問にお答えください。なぜボロンツォフをやたらとボロノフと呼ぶのですか？
とか、なんでMOもないのに市況を語っているのか、なんかデタラメなターゲティングをしようとしてるのか。
そして、肝心のトレンドフラットはどこにあるのでしょうか？）

私はボロンツォフについて書き、あなたの嘲笑に絶望しましたが、私の投稿は削除されました、文法ナチスのようにならないでください、私の目標はグレー（フラット）とカラー（トレンド）が90％の精度で異なる、青と赤は分かりやすくするため、方向性は使わない、緑の指標は絶対値としてとらえる、です。

Igor Makanu 2018.12.26 12:07 #12367

マキシム・ドミトリエフスキー：

mqlの行列を通常の形でファイルに保存する方法を学んだら、すぐに私のデータでテストしてみます（面倒だなぁ）))

構造体の配列を作成し、各構造体に行列を書き込み、FileWriteArray() を使用して一度にリセットします。

Документация по MQL5: Файловые операции / FileWriteArray

www.mql5.com

СанСаныч Фоменко 2018.12.26 12:11 #12368

エリブラリウス
8:2と6:4というように、10分の1の小さな数字で説明した。でも、データはたくさんあるんですよ。

BPを代表するサンプルはいくつあるのでしょうか？私は通常10000以下は使いませんが、少人数クラスでは少なくとも1000は必要です。

木については、木の本数による誤差のグラフが素晴らしい。

だからセンチネルでは、木の本数が100本以上あっても誤差は減らない。

グラフはこのようになります。

さまざまなファイルサイズを撮影し、答えを導き出すことができるのです。

しかし、これだけではありません。

rfには、もう一つ「サンプルサイズ」というパラメータがあります。それを使えば、クラスの差を平準化することができます。いずれにせよ、このパラメータは誤差の大きさに大きく影響する。

例えば、こんな感じです。

サンプルサイズ＝1000の場合、ファイルサイズ7500行の500は鬱陶しく見える。しかし、それは一見したところ、必ずしも落ち込んでいるわけではありません。クラス「0」がロングで、クラス「1」が「アウトオブマーケット」だとします。市場外」の誤差が0.5を超えているのは、一から買いを入れていることを意味する。もし入れ替わったら、「アウトオブマーケット」は無料だが、「ロング」の誤差は非常に小さいということになる。

そして、同じファイルをSample Size = 1000にすると、1000はとてもまともに見えます。

Maxim Dmitrievsky 2018.12.26 12:12 #12369

イゴール・マカヌ

構造体の配列を作成し、必要に応じて各構造体に行列を書き込み、FileWriteArray()で一度にリセットする。

列の数があらかじめわからない...また、内部に動的配列を持つ構造体の配列はファイルに書き込まれないのでしょうか？)これはちょっとヤバいですね...。

列数があらかじめわからない2次元配列を保存したい

СанСаныч Фоменко 2018.12.26 12:22 #12370

マキシム・ドミトリエフスキー：

ニューラルネットワークのアンサンブルをバギングで構築すると、フォレストと同じものが得られるのと同じように

森はバックギャモンの特殊なケースで、木の代わりにどんなものでも、どんな弱いモデルでも置くことができることを理解する必要があります。一本の木は、何も抑制することができない初歩的なモデルです

森はランダムサンプリングのため、「なんとなく」再教育されないが、実はとても簡単に、気負わずに再教育される。

は、ディケイ（勾配ステップ）、早期停止、フォレストのrパラメータ、または前処理によって正則化する必要がありますが、これらの改善は通常5～10%以内です。悪いデータでは、どちらのモデルも同じように悪い結果になる

ブースト（GBMではなくエクストリーム）については、あまり再トレーニングしていないとのことなので、見てみてください。

https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/

rf、xgboost、SVM、GLM、nnetなど、すべてがほぼ同じです。

あるサイトでは、あるモデルが他のモデルより優れていたり、他のサイトでは劣っていたり、すべてパーセンテージの単位です。

モデルの誤差は、実際には予測変数とターゲット変数のペアの誤差であるという印象です。どんなトリックを使っても、それを簡単に壊してしまうようなある種の限界を超えてしまうと、有望なペアを逃してしまう可能性があるのです。

トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング - ページ 1237