カオスにはパターンがあるのか?それを探してみよう!特定のサンプルを例にした機械学習。 - ページ 20

 
Aleksey Vyazmikin #:

パターンがあるが、それを見つけることはできない。それとも、ランダムさの中にパターンがあるのか?

ただ、書いてあることを注意深く読んでみてください。

行間には何もなく、逐語的で非常に明確だ。

あなたは私が書いたことと一致しない質問を2度目にした。

 
elibrarius #:

欲を出さずにそれを行うにはどうすればいいのでしょうか?スプリットごとに別のものを計算し、一度にペアを選択しますが、あなたの場合、計算時間が5000倍以上になります。100のモデルを平均化する方が簡単だ。

私はむしろ品質、つまり追加評価基準に向かって考える。

もう1つのアプローチ - 予測変数に対する重み付けは、その適用の一貫性を保証します - 明確なツリーフレームワークではありません。最初に時間を定義し、次に「ボラティリティを推定し」、「現在の価格ポジションを推定する」という感じです。

エリブラリウス#:

ランダム性の影響を減らすために、それは正しい。そうでなければ、フォレストのように20-100のモデルを平均化する必要があります。

そこでは別のトリックがあり、私はそのプロセスを完全に理解しているわけではありません - 最初に(全サンプルを強制しない場合)切り捨てたサンプルでツリーを構築し、次に全サンプルの葉で結果を数えます。どうやら分割は部分標本で行われ、葉の重みはすでに全標本で行われているようだ。

elibrarius#:

つまり、精製木はベストではなく、ランダムに悪くなる可能性があることがわかります。

それゆえ、排水モデルから収益モデルまでばらつきがある。

しかし、トレーニングは各反復で常に結果を改善し、トレーニングサンプルのモデルは常にプラス側にある。金銭的なばらつきはあるが。

エリブラリウス#:

分布グラフから判断すると、ドレインモデルが多い、つまり平均すれば平均結果は不採算になる。

はい、しかしこれはむしろ特殊なケースです。

elibrarius#:

random-strength = 0にするとか?シードの変更によってモデルが変更されなくなることを期待します。 ランダムに悪いモデルを作るのではなく、より良い洗練ツリーを使ったモデルを作るとか。もし最良のモデルが流出するのであれば、10000個のランダムなモデルから無作為に最良のものをこのデータで検索することが、現実の流出への道である。

ゼロで試してみたが、木のスコアが どれも同じになったので、同じものがランダムに選ばれたの だと理解している:)) あるいはやはりどこかで乱数発生器が使われているのだろうか。

elibrarius#:

あるいは、フォレストのように、ランダムに選ばれた複数のモデルを平均化する。最適なものを再学習させることができるからだ。

つまり、3つのサンプルからモデルを選択し、平均化する?そうかもしれません。私はまだモデルのアンサンブルに移行したくないので、モデル自体の構築を改善する可能性を検討する必要があります。

 
Aleksey Vyazmikin #:

もう一つのアプローチは、その適用における一貫性を確保するための予測変数の重み付けであり、明確なツリーの枠組みではない。それは、「まず時間を定義しよう」、次に「ボラティリティを推定しよう」、そして「現在の価格ポジションを推定しよう」というようなものである。

これを試してみました - まず曜日や時間で分けました。このモデルは、最初の分割を自分で見つけるよりも悪い結果になった。サンプルを曜日ごとに5分割し、各曜日ごとに1つのモデルをトレーニングする。あるいは、1時間でも何でも好きなように。

Aleksey Vyazmikin#:

いや、トレーニングは反復ごとに常に結果を改善し、トレーニングサンプルのモデルは常にプラスになる。金銭的なスプレッドはありますが。

改善されることは明らかだが、ベストではないが、スコアのランダム化がある。
私は気を散らさないように、トレインを全く見ていない。彼はいつだっていい選手だ。

Aleksey Vyazmikin#: ゼロで試してみたけど、木のスコアが 全部同じになったのは、同じものからランダムに選ばれたってことなんだね :)) あるいは、やはりどこかで乱数発生器が使われているのだろうか。

もしランダム化せずにScoreが同じになったとしても、結果が異なるのであれば、ランダム化がどこかで使われていることになります。

Aleksey Vyazmikin#: つまり、3つのサンプルでモデルを選択し、それらを平均するということですか?そうかもしれません。私はまだモデルのアンサンブルにはしたくないので、モデルの構築自体を改善する可能性を検討する必要があります。

選択するのではなく、ランダムに生成されたものをすべて取り出します。そして平均化する。森のようにね。そこでもランダムな木が平均化される。でも、ランダムなものの中からベストなものを選んで実験することができる。

 
elibrarius #:

曜日や時間で最初に分割してみた。モデルは、最初の分割を単独で見つけた場合よりも悪くなった。サンプルを曜日ごとに5分割し、各曜日ごとに1つのモデルを学習させるのです。あるいは、1時間でも何でも好きなように。

はい、そのオプションがあります :)予測変数の1つで興味深い結果を得て、そのためのシグナル戦略を作ることができました。

しかし、私がここで話しているのは別のことで、トレーニング中のモデルによる予測変数の選択の優先順位についてです。

elibrarius#:

もしランダム化なしでスコアが上がり、それでも結果が異なるのであれば、それはランダム化が他のどこかで使われていることを意味します。

明らかに)開発者はこのトピックについてまだ沈黙しています。

elibrarius#:

淘汰ではなく、ランダムに生成されたものをすべて一列に並べる。そして平均化する。森のように。そこでもランダムな木は平均化される。しかし、ランダムなものの中からベストなものを選んで実験することができる。

このようなことは、大きなRecallで行うことができますし、ポジティブなクラスへの応答点の類似性によってモデルを事前にグループ化することもできます。

 

前回の実験のサンプルを減らしました - 以前に選択した予測変数で - 訓練サンプルから2014年から2015年の2年間を削除しました。

前回、3000以上の利益を上げたモデルが208個あったとすると、今回は277個です。ー 前回、ー3000以上のー以上のー利益がー208モデルあったとー277ー277。

ちなみに、前回のテストサンプルの平均利益収支は982ポイント、切り捨てサンプルの平均利益収支は2115ポイントでしたが、試験では-1114対-1214とほとんど変わりません。


ー1114対ー1214。

 
私もあるアイデアを試してみたいんだ。
 
Aleksey Vyazmikin #:

前回、模試で利益が3000を超えたモデルが208人だったとすると、今回は277人だ。偶然でしょうか、それともサンプルが似てきたのでしょうか?

あなたはシード、つまり新しいデータへの依存度が極めて高い。パターンが存在するデータでは、画像はトレーンのようになります。
最初のシードを変えてみてください(いくつかのバリエーションを試してみてください)。成功するパターンの数が同じように変化するなら、それはランダムであり、シードを変えたときのHNCのシーケンスも同じである。

Aleksey Vyazmikin#:

ちなみに、 最後のステップのテストモデルの サンプルの平均利益バランスは 982ポイントで、切り捨てたサンプルでは2115ポイントですが、試験ではほとんど変わりません -1114 vs -1214。

試験の平均が0を超えたのは奇妙です。もしかしてトレーンのこと?テストは学習には参加しないか、間接的に参加するようだ。

Aleksey Vyazmikin#:

結果を改善する方法はありますか?

おそらくモデルは過剰訓練か過小訓練です。最後の選択肢は、パターンがないことです。
もし過学習であれば、木の数を1まで減らしてみてください。

パターンがない場合はもっと難しい。もし5000以上の予測変数でパターンを見つけられなかったとしたら、他にどのようにパターンを探せばよいのかわかりません。あなたがどうやって5000以上の予測因子を見つけたのかもわかりません。私はまだその方向は掘り下げていません。計算するのに時間がかかるので、でも、OOSも半々くらいなので、そうしなければならないだろうね。

 

ところで、バランスラインは時間を横軸に取っているのですか、それとも単に取引間のステップを均等にしているのですか?チャートから判断すると、後者です。

これがその例です:

上のチャートは3000回以上、下のチャートは600回以上です。等間隔にすれば、美しいトレンドが得られます。しかし、5年間の取引はわずか数日であり、何カ月も何年も眠り続けるようなロボットを作っても意味がないことがおわかりいただけるでしょう。スイッチを切るだけだ。

写真は白鳥と黒鳥をテーマにしたものです。As you can see, MO "bites" them well and adjusts to them, if they are present.
@fxsaber has also researched this matterhttps://www.mql5.com/ru/blogs/post/749420
I completely agree with him that it is necessary to remove the influence of both white and black swans.

ーオプティマイザーではーではーではーではーではーオプティマイザーではーではーではーではーではーオプティマイザーではーではーではーではーオプティマイザーはーオプティマイザーでーオプティマイザーではーオプティマイザーはーオプティマイザーはーオプティマイザーはーオプティマイザーーー問題は、白鳥の瞬間はモデルがトレーニングされる前にはわからないということです。そして、もしそれを切り取ってしまったら、モデルはまったく違うものになり、独自の白鳥が現れるかもしれない。私たちは考え、実験しなければならない

Фильтр белых лебедей.
Фильтр белых лебедей.
  • www.mql5.com
В любом исследовании сначала идет подготовка исходных данных. На фин. рынках это почти всегда истории котировок. В зависимости от источника, они могут обладать определенными особенностями. Сегодня
 
RomFil #:
こんにちは、最初の投稿のファイルをアップロードしてもらえますか?

こんにちは。はい、今日投稿してみます。

 
elibrarius #:

シードへの依存度が非常に高い、つまり新しいデータに対するHGFが高い。パターンがあるデータでは、トレイネにあるような絵になる。
最初のシードを変えてみる(いくつかのバリエーションを試してみる)。成功するパターンの数が同じように変化するなら、それはランダムであり、シードを変えたときのHGCの順序も同じである。

各モデルのSeedは1から10000まで順次変化する - それが異なるモデルを生成するポイントである。シードが固定されておらず、空間全体から取られている場合はどうなるのか(あるいはどのように生成されるのか、これも問題だ)。

結果がテストと似ているはずだという発言の根拠は何ですか?私は、サンプルは均質ではないと仮定しています - それらの中に類似した例の比較可能な数はありませんし、量子の確率分布は少し異なると思います。

そうですね、モデルは偶然に作られたものであるとしましょう。

elibrarius#:

テストの平均が > 0 になったのは奇妙ですね。もしかしてトラインのことですか?テストは学習に関与していないか、間接的にトラインの選択に関与しているようです。

つまり、trainで学習している間にtestで改善が見られなければ、学習は中止され、testモデルで最後に改善が見られたポイントまでツリーが削除されます。

このようなケースは、改善されないかもしれないが、悪化は強くなく、訓練サンプルでより一般化された例であり、学習アルゴリズムはこのケースを停止するように指示する。この機能を無効にした場合、別の問題が出てきます-モデルに何本の木を使うべきか。固定数の木を訓練し、テストサンプルを使ってモデルを切り捨てますが、各ステップでバランスを計算する必要があり、確かにコストがかかります。

しかし、各ステップでバランスを計算する必要があり、確かにコストがかかります。1つのサンプルで学習を停止するのではなく、サブサンプルのセットで学習を停止するのが良いと思います。

elibrarius#:

ほとんどの場合、モデルはオーバートレーニングかアンダートレーニングです。そして最後の選択肢は、パターンがないということです。

もし過学習なら、木の数を1まで減らしてみてください。

パターンがない場合はもっと難しい。もしあなたが5000以上の予測変数でパターンを見つけられなかったとしたら、他にどうやってパターンを探せばいいのかわかりません。あなたがどうやって5000以上の予測因子を見つけたのかもわかりません。私はまだその方向は掘り下げていません。計算するのに時間がかかるので、でも、OOSも半々くらいなので、そうしなければならないだろうね。

どうやら私が使用したサンプルを明確に示していなかったようだ。ここに 記述した実験から6番目(最後)のサンプルなので、予測因子は61個しかない。

なぜなら、市場は変化しており、すべての組み合わせが存在することはありえず、後続の各サンプルでは、それらの数が異なり、おそらくそれらの平均結果も異なるからです。私たちは代表的なサンプルを使っているわけではないので、完全な説明は期待できない。

木に関しては、学習率(--learning-rate)の設定があり、これは木の数に関連している。つまり、学習率を上げると、サンプルを記述するのに必要な木の数が少なくなるということだ。学習率を上げると(0.3)、条件付きフィルタリングをパスするモデルの数が多くなり、時には2倍以上になる。CBでのツリーは多少異なります - 対称ツリーの全レベルに1つの分割があり、古典的な変形よりも適用が速くなりますが、1つ1つの情報量は少なくなります。最新のリリースでは、古典的なツリーを使うことができますが、MQL5にはそのモデルのインタプリタがないので、私は使いません。

一般的には、予測因子を追加することができます。現在、いくつかの例外を除いて、予測因子は3つのTFでのみ使用されています。

そしてもちろん、予測変数の事前スクリーニングが必要であり、これはトレーニングをスピードアップする。

エリブラリウス#:

ところで、バランスラインは時間を横軸にして作っているのですか、それとも単にトレード間のステップを均等にして作っているのですか?チャートから判断すると、後者です。

以下はその例です:

上のチャートは3000回以上、下のチャートは600回以上です。同じインデントで作れば、美しいトレンドが得られるだろう。しかし、5年間の取引はわずか数日であり、数ヶ月/数年間眠り続けるようなロボットを作る意味はない。スイッチを切るだけだ。

バランスは、カレンダーの時系列を考慮することなく、順次構築されています。はい、おっしゃることはわかりますが、私のコンセプトでは、それは取引パターンを準備する後の段階の問題です。

エリブラリウス

写真はちょうど黒鳥と白鳥の話題です。ご覧のように、手口はそれらによく「食いつき」、もしあればそれに合わせて調整します。

乖離があるのは論理的なことですが、私はただ、これらは非効率であり、ホワイトノイズを取り除くことで学ぶべきだと考えています。他の分野では、特に平坦な市場においては、単純な原始的戦略が機能することが多い。

理由: