記事についてのディスカッション - ページ 2

 
Aleksey Vyazmikin:

興味深い記事だ。

ランダム割当てと擬似サンプル生成というトリッキーな手法では、トレーニング期間からテストに有意な類似の依存関係を見つけるだけだと感じました。

テストに失敗するモデルの割合は?

3つ目のサンプルを追加するのは面白いでしょう。1つ目のサンプルから学習し、テストで適合度の高い結果を選択し、試験で選択結果をチェックします。

しかし、市場がランダムである場合、同じような相関関係をどうやって見つけることができるだろうか?答えは「ない」。過去のデータを訓練にスパイクするしかない。そしてここには何もない。第10サンプルでも追加できますし、MT5で新しいデータでテストすることもできます。
 
Stanislav Korotky:
主な疑問点は、最新のデータから学び、古いデータでテストすることである。最新の現在のモデルは、以前のモデルから何かを取り入れている(結局のところ、市場参加者は記憶を持っている)。アルゴリズムを正規の方法(古いデータでトレーニングし、新しいデータでテストする-その方が現実に近い)で再開すると、結果はあまり良くないと思う。
違いはありません。ただ、私はこの方法の方が好きなんだ。
 
Valeriy Yastremskiy:

何を規則性と見なすかにもよるが、もしそれが時間に縛られた増分の連続の順序であれば、増分の振る舞いの季節的な規則性であり、縛られていなければ、ある程度自由な精度で同じ増分の連続である。

そしてそれは、何をフィッティングとみなすかによる。しかし、テストの目的は(どちらからであろうと)同一でない領域での結果をチェックすることである。

また、近過去でトレーニングするというロジックは論理的であるが、歴史の深さでトレーニングし、近過去でテストすれば、結果は同じになるはずである。

我々は、テストとトレーニングのプロットに規則性があるという仮説を確認するだけである。

フィッティング - 予測変数(シートまたはアナログ)が少数のケース、オブザベーションの1%未満を分類した場合 - これは私にとってフィッティングとは何かを説明するものです。

 
Maxim Dmitrievsky:
しかし、市場がランダムである場合、どのようにして同様の関係を見つけることができるのだろうか?答えは、過去のデータをトレーニングにスパイクするしかない。そして、ここでは何も混ぜない。10サンプルでも追加できますし、MT5で新しいデータでテストすることもできます。

なりすましがないのはよくわかった。Pythonは知りませんが、2015年から2020年までのモデルを推定しているようですね?

それよりも推定基準の妥当性、選定に使用したテストサンプル以外でも機能するモデルの選定にどれだけ役立てることができるのかが気になります。

 
Aleksey Vyazmikin:

私の理解では、掃きだめではない。パイソンは知りませんが、モデル評価は2015年から2020年までのようですね?

それよりも評価基準の妥当性、選考に使われたテストサンプル以外でどれだけ通用するモデルの選考に役立てることができるのかが気になります。

評価は人それぞれ。記事のアプローチはごく普通だと思います。普通です。他に超銀河的なテスト手法があれば、ぜひ教えてください。

pythonがなければ、残念ながら機械学習はほとんど存在しません。)

 
Maxim Dmitrievsky:

誰がどう評価しようと自由だ。記事のアプローチはごく普通だと思う。普通です。他に超銀河的なテスト技術があれば教えてください。

記事のアプローチは面白い。

そして、我々は超銀河技術を発明するのだ :)

予測因子の有意性を数値で見ることは可能だと思います。例えば、1%までなら、この指数を異なるモデルで比較することができます。

 
Aleksey Vyazmikin:

私の理解では、掃きだめではない。パイソンは知りませんが、モデル評価は2015年から2020年までのようですね?

それよりも評価基準の妥当性、選考に使われたテストサンプル以外でどれだけ通用するモデルの選考に役立てることができるのかが気になります。

似たようなシリーズになる範囲で。発見された規則性が消えてしまうほど、テスト・サンプル外の系列の振る舞いが異なる確率はあります。しかし、それは有限であり、小さな時間スケールでは小さい。

そしてそれは役には立たない。

 
Valeriy Yastremskiy:

系列が似ていれば似ているほどである。発見された規則性が消えてしまうほど、テストサンプル外の系列の振る舞いが異なる確率がある。しかしそれは有限であり、小さな時間間隔では小さい。

そしてそれは役には立たない。

そのため、統計的な情報が不足しているのです。例えば、1000のモデルを調査し、そのうちの5%が2015年以降に良い利益を示したとします。同時に、モデル間の類似性を評価する必要があり、これはより困難ですが、より有益です。

 
Aleksey Vyazmikin:

そのため、統計的な情報が不足しているのです。例えば、1000のモデルを研究し、そのうちの5%が2015年以降に良い利益を示したとします。しかし、モデル同士の類似性も評価する必要があり、これはより困難ですが、より有益です。

すべてを書くことはできない。そうですね。条件をうまく選べば、ブートフォース・サイクルでは良いモデルがたくさん出てきて、悪いモデルはほとんど出てこない。ベストなものを選べばいいんだ。だから、ただ無作為に1つのモデルを選ぶわけではない。

記事では、20か50のモデル(覚えていない)に対して、学習ループからテストに合格している2つのモデルを挙げている。そして、実際にはもっと収益性の高いものがある。

 
Maxim Dmitrievsky
このソースコードが書かれたJupyter NotebookへのリンクをColabに置いてもらえますか?