トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング

mytarmailS 2022.01.25 19:32 #25511

ウラジミール・ペレヴェンコ#:

予測変数の使用には、ドリフトというもう一つの問題があります。

ドリフトは私の理解では非定常性と同じなのでしょうか？

価格を入力とし、価格と相関のある最大確率系列を出力するモデルを学習させるとしたらどうだろう。そのようなことを試したことがありますか？

Aleksey Nikolayev 2022.01.25 20:03 #25512

Vladimir Perervenko#:

予測変数の使用には、もう一つ問題があります。そして、この問題はテストと運用の両方で特定され、考慮される必要があります。付録の記事の翻訳があり（他はWebで探してください）、ドリフターパッケージがあります。それだけではありません。しかし、重要なのは、予測因子を選択する際に、その重要性だけでなく、ドリフトも考慮する必要があるということです。高ドリフターには廃棄や変換を、低ドリフターにはテストや運用時に検討（修正）する必要があります。

そうですね、非定常性（ドリフト）は物事を非常に複雑にしています。残念ながら、スパムの例よりはるかに複雑です。しかし、それを考慮することは必要である。

Aleksey Vyazmikin 2022.01.26 02:51 #25513

elibrarius#:
ローソク足の色、30％の誤差でも負けることがある。我々はそれから得るかもしれないどのくらいの利益を知っている...色は通常、価格の遅い動き（夜間）によく推測され、1推測されていない強い日キャンドルは10小さな夜のものの価値があるかもしれません。ローソク足の色を当てるのは、やはり（次元がランダムなため）ランダムな出力になるのだと思います。
だから、TP、SLと分類をしたんです。もしそれらが同じなら、成功した取引の52％はすでに利益を上げていることになる。TP=2*SLの場合。そうすると、成功した取引の33％以上が利益を生むことになります。私の場合、2年間でTP=SLで52～53％の成功率というのが最高です。しかし、一般的には、TP/SLを固定したリグレッションを使おうと思っています。正確には、回帰の分類を何とかしてください。

そうだ、そういえば、このようなターゲットはボラティリティを考慮していないので、かなり有効な気がします。

サンプルを準備するために、事実上すべてのバーでポジションを開くと仮定してよいですか？

Aleksey Vyazmikin 2022.01.26 02:59 #25514

SanSanych Fomenko#:

原理的に、ゴミからお菓子を作るような数学的手法は存在しないし、ありえない。先生を予測する予測因子のセットが あるか、 ないかの どちらかです。

また、モデルは実質的に何の役割も果たしませんし、クロスバリデーションやその他の計算集約的な倒錯もしません。

PS.

ちなみに、モデルにおける予測因子の「重要度」は、先生の予測能力とは関係ありません。

正しい」予測因子を単独で選択できる完璧なモデル構築手法は存在しないのです。あるいは、そのようなことを私は知らない。

もしかしたら、市場を完全に記述することはできないかもしれませんが、サンプリングと予測器分析を適用することで、学習が行われるデータを覗き見しながらではありますが、モデルの結果を大幅に向上させることができます。

問題は、モデルを適用する際に、いかに効果的に予測因子を選択し、その異常な変化を制御するかということである。

Aleksey Vyazmikin 2022.01.26 03:15 #25515

Vladimir Perervenko#:

ノイズサンプルの処理方法には、削除、再分割（マークアップの修正）、ノイズサンプルを別のクラスに分けるという3つの選択肢があります。私の経験では、サンプルの25％くらいが「ノイズ」です。品質向上は5％程度で、モデルやデータ作成に依存する。たまに塗っています。

予測変数の使用にはもう一つ問題があります。そしてこの問題は、テストと運用の両方で特定され、考慮されなければならない。添付の翻訳記事（Webで他を探す）、ドリフターパッケージがあります。それだけではありません。しかし、重要なのは、予測因子を選択する際に、その重要性だけでなく、ドリフトも考慮する必要があるということです。高ドリフターには廃棄または変換、低ドリフターにはテストや作業時に考慮（補正）してください。

グッドラック

私が理解したところでは、論文の著者は、ウィンドウ上の予測値の分布を正確に分析し、それが非常に異なっている場合は、異常の信号を送ることを提案しているのです。私の理解が正しければ、この例では1000の指標のウィンドウを取ります。これは大きなウィンドウですが、どうやら統計的に擁護できるようです。質問、2つの分布を比較して、その有意な変化を検出するために、どのような指標を使うのでしょうか？

さらに考えてみると、変化そのものは他の予測因子によって予測されるかもしれません。例えば、金利の変化によって引き起こされる週単位の世界的なトレンドの変化があるとしましょう-すべてのサンプルにおいてそのような変化はほとんどありません-3として、モデルは単にこれらの予測因子を拾わないかもしれませんが、二つの予測因子を組み合わせれば、「異常な」変化は解釈することに適しているのです。つまり、相関する予測因子を見つけ、それらを組み合わせて新しい予測因子を作ろうとするのです。

順番に私の方法について簡単に述べると、予測器を「クアンタ」（セグメント）に分割し、その予測力によってクアンタの二値応答を推定するのである。このような推定を歴史的に横断的に行うことで、個々の予測因子として機能する量子の良いセットを選ぶことができ、また基本予測因子の選択にも利用できるのです。この方法によっても、結果は改善されます。それに対応して、制御サンプル上での量子挙動の安定性推定とその選択は、本質的にCatBoostにおけるモデル学習の結果を改善するものであり、ここで、それを使うことが許されるのか、すでに自滅的なのか、疑問に思うところである。

Aleksei Kuznetsov 2022.01.26 06:22 #25516

Aleksey Vyazmikin#:

そうだ、それで思い出したのですが、ターゲティングはボラティリティを考慮しないので、あまり効果的ではないと思います。

私もそう思います。夜間は数時間、日中は5分程度で取引が終了することもあります。だから、分類に回帰モデルをくっつける方法を考えているんです。0,1,2という数字を「棒読みで」予測することはできない。もっとスマートなものが必要だ。

サンプルを準備するために、事実上すべてのバーでポジションを開くという理解で合っていますか？

はい、予測される売買クラスがある場合。クラスもあるんですよ～、待ってください。

Dmytro Nazarchuk 2022.01.26 06:36 #25517

elibrarius#:

私もそう思います。夜間は何時間もかかる取引も、日中は5分で終わることもある。だから、分類に回帰モデルをくっつけるのはどうなんだろうと。0,1,2番を「棒読みで」予測することはできない。もっとスマートなものが必要だ。

ロジスティック回帰

Aleksey Nikolayev 2022.01.26 06:48 #25518

SanSanych Fomenko#:

数年ぶりに掲示板を見たら、歌にあるように「君がいたこと、君がいたこと、草原の鷲、颯爽としたコサック...」がそのまま残っていました。

統計学は公理から始まるが、公理である以上、議論されることはない。

"Garbage in, rubbish out"（ゴミを入れ、ゴミを出す）。

原理的に、ゴミを甘くするような数学的手法は存在しないし、ありえない。先生を阻止する予測因子があるのか、ないのか、どちらかです。

また、モデルは実質的に何の役割も果たしませんし、クロスバリデーションやその他の計算集約的な倒錯もしません。

PS.

ちなみに、モデルにおける予測因子の「重要度」は、先生の予測能力とは関係ありません。

同志スホフのように、「拷問したほうがいいに決まっている」と考える人たちが常にいるのだ)

特定のモデルよりも、適切な予測因子を見つけることが重要であることには同意します。そして、MOアルゴリズムの力だけに頼るのではなく、主に対象領域の研究に基づいて構築するのがよいでしょう（棒グラフから解釈不能な方法で予測因子を構築する）。

予測因子と同様に重要なのが損失関数である。損失関数は、対象分野と解決すべき問題にうまく適合させなければならない。

mytarmailS 2022.01.26 08:21 #25519

AMOを使った作業は、パターンの探索と言えるかどうかもわからないし、むしろターゲット関数への単純な近似・適合です。

AMOは何か気の利いたことを思いつきますか？

Aleksei Kuznetsov 2022.01.26 11:03 #25520

mytarmailS#:
AMOは何か気の利いたことを思いつくか？

いや、記憶された歴史のデータベースだ。木の葉とは？過去の10-20-100-1000の例・文字列から、なんとなく似たようなものを選んでいる。回答用紙：分類の場合、最頻値クラスまたは最頻値クラスのみの％、回帰の場合、すべての値の算術平均。

さらに、森であれば、森にあるすべての木の価値を平均化する。ブースティングの場合は、すべての木の値を合計します（連続する各木は、最も正確な答えを得るために前のすべての木の合計を修正します）。

トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング - ページ 2552