トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング

削除済み 2020.11.16 21:02 #21251

elibrarius:
そして、スプレッドでカバーできない場合はどうするのでしょうか？

重複は常にオーバーカバーとなり、モデル残差は自己相関する

つまり、自己欺瞞。前回の記事の写真をご覧ください。

Aleksei Kuznetsov 2020.11.16 21:08 #21252

マキシム・ドミトリエフスキー：

重複は常に上書きされ、モデル残差は自己相関する

つまり、自己欺瞞。前回の記事の写真をご覧ください。

説明のない絵 - ただの絵)

削除済み 2020.11.16 21:11 #21253

elibrarius:
説明のない絵 - ただの絵)

最初の写真の蝶番はマークシリーズで、モデルはこれで再トレーニングされます。新しいデータでは系列が全く異なるため

データセットから取り出した、その関係（特徴空間）。そんなスクリーンショットをすでに書いて投げています。

mytarmailS 2020.11.16 21:28 #21254

興味のある方は、ぜひお読みください。

http://www.ievbras.ru/ecostat/Kiril/Library/Book1/Content128/Content128.htm

Aleksei Kuznetsov 2020.11.16 22:13 #21255

マキシム・ドミトリエフスキー：

最初の写真に写っているヒンジはシリーズのマークで、モデルはこれに再教育されています。新しいデータでは系列が全く異なるため

データセットから取得した、5つの主成分とその関係（特徴空間）。このスクリーンショットはすでに書いて貼り付けてあります。

普及が進まないということは、再教育があまり必要ないということです。
私見ですが、オーバートレーニングの対策は他の方法で行った方が良いと思います。

削除済み 2020.11.16 22:30 #21256

elibrarius:
もしスプレッドに勝てないのであれば、それは本当にオーバートレーニングではないのでしょう。
私の考えでは、やせずに、他の方法でオーバートレーニングに対抗する方がいいと思います。

単純に相関を取っただけではスプレッドに勝てないが、スプレッドのない新しいデータではモデルがより安定する。シリーズではオーバーフィル、n.d.ではスプレッドなしで注ぐが、トレイでは最初のモデルよりはるかに優れている（スプレッドでも機能する）どのモデルも。これは明らかにシリアライゼーションへの再教育であり、それ以外の何物でもありません。わかりにくいけど、そうなんです🤣 もう一度写真を見ると、1枚目の方が分布のピークが高く、テールもあるかもしれませんね。それが直列性であり、ボラティリティであり、何でもいいのです。新しいデータではほとんどすぐに変化してしまうので、オーバーフィットになってしまうのです。2番下の写真にはそれがない、それしかない、そのゴミの中からスプレッドに勝てるαを探すしかないのです。ただ、データを見て、少なくとも直列性を取り除くか、何らかの変換をしてテールを取り除く必要があります。そして、残ったもののクラス分布を見て、通常のクラスターグループがあるのか、それとも私のように完全にランダムなのか、確認するのです。こうすることで、データセットがうまくいっているのか、ゴミなのかを視覚的に確認することもできる。それから、トレインとバリデーションを混ぜても、何の影響もないですよ。そして、「写真だけ」と言うのですね。

Aleksey Vyazmikin 2020.11.16 23:07 #21257

elibrarius:

//день недели, час = ввести через 2 предиктора sin и cos угла от полного цикла 360/7, 360/24

if(nameInd[nInd]=="Hour") {CopyTime (sim,per,startDt,n_bar+1,dtm);TimeToStruct(dtm[0],dts);ArrayResize(tmp,1);tmp[0]=(double)(dts.hour*60+dts.min)*360.0/1440.0;tmp[0]=(buf==0?MathSin(tmp[0]*pi/180.0):MathCos(tmp[0]*pi/180.0));}// для увеличения точности добавлены минуты 360/24 = 360/24/60 = 360/1440

if(nameInd[nInd]=="WeekDay") {CopyTime (sim,per,startDt,n_bar+1,dtm);TimeToStruct(dtm[0],dts);ArrayResize(tmp,1);tmp[0]=(double)(dts.day_of_week*1440+dts.hour*60+dts.min)*360.0/10080.0;tmp[0]=(buf==0?MathSin(tmp[0]*pi/180.0):MathCos(tmp[0]*pi/180.0));}// для увеличения точности добавлены часы и минуты 360/7 = 360/7/24/60 = 360/10080

コード上、buf=0 ならサイン、それ以外( buf==1 )ならコサインとなります。

木型は何でも消化する。
サインとコサインはすでに-1...+1に正規化されているので、NSに適しています

このバリアントと数字時間を比較したら、どちらが良いか教えてください。何か、曜日、時、分を入力すれば100％一致するような気がするのですが。

サインかコサインか、ユーザーの判断で決められるのか、よくわからない？

pi - 図書館から持ってきたのか、それともある桁までの精度なのか、どれなのか、どの定数を設定したのか、ここに書いておいた方がいいでしょう。

Aleksei Kuznetsov 2020.11.16 23:12 #21258

Aleksey Vyazmikin：

よくわからないのですが、サインやコサインはユーザーの判断で得られるのでしょうか？

pi - 図書館から持ってきたのか、それともある記号まで正確なのか、どれだ - ここに設定した定数を書いた方がいい。

モデルには、時計用のサインとコサインの両方、2列が必要です。そして、曜日を表すサイン＋コサイン。なぜそうする必要があるのかは、リンク先をご覧ください。

pi = 3,141529 ...学校から

Aleksey Vyazmikin 2020.11.16 23:20 #21259

上記の本を読むと、数学の知識の乏しさを痛感する。もし自由に読んでいる人がいたら、うらやましい。

問題は、異なる時間間隔で周期的に繰り返されるプロセスを、1つまたは2つの数字で表すにはどうしたらいいかということです。このプロセスは、繰り返し周波数が高く、ある濃密な帯域があり、その後周波数がフェードアウトし、観測区間の15％程度は信号がないこともあります。目的は、観測期間のどの部分でも臨界（70％）の混雑がなく、他の区間では十分な信号があるかどうか、つまり均一分布に近いほど良いのですが、信号の性質そのものは均一分布とは程遠い（と私は思っています）のです。

削除済み 2020.11.16 23:22 #21260

Aleksey Vyazmikin：

よくわからないのですが、サインやコサインはユーザーの判断で得られるのでしょうか？

pi - 図書館から持ってきたのか、それともある記号まで正確なのか、どれだ - ここに設定した定数を書いた方がいい。

CATboostがある 😑 特徴をカテゴリーとしてマークすれば良い

トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング - ページ 2126