トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 2126

 
elibrarius:
そして、スプレッドでカバーできない場合はどうするのでしょうか?

重複は常にオーバーカバーとなり、モデル残差は自己相関する

つまり、自己欺瞞。前回の記事の写真をご覧ください。
 
マキシム・ドミトリエフスキー

重複は常に上書きされ、モデル残差は自己相関する

つまり、自己欺瞞。前回の記事の写真をご覧ください。
説明のない絵 - ただの絵)
 
elibrarius:
説明のない絵 - ただの絵)

最初の写真の蝶番はマークシリーズで、モデルはこれで再トレーニングされます。新しいデータでは系列が全く異なるため

データセットから取り出した、その関係(特徴空間)。そんなスクリーンショットをすでに書いて投げています。

 

興味のある方は、ぜひお読みください。

http://www.ievbras.ru/ecostat/Kiril/Library/Book1/Content128/Content128.htm

 
マキシム・ドミトリエフスキー

最初の写真に写っているヒンジはシリーズのマークで、モデルはこれに再教育されています。新しいデータでは系列が全く異なるため

データセットから取得した、5つの主成分とその関係(特徴空間)。このスクリーンショットはすでに書いて貼り付けてあります。

普及が進まないということは、再教育があまり必要ないということです。
私見ですが、オーバートレーニングの対策は他の方法で行った方が良いと思います。
 
elibrarius:
もしスプレッドに勝てないのであれば、それは本当にオーバートレーニングではないのでしょう。
私の考えでは、やせずに、他の方法でオーバートレーニングに対抗する方がいいと思います。
単純に相関を取っただけではスプレッドに勝てないが、スプレッドのない新しいデータではモデルがより安定する。シリーズではオーバーフィル、n.d.ではスプレッドなしで注ぐが、トレイでは最初のモデルよりはるかに優れている(スプレッドでも機能する)どのモデルも。これは明らかにシリアライゼーションへの再教育であり、それ以外の何物でもありません。わかりにくいけど、そうなんです🤣 もう一度写真を見ると、1枚目の方が分布のピークが高く、テールもあるかもしれませんね。それが直列性であり、ボラティリティであり、何でもいいのです。新しいデータではほとんどすぐに変化してしまうので、オーバーフィットになってしまうのです。2番下の写真にはそれがない、それしかない、そのゴミの中からスプレッドに勝てるαを探すしかないのです。ただ、データを見て、少なくとも直列性を取り除くか、何らかの変換をしてテールを取り除く必要があります。そして、残ったもののクラス分布を見て、通常のクラスターグループがあるのか、それとも私のように完全にランダムなのか、確認するのです。こうすることで、データセットがうまくいっているのか、ゴミなのかを視覚的に確認することもできる。それから、トレインとバリデーションを混ぜても、何の影響もないですよ。そして、「写真だけ」と言うのですね。
 
elibrarius:

//день недели, час = ввести через 2 предиктора sin и cos угла от полного цикла 360/7,  360/24
                     
if(nameInd[nInd]=="Hour")        {CopyTime        (sim,per,startDt,n_bar+1,dtm);TimeToStruct(dtm[0],dts);ArrayResize(tmp,1);tmp[0]=(double)(dts.hour*60+dts.min)*360.0/1440.0;tmp[0]=(buf==0?MathSin(tmp[0]*pi/180.0):MathCos(tmp[0]*pi/180.0));}// для увеличения точности добавлены минуты  360/24 = 360/24/60 = 360/1440

if(nameInd[nInd]=="WeekDay")     {CopyTime        (sim,per,startDt,n_bar+1,dtm);TimeToStruct(dtm[0],dts);ArrayResize(tmp,1);tmp[0]=(double)(dts.day_of_week*1440+dts.hour*60+dts.min)*360.0/10080.0;tmp[0]=(buf==0?MathSin(tmp[0]*pi/180.0):MathCos(tmp[0]*pi/180.0));}// для увеличения точности добавлены часы и минуты 360/7 = 360/7/24/60 = 360/10080

コード上、buf=0 ならサイン、それ以外( buf==1 )ならコサインとなります。


木型は何でも消化する。
サインとコサインはすでに-1...+1に正規化されているので、NSに適しています

このバリアントと数字時間を比較したら、どちらが良いか教えてください。何か、曜日、時、分を入力すれば100%一致するような気がするのですが。

サインかコサインか、ユーザーの判断で決められるのか、よくわからない?

pi - 図書館から持ってきたのか、それともある桁までの精度なのか、どれなのか、どの定数を設定したのか、ここに書いておいた方がいいでしょう。

 
Aleksey Vyazmikin:

よくわからないのですが、サインやコサインはユーザーの判断で得られるのでしょうか?

pi - 図書館から持ってきたのか、それともある記号まで正確なのか、どれだ - ここに設定した定数を書いた方がいい。

モデルには、時計用のサインとコサインの両方、2列が必要です。そして、曜日を 表すサイン+コサイン。なぜそうする必要があるのかは、リンク先をご覧ください。

pi = 3,141529 ...学校から

 

上記の本を読むと、数学の知識の乏しさを痛感する。もし自由に読んでいる人がいたら、うらやましい。

問題は、異なる時間間隔で周期的に繰り返されるプロセスを、1つまたは2つの数字で表すにはどうしたらいいかということです。このプロセスは、繰り返し周波数が高く、ある濃密な帯域があり、その後周波数がフェードアウトし、観測区間の15%程度は信号がないこともあります。目的は、観測期間のどの部分でも臨界(70%)の混雑がなく、他の区間では十分な信号があるかどうか、つまり均一 分布に近いほど良いのですが、信号の性質そのものは均一分布とは程遠い(と私は思っています)のです。

 
Aleksey Vyazmikin:

よくわからないのですが、サインやコサインはユーザーの判断で得られるのでしょうか?

pi - 図書館から持ってきたのか、それともある記号まで正確なのか、どれだ - ここに設定した定数を書いた方がいい。

CATboostが ある 😑 特徴をカテゴリーとしてマークすれば良い
理由: