トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング

mytarmailS 2023.04.11 12:35 #30211

Maxim Dmitrievsky #:
そんな開発ではなく、レクサスのあるガレージが必要なんだ。

市場が何であるかを理解しなければ、パスタの詰め合わせすらない。

Maxim Dmitrievsky 2023.04.11 12:38 #30212

mytarmailS #:

マーケットが何であるかを理解しなければ、パスタの詰め合わせすら存在しない。

FFはレクサスのあるガレージなんだ。

mytarmailS 2023.04.11 12:43 #30213

Maxim Dmitrievsky #:
FFはレクサスのあるガレージなんだ、他にどう説明したらいいかわからないよ。

君に説明する必要はないよ。

あなたにはあなたの意見があり、私には私の意見がある。

私の意見は私の経験であり、言葉で変えることはできない。

Maxim Dmitrievsky 2023.04.11 13:22 #30214

mytarmailS #:

説明する必要はない。

あなたにはあなたの意見があって、私には私の意見がある。

私の意見は私の経験であり、言葉で変えることはできない。

悲しいことに、それは意見ではなく事実なんだ。

FFの代わりにハゲた悪魔を描いても、それは合う。

mytarmailS 2023.04.11 13:30 #30215

Maxim Dmitrievsky #:
悲しいことに、それは意見ではなく事実なのだ。

FFの代わりにハゲの悪魔を描いて調整すればいい

自分が今どんなクソみたいなことを言っているのか気づいていない))))

まるで、mtのオプティマイザーは、オプティマイザーではなく、FFではなく、オプティマイザーであるかのように。

Maxim Dmitrievsky 2023.04.11 13:40 #30216

mytarmailS #:

君は今自分が言っていることに気づいていないんだ)

mtのオプティマイザーはオプティマイザーではないし、FFではなくオプティマイズする。

それがmtと何の関係があるんだ？生産最適化って知ってる？相互に依存しあっている工程があり、効率を改善する必要がある場合だ。

完成モデルのSL/TP最適化と同じことだ。

FFを使ってゴミの山からハゲの悪魔を作り出そうとしている。

まるで小学生と話しているようだ。

mytarmailS 2023.04.11 15:34 #30217

RのTORCH本がついに出た。

将来DLする魔法使いがいたら、がんばれ。

Aleksey Vyazmikin 2023.04.11 19:53 #30218

Rorschach #:

この方法を試しましたか？(ページの半分くらい下にあるモデル解釈のセクションを探してください)

リンクをありがとう。私が最終的にパイソンで実験を始めるときにとても役に立つだろう！

これはこの本の新しいプレゼンテーションのスタイルなのですね？他の資料はありますか？

質問に答えるために - 葉のカリングを行うとき、何も直接使用しませんでした。

私は決定木の森を扱ったわけではないので、提案されたような原理的なテクニックは使いませんでした。しかし、私は似たようなものを使用しました。例えば、特定の葉の誤差分散の推定は、アンサンブルにおける葉の重みを決定するために使用されました。

スプリット推定における予測変数の重要性はCatBoostにも存在しますが、勾配ブースティングでは、木が依存的で連続的であるため、指標の理解を調整する必要があります。この指標自体は、ツリーの構築を評価するものであり、貪欲な原理がすべてのデータでうまく機能するわけではないので、かなり議論の余地がある。しかし私は、CatBoostモデルの予測子を選択するために、8つのサンプル区間にわたる100のモデルからのスコアの平均を使いました。この実験の詳細はこのスレッドで発表されています。

提案バージョンでは、頻度相関は試していません - バイナリ予測子とリーフをグループ化する独自の方法を考案しました。私のアルゴリズムは最適ではないので、pythonの実装はより速く実行されるべきだと思います - 理解のために比較されるべきです。

高度に変化した予測子を選択するというアイデアは忙しそうなので、試してみるべきですね。しかし、実際に私が上で説明した実験では、最終的なトレーニングのためにそのような予測子を取らないという単純な方法でそれを行いました。過去の振る舞いから変数の変化傾向を検出する方法と、変動が予測変数の確率分布の平均範囲の変化に不可逆的にシフトした瞬間を検出する方法を理解する方が良いだろう。我々は紙の上にアイデアを持っている。

特定の行の解に対する各予測変数の寄与を視覚化して評価するのは楽しいが、多数の予測変数に対してはほとんど役に立たない。しかし、私は似たようなことをしました - このスレッドに1つのクラスターを投稿しました - 色によるリスの反応の重要性を強調し、モデルの何枚が各行を予測するために使用されたかを示しました。その結果、ほとんどの葉がモデルの中で活性化されなくなる、つまりパターンがまったく発生しなくなることが判明した--それについて考える人さえほとんどいない。

私はそこで出されたアイデアを見逃したのだろうか？もしそうなら、具体的に書いてください。

ニューラル・ネットワークで使用するためにカテゴリー的特徴をコード化するというアイデアについては理解できなかった。

Stanislav Korotky 2023.04.11 21:00 #30219

Slava #:

年明け早々、ーわかった。損失関数はベクトルと同じように行列でも機能する。この箇所では、まだ終わっていません（軸パラメータを追加していません）。

つまり、あなたの例では一行ずつ解く必要がある。

ーご清聴ありがとうございました。

さん、さん了解しました。しかし、ベクトル、特にLOSS_BCEには問題があります：

double bce(const vector &truth, vector &pred)
{
   double sum = 0;
   pred.Clip(DBL_EPSILON, 1 - DBL_EPSILON);
   const int n = (int)truth.Size();
   for(int i = 0; i < n; ++i)
   {
      sum += truth[i] * MathLog(pred[i]) + (1 - truth[i]) * MathLog(1 - pred[i]);
   }
   return sum / -n;
}

void OnStart()
{
   vector actual_values = {0, 1, 0, 0, 0, 0};
   vector predicted_values = {.5, .7, .2, .3, .5, .6};     // 0.53984624 - keras (correct answer)
   Print(actual_values.Loss(predicted_values, LOSS_BCE));  // 0.6798329317196582 - mql5 API
   Print(bce(actual_values, predicted_values));            // 0.5398464220309535 - custom
}

ここでもAPIの結果は期待された結果と一致しません。

Maxim Dmitrievsky 2023.04.12 07:20 #30220

Aleksey Vyazmikin #:

リンクをありがとう。パイソンで実験を始めるときにとても役に立ちそうだ！

これはこの本の新しいプレゼンテーションのスタイルですか？他の資料はありますか？

質問に答えるために - 葉の選択をするとき、何も直接使われませんでした。

私は決定木の森を扱ったわけではないので、提案されたような原理的なテクニックは使いませんでした。しかし、似たようなものは使いました。例えば、アンサンブルにおける葉の重みを決定するために、特定の葉の誤差分散の推定を使いました。

スプリット推定における予測変数の重要性はCatBoostにも存在しますが、勾配ブースティングでは、ツリーが依存的で連続的であるため、指標の理解を調整する必要があります。この指標自体は、ツリーの構築を評価するものであり、貪欲な原理がすべてのデータでうまく機能するわけではないので、かなり議論の余地がある。しかし私は、CatBoostモデルの予測子を選択するために、8つのサンプル区間にわたる100のモデルからのスコアの平均を使いました-平均して、この方法はトレーニング結果を改善しました。この実験の詳細はこのスレッドに掲載されています。

提案バージョンでは、頻度相関は試していません - バイナリ予測子とリーフをグループ化する独自の方法を考案しました。私のアルゴリズムは最適ではないので、pythonの実装はより速く実行されるべきだと思います - 理解のために比較されるべきです。

高度に変化した予測子を選択するというアイデアは忙しそうなので、試してみるべきですね。しかし、実際に私が上で説明した実験では、最終的なトレーニングのためにそのような予測子を取らないという単純な方法でそれを行いました。過去の振る舞いから変数の変化傾向を検出する方法と、揺らぎが予測変数の確率分布の平均範囲の変化に不可逆的にシフトした瞬間を検出する方法を理解する方が良いだろう。私は紙の上にアイデアを持っている。

特定の行の解に対する各予測子の寄与を可視化という形で評価するのは楽しいですが、多数の予測子モデルに対してはほとんど役に立ちません。しかし、私は似たようなことをしました - このスレッドにそのクラスターを投稿しました - そこで、色によるリスの反応の重要性を強調し、モデルの何枚が各行を予測するのに使われたかを示しました。その結果、ほとんどの葉がモデルの中で活性化しなくなる、つまりパターンがまったく発生しなくなることが判明した--そんなことを考える人はほとんどいない。

私はそこで出されたアイデアを見逃したのだろうか？もしそうなら、具体的に書いてほしい。

ニューラル・ネットワークで使用するためにカテゴリー的特徴をコード化するというアイデアについては理解できなかった。

これは簡単に自動化でき、人間の介入なしに機能する

前回の記事で同様のアルゴリズムを紹介した。

要するに、モデル・エラーをフィルタリングし、「取引しない」という別のクラスに入れるのだ。

そして、最初のモデルには穀物だけが残る。

これはツリー・ルールと同じだが、横から見た場合だ。しかし、ルールは互いに奪い合い、比較されるべきであり、そこで出力されるのは洗練されたTCである。

例えば、籾殻から穀物を選択する最初の反復（縦の点線の左側 - OOS）：

そしてこれが10回目：

トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング - ページ 3022