если в работу использовать листья с высокой чистотой классов и не делить листья до 1 примера в листе. остальные как то достигли чистоты листьев например 70 - вроде неплохо. Препочитаю дерево и лист с честными 53 чистоты одного из классов
1) You can also use a matrix, but not necessarily, but immediately find each point of 0 class the closest point of 1 class, i.e. we get at once point 2. 3) do not count anything and do not refer to clusters, just remove pairs of the closest points.距離が閾値より小さい場合、この例での閾値は0.6になります。
しかし、前にも書いたが、このノイズ除去はあまりいいアイデアとは思えない(https://www.mql5.com/ru/forum/86386/page3324#comment_50171043 参照)。予測をするときにそのノイズを除去できないわけではないからだ。The tree itself will mark noisy leaves by giving them a probability of about 50%, and take for example non-noisy leaves with a probability of one of the classes >80% (or as many as you see fit).
Метамодели в машинном обучении: Автоматическое создание торговых систем практически без участия человека — Модель сама принимает решение как торговать и когда торговать.
皆さん!トピックがごちゃごちゃになっていませんか? アレクセイの論文は1時間前に発表された。
私たちはすでに、あらゆる方面から彼の時間における数量化について論じてきたと思う。少なくとも200ドルをもたらしてくれたことは、彼にとって喜ばしいことだと思う。
私たちはすでに、あらゆる方面から彼の時間における数量化について論じてきたと思う。私は先ほど言ったことに加えて、少なくとも200ドルをもたらしてくれたことは彼にとって嬉しいことだとしか言いようがない。
ありがとう、自分の収入を喜んでくれるのは嬉しいことだ!
記事は入門編です。あなたの言う通り、そこに書いたことはすべて、とても分かりやすいと思います。
後編はほどほどに、もう少し面白い。ただ、今のところ、私自身の方法を説明するのはあきらめて、簡略化したバージョンを思いついた。それは後編で説明する。
しかし、これは新しいアイディアが本文の5%を超えない場合の話である。
よろしければ、また読みに来てコメントしてください。
どのディオゲネスを指しているのかわからないが、荒らしという意味では、シノープのディオゲネスやラエルテスのディオゲネスに比べれば、私たちはみんな子供だ。
私のスレッド、リソースへの登録、そして今日のスレッドの日付を見れば、それが明らかになるだろう。登録から2年後には、フォーラムでの建設的で有益な対話にまだ希望があったのに、6年半後にはほとんど希望がなくなっている。お遊びです。
ありがとう。自分の収入を喜んでもらえるなんて、めったにないことだからね!
記事は入門編です。おっしゃるとおり、そこに書いたことはすべて、十分わかりやすいと思います。
後編は、もう少し面白いので、現在調整中です。しかし、現時点では、私自身の方法を説明するのをあきらめ、テストにわずかな効果をもたらす簡易版を思いついた。それは後編で説明する。
ただし、これは新しいアイディアが本文の5%を超えない場合の話である。
よろしければ、また読みに来てコメントしてください。
なぜランダムに?
1つのクラスのすべての点を循環させ、もう1つのクラスのすべての点との距離を測定し、最小距離をとる。
すべてが得られたら、ソートし、必要な距離まで削除する。一度に1組ずつ。削除された点が別の組で使われていた場合は、新しい最小距離の点を見つけ、再度ソートして続ける。
もっといい方法が思いつくかもしれない。ソートせずに、必要な距離だけ削除するとか。
うう、うまく理解できない:
アルゴリズムのプロトタイプを正しく理解できただろうか?
このような遅れでこのトピックに戻ってきたのは、CatBoostモデルや他のツリーアンサンブルのリーフが活性化において強い相関を持つ可能性があり、それがトレーニング中の信頼性を歪め、モデル全体としてのリーフ値の過大評価につながるというアイデアに少し魅了されたからである。
僕はちょっと鈍感なんだ:
アルゴリズムのプロトタイプを正しく理解できただろうか?
このような遅れでこのトピックに戻ってきたのは、CatBoostモデルや他のツリーアンサンブルのリーフが活性化において強い相関を持つ可能性があり、それがトレーニング中の信頼性を歪め、モデル全体としてのリーフ値の過大評価につながるというアイデアに少し魅了されたからである。
1) 行列を使うこともできるが、必ずしもそうではなく、0クラスの各点から1クラスの最も近い点を即座に見つける、つまり、点2を一度に得る。
3) 何もカウントせず、クラスタも参照せず、ただ最も近い点のペアを削除する。距離が閾値より小さい場合、この例での閾値は0.6になります。
削除された1クラスの点が0クラスの別の点とペアになっていた場合、ペアがない状態になり、1クラスの新しい最近接点を見つけなければなりません(再度計算を行うか、ポイント1で提案されたように行列を使用します。もしメモリが十分であれば、100万×100万の行列はどのメモリにも収まらないと思います。閾値の距離が非常に大きいと、最初はもっとあったクラスの1の点だけが残ることになる。
しかし、前にも書いたが、このノイズ除去はあまりいいアイデアとは思えない(https://www.mql5.com/ru/forum/86386/page3324#comment_50171043 参照)。予測をするときにそのノイズを除去できないわけではないからだ。ツリー自身は、ノイズのある葉には50%程度の確率を与えてマークし、例えばノイズのない葉は80%以上の確率でクラスのいずれかを取ります(あるいは、あなたが適切と考える数だけ)。
クラスターは 関係ない。それは、互いに矛盾する異なるクラスを持つ最も近いポイント、つまりノイズを取り除くだけだ。そして、クラスタリングでも、ツリーでも、訓練したいものを使えばいい。 。
1) You can also use a matrix, but not necessarily, but immediately find each point of 0 class the closest point of 1 class, i.e. we get at once point 2.
3) do not count anything and do not refer to clusters, just remove pairs of the closest points.距離が閾値より小さい場合、この例での閾値は0.6になります。
削除された1クラスの点が0クラスの別の点とペアになっていた場合、ペアがない状態になり、1クラスの新しい最近接点を見つけなければなりません(再度計算を行うか、ポイント1で提案されたように行列を使用します。もしメモリが十分であれば、100万×100万の行列はどのメモリにも収まらないと思います。閾値の距離が非常に大きいと、最初はもっとあったクラスの1の点だけが残ることになる。
しかし、前にも書いたが、このノイズ除去はあまりいいアイデアとは思えない(https://www.mql5.com/ru/forum/86386/page3324#comment_50171043 参照)。予測をするときにそのノイズを除去できないわけではないからだ。The tree itself will mark noisy leaves by giving them a probability of about 50%, and take for example non-noisy leaves with a probability of one of the classes >80% (or as many as you see fit).
私にはまだよく理解できない。それはすべて1つの空間、つまり1つの予測変数のメトリックで起こるのですが、どうやって他のものを考慮に入れるのでしょうか?
予測を予測する際に、、、、、、、、、、ー2のー私はー私はー私はー私はー2ー「ータがータがータがータがータがータがータがータがーのーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーでーーーーーーーーーーーーー
私にはまだ理解できない。まあ、すべては1つの空間、つまり1つの予測因子のメトリックの中で起こっているのだが、他のものをどのように考慮すればいいのだろうか?
予測するときにどうするかということですが、私は2つのモデルを 使うことを考えていました。1つは、データが "塊 "の領域にあることを確認するか、排除されたものを検出するもので、もう1つは、すでに残っているものに対して機能するものです。
https://www.mql5.com/ru/articles/9138
もう1年も誰も気にしていない
私はこのようなアルゴリズムを10個か20個書いてきた。この記事にあるものは、結果の安定性という点ではベストではない。
というわけで、議論することは何もない。