最初の反復で価格を無作為に選択した場合、テスト/試験のサンプルで結果は大きく変わるでしょうか？
私自身の答えを言おう。
シグナル（文字列）を除外するために、最初の量子セグメントを1000回ランダムに選択しました。
以下は、ランダムな最初の量子の反復を変えた場合の処理の流れを示した2、3のGIFの例です（葉っぱにすることもできます）。
そしてこちらは、中間反復の瞬間の静止画である。選択と無作為化の異なる段階である。
どのような結論が導き出されるだろうか？
1.1.運が良ければ、ランダムなパターンが見つかるかもしれない。）
2.偽パターンの数を減らさなければ、欲の原理だけでモデルを構築するのは難しい。
3.量子セグメントや量子シートで観察される規則性を推定する方法を開発する必要がある。
4.ランダム性は、機械学習の成功の証明にはならない。
5.成功するためには論理的に妥当なモデルが必要である。
6.テストサンプルでの成功が試験サンプルでの成功を意味するとは限らない。
他にどのような結論が導き出せるだろうか？
スレッドの途中であなたの定量化方法を見失ってしまいました。
時系列の定量化は非常に重要です。例えば、レンコー法で価格を定量化すると、SB（少なくとも統計的に関連性のある）が得られます。したがって、「定量化してもしなくても、xxxが得られる」という表現は、少なくとも控えめだと思われます。もちろん、ティックストリームに情報があればの話だが（そうでなければ、MOの応用は無意味になってしまうからだ）。
renko法を用いて価格を数値化すると、SB（少なくとも統計的に関連する） 。
単なる棒グラフよりはSBはないと思う。
ただのバー以上のSBはないと思う。
鉄棒のスタッツはSBのパフォーマンスとは大きく異なるからだ。
ここではまだ誰もMOでティキを探求していないと思う。
少なくともこのシリーズを数値化したことはない。
これによって、トレーダーに有利な戦略を構築するための境界条件を使用することができる。
スレッドの途中で見落としていたのだが、申し訳ないが、あなたの数量化の方法を思い出してほしい。
定量化されたカットオフ」という概念は単純なもので、サンプルの各行で数値を持つ予測変数の範囲です。範囲内のものはすべて単位になる。
Methods of partitioning into ranges can be different, and I use both variants built in CatBoost (in bousting often used both to reduce the required RAM and reduce the dimensionality), and some of my own, for example, different numerical sequences.
予測変数が、得られたグリッドを用いて何らかの方法で範囲に分割された後、各セグメントが順番に取り出され、その中の情報の値について評価される。
A shift in the probability of belonging to a class by 5% or more from the average value of the sample is considered as valuable information, as well as the number of signals and their distribution in the sample are taken into account.
バイナリターゲットのサンプルの場合、0または1にヒットする確率がそれに応じてシフトされた2つの量子セグメントのグループを得ます。
各量子セグメントにはそれぞれ列があり、その範囲に信号があれば "1"、なければ "0 "と表示されます。
あるクラスに属する確率が標本平均から5％以上シフトすることは、信号の数や標本上の分布と同様、貴重な情報とみなされる。
IMHOは、マキシムが最近書いたπハッキングのように見える。割り当てられたクオンタの有意性を決定するために何らかの統計テストが使用されない限り、それは間違いなく彼です。
私は以前、取引に最適な時間帯がSBで選択されたときの簡単な例を挙げたことがある（明らかに存在しないのに）。たった5*24=120のバリエーションしかなかったが、常にそのような時間帯が見つかるほど十分だった（時間間隔は半年だったと思う）。フシギのののフシギのフシギフシギフシギフシギフシギフシギ。
つまり、規則性を探すのではなく、価格（ティック）系列（私は「時系列」を使いたくない）の状態を探すのである。
これによって、トレーダーに有利な戦略を構築するための境界条件を利用することができる。