記事「機械学習における量子化（第1回）：理論、コード例、CatBoostでの実装解析」についてのディスカッション

MetaQuotes 2024.03.28 10:15

新しい記事「機械学習における量子化（第1回）：理論、コード例、CatBoostでの実装解析」はパブリッシュされました:

この記事では、ツリーモデルの構築における量子化の理論的な応用を考察し、CatBoostに実装された量子化手法を紹介します。複雑な数式は使用しません。

では、量子化とは何で、何故使用されるのかを考えてみましょう。

まず、データについて少しお話します。モデルを作る（訓練をおこなう）ためには、テーブルに綿密に収集されたデータが必要になります。そのようなデータのソースは、ターゲット（モデルによって決定される、例：取引シグナル）を説明することができる任意の情報とすることができます。データソースは、予測子、特徴、属性、因子など、さまざまに呼ばれます。データラインの発生頻度は、その現象に匹敵するプロセス観測の発生頻度によって決定され、それについて情報が収集され、機械学習を使用して研究されます。得られたデータの総体をサンプルと呼びます。

サンプルは代表的であることもあります。これは、その中に記録された観測が、研究対象の現象のプロセス全体を記述している場合です。また、非代表的であることもあります。これは、収集可能な限りのデータがあり、研究対象の現象のプロセスの部分的な記述しかできない場合です。原則として、金融市場を扱う場合、起こりうることすべてがまだ起こっていないという事実のために、代表的でないサンプルを扱うことになります。このため、（過去に発生したことのない）新たな事象が発生した場合に、金融商品がどのように動くかはわかりません。しかし、「歴史は繰り返す」という知恵は誰もが知っています。アルゴリズムトレーダーが調査において依拠するのはこの観測であり、新しい事象の中に以前の事象と類似したものがあり、その結果が特定された確率と類似していることを期待します。