記事「機械学習における量子化(第1回):理論、コード例、CatBoostでの実装解析」についてのディスカッション

 

新しい記事「機械学習における量子化(第1回):理論、コード例、CatBoostでの実装解析」はパブリッシュされました:

この記事では、ツリーモデルの構築における量子化の理論的な応用を考察し、CatBoostに実装された量子化手法を紹介します。複雑な数式は使用しません。

では、量子化とは何で、何故使用されるのかを考えてみましょう。

まず、データについて少しお話します。モデルを作る(訓練をおこなう)ためには、テーブルに綿密に収集されたデータが必要になります。そのようなデータのソースは、ターゲット(モデルによって決定される、例:取引シグナル)を説明することができる任意の情報とすることができます。データソースは、予測子、特徴、属性、因子など、さまざまに呼ばれます。データラインの発生頻度は、その現象に匹敵するプロセス観測の発生頻度によって決定され、それについて情報が収集され、機械学習を使用して研究されます。得られたデータの総体をサンプルと呼びます。

サンプルは代表的であることもあります。これは、その中に記録された観測が、研究対象の現象のプロセス全体を記述している場合です。また、非代表的であることもあります。これは、収集可能な限りのデータがあり、研究対象の現象のプロセスの部分的な記述しかできない場合です。原則として、金融市場を扱う場合、起こりうることすべてがまだ起こっていないという事実のために、代表的でないサンプルを扱うことになります。このため、(過去に発生したことのない)新たな事象が発生した場合に、金融商品がどのように動くかはわかりません。しかし、「歴史は繰り返す」という知恵は誰もが知っています。アルゴリズムトレーダーが調査において依拠するのはこの観測であり、新しい事象の中に以前の事象と類似したものがあり、その結果が特定された確率と類似していることを期待します。


作者: Aleksey Vyazmikin

理由: