記事「機械学習における量子化(第2回):データの前処理、テーブルの選択、CatBoostモデルの訓練」についてのディスカッション

 

新しい記事「機械学習における量子化(第2回):データの前処理、テーブルの選択、CatBoostモデルの訓練」はパブリッシュされました:

この記事では、ツリーモデルの構築における量子化の実際の応用について考察します。量子化テーブルの選択方法とデータの前処理について検討します。複雑な数式は使用しません。

Q_Error_Selectionスクリプトの機能を説明する例を使用して、実装したデータ前処理法について考えてみましょう。

簡単に言えば、Q_Error_Selectionスクリプトの目的は、train.csvファイルからサンプルを読み込み、内容を行列に転送し、データを前処理し、量子化テーブルを交互に読み込み、復元されたデータの各予測子の元の値に早退した誤差を評価することです。各量子化テーブルの評価結果は配列に保存されます。すべてのオプションを確認した後、各予測子の誤差を含む要約テーブルを作成し、指定された基準に従って各予測子の量子化テーブルに最適なオプションを選択します。要約量子化テーブル(CatBoost設定を含むファイル)を作成して保存しましょう。このテーブルには、訓練用のリストから除外された予測子がその列の通し番号とともに追加されます。また、選択したスクリプト設定に応じて付随ファイルも作成します。

作者: Aleksey Vyazmikin

理由: