Discusión sobre el artículo "Cuantificación en el aprendizaje automático (Parte 2): Preprocesamiento de datos, selección de tablas, entrenamiento del modelo CatBoost"

 

Artículo publicado Cuantificación en el aprendizaje automático (Parte 2): Preprocesamiento de datos, selección de tablas, entrenamiento del modelo CatBoost:

En este artículo, hablaremos de la aplicación práctica de la cuantificación en la construcción de modelos arbóreos. Asimismo, analizaremos los métodos de selección de tablas cuantificadas y el preprocesamiento de datos. El material se presentará sin fórmulas matemáticas complejas, en un lenguaje accesible.

En el ejemplo sobre la descripción de la funcionalidad de la secuencia de comandos "Q_Error_Otbor" nos familiarizaremos con los métodos de preprocesamiento de datos que implementamos.

Si describimos brevemente la finalidad del script "Q_Error_Otbor", esta consiste en cargar una muestra del archivo "train.csv", transferir el contenido a un array, preprocesar los datos y, alternativamente, cargar tablas cuantificadas y evaluar el error de los datos recuperados en relación con los datos originales para cada predictor. Luego almacenaremos los resultados de la evaluación de cada tabla cuantificada en un array. Tras comprobar todas las variantes, crearemos una tabla resumen con los errores para cada predictor, seleccionando las mejores variantes de tablas cuantificadas para cada predictor según el criterio dado. Hoy crearemos y guardaremos la tabla cuantificada de resumen, el archivo con la configuración de CatBoost, en el que se añadirán los excluidos de la lista para los predictores de entrenamiento, con la indicación de los números de serie de sus columnas. También crearemos otros archivos relacionados, dependiendo de la configuración de script seleccionada.

Autor: Aleksey Vyazmikin