Discusión sobre el artículo "Cuantificación en el aprendizaje automático (Parte 1): Teoría, ejemplo de código, análisis sintáctico de la aplicación CatBoost"

 

Artículo publicado Cuantificación en el aprendizaje automático (Parte 1): Teoría, ejemplo de código, análisis sintáctico de la aplicación CatBoost:

En este artículo, hablaremos de la aplicación teórica de la cuantificación en la construcción de modelos arbóreos. Asimismo, analizaremos los métodos de cuantificación implementados en CatBoost. El material se presentará sin fórmulas matemáticas complejas, en un lenguaje accesible.

Qué es la cuantificación y por qué se usa: ¡vamos al grano!

En primer lugar, hablemos un poco de datos. Así, para crear modelos (entrenarlos) se requieren datos meticulosamente recopilados en una tabla; la fuente de dichos datos puede ser cualquier información que pueda explicar la métrica objetivo (lo cual determinará el modelo, por ejemplo, una señal comercial). Las fuentes de datos pueden denominarse de diferentes formas: predictores, fichas, atributos o factores. La frecuencia de aparición de una fila de datos viene determinada por la aparición de una observación comparable del proceso del fenómeno sobre el que se recopila información y que se estudiará con la ayuda del aprendizaje automático. El conjunto de los datos obtenidos se denomina muestra.

Una muestra puede ser representativa, es decir, cuando las observaciones registradas en ella describen el proceso completo del fenómeno estudiado, o puede ser no representativa, es decir, cuando hay tantos datos como ha sido posible recoger, lo que solo permite describir parcialmente el proceso del fenómeno estudiado. Por regla general, cuando nos ocupamos de los mercados financieros, tratamos con muestras no representativas, porque aún no ha ocurrido todo lo que puede ocurrir, y por este motivo no sabemos cómo se comportará un instrumento financiero cuando se produzcan nuevos eventos que no han ocurrido antes, en su totalidad. No obstante, todo el mundo conoce la expresión "la historia se repite", y es en esta observación en la que se basa un tráder algorítmico en su investigación, con la esperanza de que entre los nuevos eventos se encontrarán aquellos que fueron similares a los anteriores, y que su resultado se asemejará a la probabilidad identificada.

Autor: Aleksey Vyazmikin