Discusión sobre el artículo "Remuestreo avanzado y selección de modelos CatBoost con el método de fuerza bruta"

 

Artículo publicado Remuestreo avanzado y selección de modelos CatBoost con el método de fuerza bruta:

Este artículo describe uno de los posibles enfoques respecto a la transformación de datos para mejorar las capacidades generalizadoras del modelo, y también analiza la iteración sobre los modelos CatBoost y la elección del mejor de ellos.

En el artículo anterior, usamos el muestreo aleatorio simple de etiquetas, que tiene varias desventajas:

  • Las clases pueden estar desequilibradas. Supongamos que durante el periodo de formación, el mercado ha crecido en general, mientras que la población total (la historia de cotizaciones al completo) ha acusado altibajos. En este caso, el muestreo ingenuo creará más etiquetas de compra, pero menos etiquetas de venta. En consecuencia, las etiquetas de una clase prevalecerán sobre las etiquetas de la otra, por lo que el modelo aprenderá a predecir las ofertas de compra con más frecuencia que las ofertas de venta, que no serán válidas en los datos nuevos.

  • Autocorrelación de las características y etiquetas. Con el muestreo aleatorio, las etiquetas de una misma clase van una tras otra, mientras que las propias características (por ejemplo, los incrementos) cambian de manera poco significativa. Si imaginamos este proceso usando el ejemplo de entrenamiento de un modelo de regresión, observaremos una autocorrelación en los residuos del modelo, lo que provocará una posible valoración excesiva y un sobreentrenamiento del modelo, como se muestra en la siguiente imagen:


Model 1 tiene autocorrelación de residuos, lo cual se puede comparar con el sobreentrenamiento del modelo con ciertas propiedades del mercado (por ejemplo, las relacionadas con la volatilidad de los datos de entrenamiento), mientras que otros patrones no se consideran. Model 2 tiene residuos con la misma varianza (de promedio), lo cual indica que el modelo ha abarcado más información de la serie temporal o se han encontrado otras dependencias (además de la correlación de muestras colindantes).

Autor: Maxim Dmitrievsky

 
¿No se pensó en añadir EM (maximización de expectativas) en lugar de GMM?
[Eliminado]  
Stanislav Korotky:
¿No existía la idea de utilizar EM (Expectation Maximisation) en lugar de GMM?

y ya funciona con el algoritmo EM, según tengo entendido.

Hay ideas de utilizar redes neuronales profundas para esto, aún en estudio.

 
Maxim Dmitrievsky:

y ya está ejecutando el algoritmo EM, por lo que puedo ver.

Hay ideas para utilizar redes neuronales profundas para esto, aún en estudio.

OK. También en los trabajos fue un enfoque con voltear la serie original - por lo que las clases se equilibran automáticamente.

[Eliminado]  
Stanislav Korotky:

DE ACUERDO. Todavía se estaba trabajando en un enfoque con la inversión de la serie original - de esta manera las clases se equilibran automáticamente.

Como opción, y se puede utilizar oversampling-undersampling y sus combinaciones. Pero esto no dio mejoras significativas, mientras que GMM hizo. Además, cuantos más clusters, mejor. Puramente empírico.

aquí hay un buen artículo sobre remuestreo, con ejemplos https://imbalanced-learn.readthedocs.io/en/stable/index.html.

La estimación de la densidaddel kernel también es peor que GMM. La red neuronal profunda debería ser mejor que GMM, en teoría. Porque GMM no funciona bien con grandes espacios de características.

Welcome to imbalanced-learn documentation! — imbalanced-learn 0.5.0 documentation
  • imbalanced-learn.readthedocs.io
The exact API of all functions and classes, as given in the doctring. The API documents expected types and allowed features for all functions, and all parameters available for the algorithms.
 

Interesante artículo.

Tengo la sensación de que con esta jugada tramposa con la asignación aleatoria y la generación de pseudomuestras, sólo encontramos dependencias similares del periodo de entrenamiento significativas en el test.

¿Qué porcentaje de modelos fallan en la prueba?

Sería interesante añadir una tercera muestra - aprendamos de la primera, seleccionemos buenos resultados dado el test, y comprobemos el resultado de la selección en el examen.

 
El principal punto discutible es aprender de los datos más recientes y hacer pruebas con datos más antiguos. Esto es algo análogo a mirar hacia el futuro: los últimos modelos actuales incorporan algo de modelos anteriores (los participantes en el mercado tienen memoria, después de todo), pero en la dirección opuesta es más difícil predecir el futuro. Creo que si se reinicia el algoritmo de forma canónica (entrenando con datos antiguos, probando con datos nuevos - esto se parece más a la realidad), el resultado no será tan bueno.
 
Stanislav Korotky:
El principal punto discutible es aprender de los datos más recientes y hacer pruebas con datos más antiguos. Esto es algo análogo a mirar hacia el futuro: los últimos modelos actuales incorporan algo de modelos anteriores (los participantes en el mercado tienen memoria, después de todo), pero en la dirección opuesta es más difícil predecir el futuro. Creo que si se reinicia el algoritmo de la forma canónica (entrenando con datos antiguos, probando con datos nuevos - es más parecido a la realidad), el resultado no es tan bueno.

Por lo que tengo entendido, para este método sólo es cuestión de tiempo de fuerza bruta.

 
Aleksey Vyazmikin:

Según tengo entendido, para este método sólo es cuestión de tiempo de fuerza bruta.

No me había dado cuenta. Podría equivocarme, pero en los ajustes se prescribe férreamente entrenar en el último año y probar en los años anteriores, empezando por 2015.

 
Stanislav Korotky:

No me había dado cuenta. Podría equivocarme, pero en los ajustes se prescribe férreamente entrenar en el último año y examinarse en los años anteriores, a partir de 2015.

Así que hay una fuerza bruta - cuyo propósito es encontrar esos patrones en 2020, que estaban en vigor durante todo el período - desde 2015. Teóricamente, puede ser necesario la fuerza bruta más, pero el objetivo será alcanzado, la otra cosa es que no está claro si se trata de un patrón o un ajuste, y sin siquiera una respuesta hipotética a esta pregunta, es difícil tomar una decisión sobre la viabilidad de la instalación de la TC en el real....

 
Aleksey Vyazmikin:

Así que hay un sobremuestreo - cuyo objetivo es encontrar esos patrones en 2020, que estaban en vigor durante todo el período - desde 2015. Teóricamente, puede ser necesario la fuerza bruta más, pero el objetivo se logrará, la otra cosa es que no está claro si se trata de un patrón o un ajuste, y sin siquiera una respuesta hipotética a esta pregunta, es difícil tomar una decisión sobre la conveniencia de instalar el TC en el real....

Depende de lo que se considere una regularidad, si es el orden de los incrementos, ligado al tiempo, es una regularidad estacional de comportamiento de los incrementos, si sin ligar, pues la misma secuencia de incrementos con cierta libertad en la precisión.

Y depende de lo que se considere ajuste. Si las series son idénticas a sabiendas, entonces es un ajuste, pero el propósito de la prueba (no importa de qué lado) es comprobar el resultado en áreas no idénticas.

Y la logica de entrenar en el periodo cercano es logica, pero es lo mismo, si probamos en la profundidad de la historia, el resultado deberia ser el mismo, si entrenamos en la profundidad de la historia, y probamos en el periodo cercano.

Sólo confirmamos la hipótesis de que hay regularidades en los gráficos de prueba y entrenamiento.