Discusión sobre el artículo "Remuestreo avanzado y selección de modelos CatBoost con el método de fuerza bruta"
¿No existía la idea de utilizar EM (Expectation Maximisation) en lugar de GMM?
y ya funciona con el algoritmo EM, según tengo entendido.
Hay ideas de utilizar redes neuronales profundas para esto, aún en estudio.
y ya está ejecutando el algoritmo EM, por lo que puedo ver.
Hay ideas para utilizar redes neuronales profundas para esto, aún en estudio.
OK. También en los trabajos fue un enfoque con voltear la serie original - por lo que las clases se equilibran automáticamente.
DE ACUERDO. Todavía se estaba trabajando en un enfoque con la inversión de la serie original - de esta manera las clases se equilibran automáticamente.
Como opción, y se puede utilizar oversampling-undersampling y sus combinaciones. Pero esto no dio mejoras significativas, mientras que GMM hizo. Además, cuantos más clusters, mejor. Puramente empírico.
aquí hay un buen artículo sobre remuestreo, con ejemplos https://imbalanced-learn.readthedocs.io/en/stable/index.html.
La estimación de la densidaddel kernel también es peor que GMM. La red neuronal profunda debería ser mejor que GMM, en teoría. Porque GMM no funciona bien con grandes espacios de características.
- imbalanced-learn.readthedocs.io
Interesante artículo.
Tengo la sensación de que con esta jugada tramposa con la asignación aleatoria y la generación de pseudomuestras, sólo encontramos dependencias similares del periodo de entrenamiento significativas en el test.
¿Qué porcentaje de modelos fallan en la prueba?
Sería interesante añadir una tercera muestra - aprendamos de la primera, seleccionemos buenos resultados dado el test, y comprobemos el resultado de la selección en el examen.
El principal punto discutible es aprender de los datos más recientes y hacer pruebas con datos más antiguos. Esto es algo análogo a mirar hacia el futuro: los últimos modelos actuales incorporan algo de modelos anteriores (los participantes en el mercado tienen memoria, después de todo), pero en la dirección opuesta es más difícil predecir el futuro. Creo que si se reinicia el algoritmo de la forma canónica (entrenando con datos antiguos, probando con datos nuevos - es más parecido a la realidad), el resultado no es tan bueno.
Por lo que tengo entendido, para este método sólo es cuestión de tiempo de fuerza bruta.
Según tengo entendido, para este método sólo es cuestión de tiempo de fuerza bruta.
No me había dado cuenta. Podría equivocarme, pero en los ajustes se prescribe férreamente entrenar en el último año y probar en los años anteriores, empezando por 2015.
No me había dado cuenta. Podría equivocarme, pero en los ajustes se prescribe férreamente entrenar en el último año y examinarse en los años anteriores, a partir de 2015.
Así que hay una fuerza bruta - cuyo propósito es encontrar esos patrones en 2020, que estaban en vigor durante todo el período - desde 2015. Teóricamente, puede ser necesario la fuerza bruta más, pero el objetivo será alcanzado, la otra cosa es que no está claro si se trata de un patrón o un ajuste, y sin siquiera una respuesta hipotética a esta pregunta, es difícil tomar una decisión sobre la viabilidad de la instalación de la TC en el real....
Así que hay un sobremuestreo - cuyo objetivo es encontrar esos patrones en 2020, que estaban en vigor durante todo el período - desde 2015. Teóricamente, puede ser necesario la fuerza bruta más, pero el objetivo se logrará, la otra cosa es que no está claro si se trata de un patrón o un ajuste, y sin siquiera una respuesta hipotética a esta pregunta, es difícil tomar una decisión sobre la conveniencia de instalar el TC en el real....
Depende de lo que se considere una regularidad, si es el orden de los incrementos, ligado al tiempo, es una regularidad estacional de comportamiento de los incrementos, si sin ligar, pues la misma secuencia de incrementos con cierta libertad en la precisión.
Y depende de lo que se considere ajuste. Si las series son idénticas a sabiendas, entonces es un ajuste, pero el propósito de la prueba (no importa de qué lado) es comprobar el resultado en áreas no idénticas.
Y la logica de entrenar en el periodo cercano es logica, pero es lo mismo, si probamos en la profundidad de la historia, el resultado deberia ser el mismo, si entrenamos en la profundidad de la historia, y probamos en el periodo cercano.
Sólo confirmamos la hipótesis de que hay regularidades en los gráficos de prueba y entrenamiento.
- Aplicaciones de trading gratuitas
- 8 000+ señales para copiar
- Noticias económicas para analizar los mercados financieros
Usted acepta la política del sitio web y las condiciones de uso
Artículo publicado Remuestreo avanzado y selección de modelos CatBoost con el método de fuerza bruta:
Este artículo describe uno de los posibles enfoques respecto a la transformación de datos para mejorar las capacidades generalizadoras del modelo, y también analiza la iteración sobre los modelos CatBoost y la elección del mejor de ellos.
En el artículo anterior, usamos el muestreo aleatorio simple de etiquetas, que tiene varias desventajas:
Model 1 tiene autocorrelación de residuos, lo cual se puede comparar con el sobreentrenamiento del modelo con ciertas propiedades del mercado (por ejemplo, las relacionadas con la volatilidad de los datos de entrenamiento), mientras que otros patrones no se consideran. Model 2 tiene residuos con la misma varianza (de promedio), lo cual indica que el modelo ha abarcado más información de la serie temporal o se han encontrado otras dependencias (además de la correlación de muestras colindantes).
Autor: Maxim Dmitrievsky