Discusión sobre el artículo "Validación cruzada y fundamentos de la inferencia causal en modelos CatBoost, exportación a formato ONNX"
Sin embargo, ¡qué trampa tiene esta propuesta! Si los modelos se clasifican por tasa de error y se toman de ellos los mejores, se trata de nuevo de un sobreentrenamiento.
1) Me gustaría ver el rendimiento del modelo en la tercera muestra, que no era ni una traza ni una prueba y no participó en modo alguno en la creación y selección del modelo.
2) La detección de ruido y el reetiquetado de etiquetas o metaetiquetado fueron descritos por Vladimir en su artículo de 2017, en el que utilizó el paquete NoiseFiltersR para este fin.
- www.mql5.com
1) Me gustaría ver el rendimiento del modelo en la tercera muestra, que no era ni un t-train ni una prueba y no participó en modo alguno en la creación y selección del modelo.
2) La detección de ruido y el reetiquetado de etiquetas o metaetiquetado fueron descritos por Vladimir en su artículo de 2017, en el que utilizó el paquete NoiseFiltersR para este fin.
El bot se adjunta al artículo
Describe unos pocos de decenas o cientos de métodos similares, no hay deseo de profundizar en cada uno de ellos, especialmente sin verificar los resultados. Estoy más interesado en auto-diseños y probarlos de inmediato, ahora la conversión a ONNX permite que esto se haga aún más rápido. El enfoque central es fácil de añadir/reescribir sin cambiar el resto del código, lo que también está muy bien. Este ejemplo de encontrar bugs vía cv tiene un fallo que no permite hablar de la inferencia causal completamente, así que esto es una introducción. Intentaré explicarlo en otro momento.
El artículo es útil incluso ya porque es una solución lista para experimentar con MO. Las funciones están optimizadas y funcionan rápido.Más MO sólo son bienvenidos :) Yo también soy un aficionado.
.
int k = ArraySize(Periods) - 1; for(int i = 0; i < ArraySize(Periods); i++) { f[i] = features[i]; k--; }Debería ser
f[k] = features[i];¿Por qué invertir el orden?
- Aplicaciones de trading gratuitas
- 8 000+ señales para copiar
- Noticias económicas para analizar los mercados financieros
Usted acepta la política del sitio web y las condiciones de uso
Artículo publicado Validación cruzada y fundamentos de la inferencia causal en modelos CatBoost, exportación a formato ONNX:
En este artículo veremos un método de autor para crear bots utilizando el aprendizaje automático.
Del mismo modo que nuestras conclusiones suelen ser erróneas y necesitan ser verificadas, los resultados de las predicciones de los modelos de aprendizaje automático necesitarán una doble comprobación. Si volvemos el proceso de doble comprobación hacia nosotros mismos, lograremos el autocontrol. El autocontrol de un modelo de aprendizaje automático se reduce a comprobar sus predicciones en busca de errores muchas veces en situaciones diferentes pero similares. Si el modelo comete pocos errores de media, entonces no estará sobreentrenado, pero si comete errores frecuentes, entonces hay algo que no funciona.
Si entrenamos el modelo una vez con los datos seleccionados, no podrá realizar el autocontrol. Si entrenamos el modelo muchas veces con submuestras aleatorias y luego probamos la calidad de la predicción en cada una de ellas y sumamos todos los errores, obtendremos una imagen relativamente fiable de los casos en los que se equivoca mucho y los casos en los que acierta con frecuencia. Podemos dividir estos casos en dos grupos, separándolos entre sí. Supone el análogo de realizar una validación walk-forward o una validación cruzada, pero con elementos adicionales. Esta es la única forma de implementar el autocontrol y obtener un modelo más sólido.
Por ello, es necesario realizar una validación cruzada en el conjunto de datos de entrenamiento, comparar las predicciones del modelo con las etiquetas de entrenamiento y promediar los resultados en todos los pliegues. Los ejemplos que se han pronosticado incorrectamente por término medio deben eliminarse de la muestra de entrenamiento final como erróneos. Sigue siendo necesario entrenar un segundo modelo ya en todos los datos, que distinga los casos bien predecibles de los mal predecibles, lo cual permite la cobertura más completa de todos los resultados posibles.
Autor: Maxim Dmitrievsky