Discusión sobre el artículo "Validación cruzada y fundamentos de la inferencia causal en modelos CatBoost, exportación a formato ONNX"

MetaQuotes 2024.04.08 17:23

Artículo publicado Validación cruzada y fundamentos de la inferencia causal en modelos CatBoost, exportación a formato ONNX:

En este artículo veremos un método de autor para crear bots utilizando el aprendizaje automático.

Del mismo modo que nuestras conclusiones suelen ser erróneas y necesitan ser verificadas, los resultados de las predicciones de los modelos de aprendizaje automático necesitarán una doble comprobación. Si volvemos el proceso de doble comprobación hacia nosotros mismos, lograremos el autocontrol. El autocontrol de un modelo de aprendizaje automático se reduce a comprobar sus predicciones en busca de errores muchas veces en situaciones diferentes pero similares. Si el modelo comete pocos errores de media, entonces no estará sobreentrenado, pero si comete errores frecuentes, entonces hay algo que no funciona.

Si entrenamos el modelo una vez con los datos seleccionados, no podrá realizar el autocontrol. Si entrenamos el modelo muchas veces con submuestras aleatorias y luego probamos la calidad de la predicción en cada una de ellas y sumamos todos los errores, obtendremos una imagen relativamente fiable de los casos en los que se equivoca mucho y los casos en los que acierta con frecuencia. Podemos dividir estos casos en dos grupos, separándolos entre sí. Supone el análogo de realizar una validación walk-forward o una validación cruzada, pero con elementos adicionales. Esta es la única forma de implementar el autocontrol y obtener un modelo más sólido.

Por ello, es necesario realizar una validación cruzada en el conjunto de datos de entrenamiento, comparar las predicciones del modelo con las etiquetas de entrenamiento y promediar los resultados en todos los pliegues. Los ejemplos que se han pronosticado incorrectamente por término medio deben eliminarse de la muestra de entrenamiento final como erróneos. Sigue siendo necesario entrenar un segundo modelo ya en todos los datos, que distinga los casos bien predecibles de los mal predecibles, lo cual permite la cobertura más completa de todos los resultados posibles.

Autor: Maxim Dmitrievsky

fxsaber 2023.11.21 15:51 #1

Если модель в среднем мало ошибается, значит она не переобучена, если же ошибается часто, значит с ней что-то не так.

Sin embargo, ¡qué trampa tiene esta propuesta! Si los modelos se clasifican según su tasa de error y se toman de ellos los mejores, se trata de nuevo de sobreentrenamiento.

fxsaber 2023.11.21 16:01 #2

Поэтому необходимо провести кросс-валидацию на тренировочном датасете, сравнить предсказания модели с обучающими метками и усреднить результаты по всем фолдам. Те примеры, которые в среднем были предсказаны неверно, следует удалить из финальной обучающей выборки как ошибочные. Еще следует обучить вторую модель уже на всех данных, которая отличает хорошо предсказуемые случаи от плохо предсказуемых, позволяя наиболее полно охватить все возможные исходы.

El primer modelo negocia, el segundo clasifica (y predice) los lugares de negociación débiles. ¿Verdad?

[Eliminado] 2023.11.21 16:23 #3

fxsaber #:
El primer modelo negocia, el segundo clasifica (y predice) los lugares de negociación débiles. ¿Verdad?

Sí

[Eliminado] 2023.11.21 16:23 #4

fxsaber #:
Sin embargo, ¡qué trampa tiene esta propuesta! Si los modelos se clasifican por tasa de error y se toman de ellos los mejores, se trata de nuevo de un sobreentrenamiento.

Bueno, siempre debería haber una opción :)

Lo principal es que todos los modelos +- pasen OOS.

Este es uno de docenas de algoritmos, el más fácil de entender. Debido a la retroalimentación de los artículos anteriores parecía que los lectores no entienden lo que está pasando. Entonces, ¿cuál es el punto de la escritura.

¿Invertirías en una cuenta Versión beta de MetaTrader Tendencia de pensamientos interesantes

[Eliminado] 2023.11.21 16:30 #5

Interesante debate específicamente sobre métodos estadísticos en el Ministerio de Defensa, si hay quien tenga algo que decir/añadir.

mytarmailS 2023.11.21 17:02 #6

1) Me gustaría ver el rendimiento del modelo en la tercera muestra, que no era ni una traza ni una prueba y no participó en modo alguno en la creación y selección del modelo.

2) La detección de ruido y el reetiquetado de etiquetas o metaetiquetado fueron descritos por Vladimir en su artículo de 2017, en el que utilizó el paquete NoiseFiltersR para este fin.

Глубокие нейросети (Часть III). Выбор примеров и уменьшение размерности

www.mql5.com

Эта статья продолжает серию публикаций о глубоких нейросетях. Рассматривается выбор примеров (удаление шумовых), уменьшение размерности входных данных и разделение набора на train/val/test в процессе подготовки данных для обучения.

¿Por qué está tan [¡AVISO CERRADO!] Cualquier pregunta Discusión sobre el artículo

[Eliminado] 2023.11.21 18:14 #7

mytarmailS #:

1) Me gustaría ver el rendimiento del modelo en la tercera muestra, que no era ni un t-train ni una prueba y no participó en modo alguno en la creación y selección del modelo.

2) La detección de ruido y el reetiquetado de etiquetas o metaetiquetado fueron descritos por Vladimir en su artículo de 2017, en el que utilizó el paquete NoiseFiltersR para este fin.

El bot se adjunta al artículo

Describe unos pocos de decenas o cientos de métodos similares, no hay deseo de profundizar en cada uno de ellos, especialmente sin verificar los resultados. Estoy más interesado en auto-diseños y probarlos de inmediato, ahora la conversión a ONNX permite que esto se haga aún más rápido. El enfoque central es fácil de añadir/reescribir sin cambiar el resto del código, lo que también está muy bien. Este ejemplo de encontrar bugs vía cv tiene un fallo que no permite hablar de la inferencia causal completamente, así que esto es una introducción. Intentaré explicarlo en otro momento.

El artículo es útil incluso ya porque es una solución lista para experimentar con MO. Las funciones están optimizadas y funcionan rápido.

Discusión sobre el artículo Versión beta de MetaTrader Discusión sobre el artículo

Yevgeniy Koshtenko 2023.11.21 19:03 #8

Genial, me encantan tus artículos. He aprendido de ellos. También hice un material, ahora en prueba, sobre la exportación de modelo de bosque aleatorio en ONNX)Voy a probar tu modelo también)Espero publicarlo, soy un principiante=).

Discusión sobre el artículo Discusión sobre el artículo Discusión sobre el artículo

[Eliminado] 2023.11.21 19:50 #9

Yevgeniy Koshtenko de bosque aleatorio en ONNX)Probaré tu modelo también)Espero publicar, soy principiante=).

Más MO sólo son bienvenidos :) Yo también soy un aficionado.

Aleksei Kuznetsov 2023.11.21 20:54 #10

Así no se puede invertir el orden:
.

   int k = ArraySize(Periods) - 1;
   for(int i = 0; i < ArraySize(Periods); i++) {
      f[i] = features[i];
      k--;
   }

Debería ser

f[k] = features[i];

¿Por qué invertir el orden?

1 2

Nuevo comentario