Discusión sobre el artículo "Características del Wizard MQL5 que debe conocer (Parte 58): Aprendizaje por refuerzo (DDPG) con patrones de media móvil y oscilador estocástico"

 

Artículo publicado Características del Wizard MQL5 que debe conocer (Parte 58): Aprendizaje por refuerzo (DDPG) con patrones de media móvil y oscilador estocástico:

La media móvil y el oscilador estocástico son indicadores muy comunes cuyos patrones colectivos analizamos en el artículo anterior, mediante una red de aprendizaje supervisado, para ver qué «patrones se mantendrían». Partiendo de los análisis de ese artículo, vamos un paso más allá y analizamos los efectos que tendría en el rendimiento el aprendizaje por refuerzo, cuando se utiliza con esta red entrenada. Los lectores deben tener en cuenta que nuestras pruebas se han realizado en un periodo de tiempo muy limitado. No obstante, seguimos aprovechando los requisitos mínimos de programación que ofrece el Asistente de MQL5 (MQL5 Wizard) para mostrar esto.

En nuestro último artículo probamos 10 patrones de señales de nuestros dos indicadores (media móvil y oscilador estocástico). Siete de ellos dieron resultados positivos en una prueba retrospectiva realizada en un periodo de un año. Sin embargo, de ellos, solo dos lo hicieron realizando operaciones tanto en largo como en corto. Esto se debió a que el periodo de prueba fue breve, por lo que se recomienda a los lectores que lo prueben con un historial más amplio antes de seguir adelante. 

En este caso, partimos de la premisa de que los tres principales tipos de aprendizaje automático pueden utilizarse conjuntamente, cada uno en su propia «fase». En resumen, estos modos son el aprendizaje supervisado (SL), el aprendizaje por refuerzo (RL) y el aprendizaje por inferencia (IL). En el artículo anterior nos centramos en el SL, donde los patrones combinados de la media móvil y el oscilador estocástico se normalizaron en un vector binario de características. A continuación, estos datos se introdujeron en una red neuronal sencilla que entrenamos con el par EURUSD para el año 2023 y, posteriormente, realizamos pruebas prospectivas para el año 2024. 

Dado que nuestro enfoque se basa en la tesis de que el aprendizaje por refuerzo (RL) puede utilizarse para entrenar modelos mientras están en uso, queremos demostrarlo en este artículo utilizando nuestros resultados anteriores y la red de aprendizaje por refuerzo (SL). Planteamos que el aprendizaje por refuerzo (RL) es una forma de retropropagación que, durante su implementación, ajusta cuidadosamente nuestras decisiones de compraventa para que no se basen únicamente en los cambios proyectados en el precio, como ocurría en el modelo SL. 

Este "ajuste fino", como hemos visto en artículos anteriores sobre aprendizaje por refuerzo, combina exploración y explotación. De este modo, nuestra red de políticas, mediante la formación recibida en un entorno de mercado real, determinaría qué estados deberían adoptar medidas de compra o venta. Podría haber casos en los que una tendencia alcista no signifique necesariamente una oportunidad de compra, y viceversa. Esto significa que nuestro modelo RL actúa como un filtro adicional a las decisiones tomadas por el modelo SL. Los estados de nuestro modelo SL utilizaban valores continuos unidimensionales, y esto será muy similar al espacio de acciones que utilizaremos.


Autor: Stephen Njuki