Discusión sobre el artículo "Características del Wizard MQL5 que debe conocer (Parte 58): Aprendizaje por refuerzo (DDPG) con patrones de media móvil y oscilador estocástico"
Está perdiendo oportunidades comerciales:
- Aplicaciones de trading gratuitas
- 8 000+ señales para copiar
- Noticias económicas para analizar los mercados financieros
Registro
Entrada
Usted acepta la política del sitio web y las condiciones de uso
Si no tiene cuenta de usuario, regístrese
Artículo publicado Características del Wizard MQL5 que debe conocer (Parte 58): Aprendizaje por refuerzo (DDPG) con patrones de media móvil y oscilador estocástico:
En nuestro último artículo probamos 10 patrones de señales de nuestros dos indicadores (media móvil y oscilador estocástico). Siete de ellos dieron resultados positivos en una prueba retrospectiva realizada en un periodo de un año. Sin embargo, de ellos, solo dos lo hicieron realizando operaciones tanto en largo como en corto. Esto se debió a que el periodo de prueba fue breve, por lo que se recomienda a los lectores que lo prueben con un historial más amplio antes de seguir adelante.
En este caso, partimos de la premisa de que los tres principales tipos de aprendizaje automático pueden utilizarse conjuntamente, cada uno en su propia «fase». En resumen, estos modos son el aprendizaje supervisado (SL), el aprendizaje por refuerzo (RL) y el aprendizaje por inferencia (IL). En el artículo anterior nos centramos en el SL, donde los patrones combinados de la media móvil y el oscilador estocástico se normalizaron en un vector binario de características. A continuación, estos datos se introdujeron en una red neuronal sencilla que entrenamos con el par EURUSD para el año 2023 y, posteriormente, realizamos pruebas prospectivas para el año 2024.
Dado que nuestro enfoque se basa en la tesis de que el aprendizaje por refuerzo (RL) puede utilizarse para entrenar modelos mientras están en uso, queremos demostrarlo en este artículo utilizando nuestros resultados anteriores y la red de aprendizaje por refuerzo (SL). Planteamos que el aprendizaje por refuerzo (RL) es una forma de retropropagación que, durante su implementación, ajusta cuidadosamente nuestras decisiones de compraventa para que no se basen únicamente en los cambios proyectados en el precio, como ocurría en el modelo SL.
Este "ajuste fino", como hemos visto en artículos anteriores sobre aprendizaje por refuerzo, combina exploración y explotación. De este modo, nuestra red de políticas, mediante la formación recibida en un entorno de mercado real, determinaría qué estados deberían adoptar medidas de compra o venta. Podría haber casos en los que una tendencia alcista no signifique necesariamente una oportunidad de compra, y viceversa. Esto significa que nuestro modelo RL actúa como un filtro adicional a las decisiones tomadas por el modelo SL. Los estados de nuestro modelo SL utilizaban valores continuos unidimensionales, y esto será muy similar al espacio de acciones que utilizaremos.
Autor: Stephen Njuki