Discusión sobre el artículo "Características del Wizard MQL5 que debe conocer (Parte 59): Aprendizaje por refuerzo (DDPG) con patrones de media móvil y oscilador estocástico (II)"

 

Artículo publicado Características del Wizard MQL5 que debe conocer (Parte 59): Aprendizaje por refuerzo (DDPG) con patrones de media móvil y oscilador estocástico (II):

Continuamos nuestro último artículo sobre DDPG con indicadores MA y estocásticos examinando otras clases clave de aprendizaje por refuerzo cruciales para la implementación de DDPG. Aunque programamos principalmente en Python, el producto final de una red entrenada se exportará como un archivo ONNX a MQL5, donde lo integraremos como un recurso en un Asesor Experto creado mediante un asistente.

En lugar de preguntarnos, como lo hicimos en el aprendizaje supervisado, ¿qué hará el precio a continuación?, nos preguntamos, dados estos cambios de precio entrantes, ¿qué acciones debería tomar el operador? Por lo tanto, realizamos simulacros de entrenamiento como se describió anteriormente para el año 2023 y luego hacemos una proyección hacia el año 2024, donde nuestras condiciones de entrada se modifican ligeramente.

En lugar de basar nuestras posiciones largas o cortas únicamente en lo que el precio va a hacer a continuación, también consideramos qué acciones realmente debemos emprender en función de lo que el precio vaya a hacer después. También tenemos en cuenta si las recompensas serán rentables. De los 7 patrones que avanzaron en el artículo 57, solo 3 avanzan de manera significativa cuando se utiliza el aprendizaje por refuerzo. Utilizando nuestra indexación del 10 que va del 0 al 9, estos patrones son 1, 2 y 5. Sus informes se presentan a continuación:

Para el patrón 1:

r1

c1


Autor: Stephen Njuki