Discusión sobre el artículo "Características del Wizard MQL5 que debe conocer (Parte 51): Aprendizaje por refuerzo con SAC"

 

Artículo publicado Características del Wizard MQL5 que debe conocer (Parte 51): Aprendizaje por refuerzo con SAC:

Soft Actor Critic es un algoritmo de aprendizaje por refuerzo que utiliza tres redes neuronales. Una red de actores y dos redes de críticos. Estos modelos de aprendizaje automático se emparejan en una relación maestro-esclavo en la que los críticos se modelan para mejorar la precisión de las previsiones de la red de actores. Al tiempo que introducimos ONNX en esta serie, exploramos cómo estas ideas podrían ponerse a prueba como una señal personalizada de un asesor experto ensamblado por un asistente.

Soft Actor Critic es otro algoritmo de aprendizaje por refuerzo que estamos considerando, tras haber analizado algunos otros, entre los que se incluyen Proximal Policy Optimization (PPO), Deep-Q-Networks (DQN), SARSA y otros. Sin embargo, este algoritmo, al igual que algunos que ya hemos visto, utiliza redes neuronales, pero con una salvedad importante. El número total de redes utilizadas es tres, y estas son: dos redes críticas y una red de actores. Las dos redes críticas realizan predicciones de recompensa (valores Q) cuando se les introduce una acción y un estado del entorno, y el mínimo de las salidas de estas dos redes se utiliza para modular la función de pérdida empleada para entrenar la red de actores.

Las entradas a la red de actores son coordenadas del estado del entorno, y la salida es doble. Un vector medio y un vector de desviación estándar logarítmica. Mediante el uso del proceso gaussiano, estos dos vectores se utilizan para derivar una distribución de probabilidad para las posibles acciones que puede realizar el actor. Así pues, mientras que las dos redes críticas pueden entrenarse de forma tradicional, la red de actores es claramente harina de otro costal. Hay bastante que abordar aquí, así que primero reiteremos los conceptos básicos antes de continuar. Las dos redes críticas para la entrada toman el estado actual del entorno y una acción. Su resultado es una estimación del rendimiento esperado (valor Q) de realizar esa acción en ese estado. El uso de dos críticos ayuda a reducir el sesgo de sobreestimación, un problema habitual en el aprendizaje Q.

Seguiremos utilizando el mismo modelo que hemos utilizado hasta ahora, con 9 estados ambientales y 3 acciones posibles. Para procesar la distribución de probabilidad de las acciones, necesitamos la función de probabilidades logarítmicas cuyo código se compartió al principio de este artículo. Al compilar con el asistente y realizar una prueba para los 4 meses restantes de la ventana de datos, obtenemos el siguiente informe:

r1

c1


Autor: Stephen Njuki

 
hola stephen gracias por tus articulos educativos, te sugiero que agregues los datos historicos de nfp, cpi y tasas de interes de los calendarios economicos ya que estos datos influyen severamente en el mercado.