Discusión sobre el artículo "Características del Wizard MQL5 que debe conocer (Parte 43): Aprendizaje por refuerzo con SARSA"

 

Artículo publicado Características del Wizard MQL5 que debe conocer (Parte 43): Aprendizaje por refuerzo con SARSA:

SARSA, que es la abreviatura de State-Action-Reward-State-Action (Estado-Acción-Recompensa-Estado-Acción), es otro algoritmo que se puede utilizar al implementar el aprendizaje por refuerzo. Por lo tanto, tal y como vimos con Q-Learning y DQN, analizamos cómo se podría explorar e implementar esto como un modelo independiente, en lugar de solo como un mecanismo de entrenamiento, en los asesores expertos ensamblados por el asistente.

El aprendizaje por refuerzo (Reinforcement Learning, RL) permite a los sistemas de negociación aprender de su entorno o de los datos del mercado y, de este modo, mejorar su capacidad de negociación con el tiempo. RL permite adaptarse a las condiciones cambiantes del mercado, lo que lo hace adecuado para determinados mercados financieros y valores dinámicos. Los mercados financieros son impredecibles, ya que a menudo se caracterizan por un alto grado de incertidumbre. RL destaca en la toma de decisiones en condiciones de incertidumbre, ya que ajusta continuamente sus acciones en función de la información recibida (recompensas), lo que resulta muy útil para los operadores a la hora de gestionar condiciones de mercado volátiles.

Una comparación paralela a esto podría ser un Asesor Experto que se adjunta a un gráfico y también se optimiza periódicamente a partir del historial de precios reciente para ajustar sus parámetros. RL pretende hacer lo mismo, pero con menos bombo y platillo. En la parte de esta serie dedicada hasta ahora al RL, lo hemos utilizado en su sentido estricto, como un tercer enfoque del aprendizaje automático (además del aprendizaje supervisado y el no supervisado). Aún no lo hemos considerado como un modelo independiente que pueda utilizarse en la elaboración de previsiones.

Eso cambia en este artículo. No solo introducimos un algoritmo RL diferente, SARSA, sino que buscamos implementarlo dentro de otra clase de señal personalizada de asesores expertos ensamblados por el asistente como un modelo de señal independiente. Cuando se utiliza como modelo de señal, el RL automatiza el proceso de toma de decisiones, reduciendo la necesidad de una intervención humana constante, lo que a su vez (al menos en teoría) podría permitir el comercio de alta frecuencia y una respuesta en tiempo real a los movimientos del mercado. Además, al recibir retroalimentación continua de su mecanismo de recompensa, los modelos de RL tienden a aprender a gestionar mejor el riesgo. Esto se consigue penalizando las acciones de alto riesgo con bajas recompensas, lo que tiene como efecto neto que RL minimiza la exposición a operaciones volátiles o deficitarias.

Las pruebas realizadas en el marco temporal diario para el EURJPY para el año 2022, cuyo único objetivo es demostrar la usabilidad del Asesor Experto, nos dan los siguientes resultados:

r1

c1


Autor: Stephen Njuki