Discusión sobre el artículo "Características del Wizard MQL5 que debe conocer (Parte 45): Aprendizaje por refuerzo con Monte-Carlo"

 

Artículo publicado Características del Wizard MQL5 que debe conocer (Parte 45): Aprendizaje por refuerzo con Monte-Carlo:

Monte-Carlo es el cuarto algoritmo diferente de aprendizaje por refuerzo que estamos considerando con el objetivo de explorar su implementación en los asesores expertos ensamblados por el asistente. Aunque se basa en el muestreo aleatorio, ofrece numerosas posibilidades de simulación que podemos aprovechar.

Con el algoritmo de Monte-Carlo, los valores Q solo se actualizan después de la finalización de un episodio. Un episodio es un lote de ciclos. Para este artículo, hemos asignado a este número de ciclos el parámetro de entrada 'm_episodes_size' y es optimizable o ajustable. Se atribuye al método Monte-Carlo su robustez ante la variabilidad del mercado porque puede simular mejor una amplia gama de posibles escenarios de mercado, lo que permite a los operadores determinar cómo funcionan diferentes estrategias en una variedad de condiciones. Esta variabilidad ayuda a los traders a comprender posibles compensaciones, riesgos y retornos, lo que les permite tomar decisiones más informadas.

Se argumenta que esta ventaja se deriva de su «visión del rendimiento a largo plazo», que contrasta con los métodos tradicionales, que tienden a centrarse en los resultados a corto plazo. Lo que esto significa es que las actualizaciones poco frecuentes que realizan las simulaciones de Monte-Carlo, dado que solo se producen una vez por episodio, evitan el ruido del mercado con el que se topan inevitablemente el Q-Learning y el SARSA, ya que estos ejecutan sus actualizaciones con mayor frecuencia. Por lo tanto, Monte-Carlo se esfuerza por evaluar el rendimiento a largo plazo de las estrategias de negociación mediante la evaluación de las recompensas acumuladas a lo largo del tiempo. Al analizar múltiples episodios de esto, los comerciantes pueden obtener información sobre la rentabilidad general y la sostenibilidad de sus estrategias.

El algoritmo de Monte-Carlo calcula estimaciones del valor de la acción basándose en los retornos promedio de pares estado-acción a lo largo de múltiples ciclos dentro de un solo episodio. Esto permite a los comerciantes evaluar mejor qué acciones (por ejemplo, comprar o vender) tienen más probabilidades de producir resultados favorables en función del desempeño histórico. Esta actualización de los valores Q se debe a que el componente de recompensa de estos valores Q se determina de la siguiente manera:

Donde:

  • R t+1 , R t+2 ,…,R T son las recompensas recibidas en cada paso después del tiempo t.
  • γ /gamma es el factor de descuento (0 ≤ γ ≤ 1), que establece en qué medida se «descuentan» las recompensas futuras (es decir, se valoran menos que las recompensas inmediatas).
  • T representa el intervalo de tiempo en el que finaliza el episodio (estado terminal o tamaño del episodio en ciclos).


Autor: Stephen Njuki

 
Hola, Sr. Njuki,

Espero que se encuentre bien.

Simplemente estoy preguntando sobre la optimización que se realizó en 2022 para el asesor experto. ¿Podría explicarme qué modelo de fijación de precios se utilizó?

Saludos cordiales,