Discusión sobre el artículo "Características del Wizard MQL5 que debe conocer (Parte 45): Aprendizaje por refuerzo con Monte-Carlo"
Hola, Sr. Njuki,
Espero que se encuentre bien.
Simplemente estoy preguntando sobre la optimización que se realizó en 2022 para el asesor experto. ¿Podría explicarme qué modelo de fijación de precios se utilizó?
Saludos cordiales,

Está perdiendo oportunidades comerciales:
- Aplicaciones de trading gratuitas
- 8 000+ señales para copiar
- Noticias económicas para analizar los mercados financieros
Registro
Entrada
Usted acepta la política del sitio web y las condiciones de uso
Si no tiene cuenta de usuario, regístrese
Artículo publicado Características del Wizard MQL5 que debe conocer (Parte 45): Aprendizaje por refuerzo con Monte-Carlo:
Con el algoritmo de Monte-Carlo, los valores Q solo se actualizan después de la finalización de un episodio. Un episodio es un lote de ciclos. Para este artículo, hemos asignado a este número de ciclos el parámetro de entrada 'm_episodes_size' y es optimizable o ajustable. Se atribuye al método Monte-Carlo su robustez ante la variabilidad del mercado porque puede simular mejor una amplia gama de posibles escenarios de mercado, lo que permite a los operadores determinar cómo funcionan diferentes estrategias en una variedad de condiciones. Esta variabilidad ayuda a los traders a comprender posibles compensaciones, riesgos y retornos, lo que les permite tomar decisiones más informadas.
Se argumenta que esta ventaja se deriva de su «visión del rendimiento a largo plazo», que contrasta con los métodos tradicionales, que tienden a centrarse en los resultados a corto plazo. Lo que esto significa es que las actualizaciones poco frecuentes que realizan las simulaciones de Monte-Carlo, dado que solo se producen una vez por episodio, evitan el ruido del mercado con el que se topan inevitablemente el Q-Learning y el SARSA, ya que estos ejecutan sus actualizaciones con mayor frecuencia. Por lo tanto, Monte-Carlo se esfuerza por evaluar el rendimiento a largo plazo de las estrategias de negociación mediante la evaluación de las recompensas acumuladas a lo largo del tiempo. Al analizar múltiples episodios de esto, los comerciantes pueden obtener información sobre la rentabilidad general y la sostenibilidad de sus estrategias.
El algoritmo de Monte-Carlo calcula estimaciones del valor de la acción basándose en los retornos promedio de pares estado-acción a lo largo de múltiples ciclos dentro de un solo episodio. Esto permite a los comerciantes evaluar mejor qué acciones (por ejemplo, comprar o vender) tienen más probabilidades de producir resultados favorables en función del desempeño histórico. Esta actualización de los valores Q se debe a que el componente de recompensa de estos valores Q se determina de la siguiente manera:
Donde:
Autor: Stephen Njuki