Discusión sobre el artículo "Características del Wizard MQL5 que debe conocer (Parte 36): Q-Learning con Cadenas de Markov"

MetaQuotes 2025.04.07 08:35

Artículo publicado Características del Wizard MQL5 que debe conocer (Parte 36): Q-Learning con Cadenas de Markov:

El aprendizaje de refuerzo es uno de los tres principios principales del aprendizaje automático, junto con el aprendizaje supervisado y el aprendizaje no supervisado. Por lo tanto, se preocupa del control óptimo o de aprender la mejor política a largo plazo que se adapte mejor a la función objetivo. Con este telón de fondo, exploramos su posible papel en la información del proceso de aprendizaje de una MLP de un Asesor Experto montado por un asistente.

Las clases de señales personalizadas para los Asesores Expertos ensamblados por el asistente pueden asumir varias funciones, que vale la pena explorar, y continuamos esta búsqueda examinando cómo el algoritmo Q-Learning cuando se empareja con las Cadenas de Markov puede ayudar a refinar el proceso de aprendizaje de una red de perceptrón multicapa. Q-Learning es uno de los varios (aproximadamente 12) algoritmos de aprendizaje de refuerzo, por lo que esencialmente también es una mirada a cómo este tema puede implementarse como una señal personalizada y probarse dentro de un Asesor Experto ensamblado por un asistente.

Entonces, la estructura de este artículo se basará en lo que es el aprendizaje de refuerzo, se centrará en el algoritmo Q-Learning y las etapas de su ciclo, observará cómo se pueden integrar las Cadenas de Markov en Q-Learning y luego concluirá, como siempre, con informes del Probador de estrategias. El aprendizaje por refuerzo puede utilizarse como un generador de señales independiente porque sus ciclos ('episodios') son en esencia una forma de aprendizaje que cuantifica los resultados como 'recompensas' para cada uno de los 'entornos' en los que está involucrado el 'actor'. Estos términos entre comillas se presentan a continuación. Sin embargo, no utilizamos el aprendizaje de refuerzo como una señal bruta, sino que confiamos en sus capacidades para promover el proceso de aprendizaje al complementar un perceptrón multicapa.

Autor: Stephen Njuki

Nuevo comentario