Discusión sobre el artículo "Características del Wizard MQL5 que debe conocer (Parte 47): Aprendizaje por refuerzo con diferencia temporal"

 

Artículo publicado Características del Wizard MQL5 que debe conocer (Parte 47): Aprendizaje por refuerzo con diferencia temporal:

La diferencia temporal es otro algoritmo del aprendizaje por refuerzo que actualiza los valores Q basándose en la diferencia entre las recompensas previstas y las reales durante el entrenamiento del agente. Se centra específicamente en la actualización de los valores Q sin tener en cuenta su emparejamiento estado-acción. Por lo tanto, veremos cómo aplicar esto, tal y como hemos hecho en artículos anteriores, en un Asesor Experto creado mediante un asistente.

La introducción al aprendizaje por diferencia temporal (Temporal Difference, TD) en el aprendizaje por refuerzo sirve como puerta de entrada para comprender cómo el TD se distingue de otros algoritmos, como Monte Carlo, Q-Learning y SARSA. Este artículo tiene como objetivo desentrañar las complejidades que rodean al aprendizaje TD, destacando su capacidad única para actualizar las estimaciones de valor de forma incremental basándose en información parcial de los episodios, en lugar de esperar a que estos se completen, como ocurre en los métodos Monte Carlo. Esta distinción convierte al aprendizaje TD en una herramienta poderosa, especialmente en entornos dinámicos que requieren actualizaciones rápidas de la política de aprendizaje.

En el último artículo sobre aprendizaje por refuerzo, analizamos el algoritmo Monte Carlo, que recopilaba información sobre recompensas a lo largo de múltiples ciclos antes de realizar una única actualización para cada episodio. Sin embargo, la diferencia temporal (TD) se basa en aprender de episodios parciales e incompletos, al igual que los algoritmos de Q-Learning y SARSA que abordamos anteriormente aquí y aquí.


Autor: Stephen Njuki