Discusión sobre el artículo "MQL5 Wizard techniques you should know (Part 49): Aprendizaje por refuerzo con optimización de políticas proximales"

 

Artículo publicado MQL5 Wizard techniques you should know (Part 49): Aprendizaje por refuerzo con optimización de políticas proximales:

La optimización de políticas proximales es otro algoritmo del aprendizaje por refuerzo que actualiza la política, a menudo en forma de red, en pasos incrementales muy pequeños para garantizar la estabilidad del modelo. Examinamos cómo esto podría ser útil, tal y como hemos hecho en artículos anteriores, en un asesor experto creado mediante un asistente.

Continuamos nuestra serie sobre el asistente MQL5, donde últimamente estamos alternando entre patrones simples de indicadores comunes y algoritmos de aprendizaje por refuerzo. Tras haber analizado los patrones de indicadores (Alligator de Bill Williams) en el último artículo, volvemos ahora al aprendizaje por refuerzo, donde en esta ocasión el algoritmo que vamos a examinar es la Optimización de Política Proximal (Proximal Policy Optimization, PPO). Se informa que este algoritmo, publicado por primera vez hace siete años, es el algoritmo de aprendizaje por refuerzo elegido para ChatGPT. Por lo tanto, es evidente que existe cierto entusiasmo en torno a este enfoque del aprendizaje por refuerzo. El algoritmo PPO tiene como objetivo optimizar la política (la función que define las acciones del actor) de manera que mejore el rendimiento general, evitando cambios drásticos que podrían hacer que el proceso de aprendizaje se volviera inestable.

No lo hace de forma independiente, sino que trabaja en conjunto con otros algoritmos de aprendizaje por refuerzo, algunos de los cuales hemos visto en esta serie, que, en términos generales, se dividen en dos categorías. Algoritmos basados en políticas y algoritmos basados en valores. Ya hemos visto ejemplos de cada uno de ellos en la serie y, quizás para recapitular, los algoritmos basados en políticas que vimos fueron Q-Learning y SARSA. Solo hemos considerado un método basado en el valor, y ese es la diferencia temporal. Entonces, ¿en qué consiste exactamente el PPO?

Como se ha mencionado anteriormente, el «problema» que resuelve PPO es evitar que la política cambie demasiado durante las actualizaciones. La tesis que sustenta esto es que, si no se interviene en la gestión de la frecuencia y la magnitud de las actualizaciones, el agente podría: olvidar lo que ha aprendido, tomar decisiones erráticas o rendir peor en el entorno. De este modo, PPO garantiza que las actualizaciones sean pequeñas pero significativas. PPO funciona comenzando con una política predefinida con sus parámetros. Las políticas son simplemente funciones que definen las acciones de los actores en función de las recompensas y los estados del entorno.


Autor: Stephen Njuki