Discusión sobre el artículo "Características del Wizard MQL5 que debe conocer (Parte 55): SAC con Prioritized Experience Replay (PER)"

MetaQuotes 2025.12.16 09:58

Artículo publicado Características del Wizard MQL5 que debe conocer (Parte 55): SAC con Prioritized Experience Replay (PER):

Los búferes de reproducción en el aprendizaje por refuerzo son especialmente importantes con algoritmos fuera de política como DQN o SAC. Esto pone entonces el foco en el proceso de muestreo de este búfer de memoria. Mientras que las opciones predeterminadas con SAC, por ejemplo, utilizan una selección aleatoria de este búfer, los búferes de reproducción de experiencia priorizada ajustan esto mediante un muestreo del búfer basado en una puntuación TD. Repasamos la importancia del aprendizaje por refuerzo y, como siempre, examinamos solo esta hipótesis (no la validación cruzada) en un asesor experto creado por un asistente.

Los búferes de reproducción de experiencias priorizadas (Prioritized Experience Replay, PER) y los búferes de reproducción típicos (para muestreo aleatorio) se utilizan en RL con algoritmos fuera de política como DQN y SAC, ya que permiten almacenar y muestrear experiencias pasadas. PER se diferencia de un búfer de reproducción típico en la forma en que se priorizan y muestrean las experiencias pasadas.

Con el búfer de reproducción típico, las experiencias se muestrean de manera uniforme y aleatoria, lo que significa que cualquiera de las experiencias pasadas tiene la misma probabilidad de ser seleccionada, independientemente de su importancia o relevancia para el proceso de aprendizaje. Con PER, las experiencias pasadas se muestrean en función de su «prioridad». Propiedad que a menudo se cuantifica mediante la magnitud del error de diferencia temporal. Este error sirve como indicador del potencial de aprendizaje. A cada experiencia se le asigna un valor de este error y las experiencias con valores altos se muestrean con mayor frecuencia. Esta priorización puede implementarse utilizando un enfoque proporcional o basado en rangos.

Los búferes de reproducción típicos tampoco introducen ni utilizan sesgos. PER lo hace y esto podría sesgar injustamente el proceso de aprendizaje, por lo que, para corregirlo, PER utiliza ponderaciones de muestreo por importancia para ajustar el impacto de cada experiencia muestreada. Por lo tanto, los búferes de reproducción típicos son más eficientes en cuanto a muestras, ya que realizan muchas menos tareas en segundo plano que los PER. Por otro lado, PER ofrece un aprendizaje más centrado y constructivo, algo que los amortiguadores típicos no hacen.

Por lo tanto, no hace falta decir que implementar un PER sería más complejo que un búfer de reproducción típico; sin embargo, la razón por la que se hace hincapié en esto aquí es porque el PER requiere una clase adicional para mantener la cola de prioridades, a menudo denominada «árbol de sumas». Esta estructura de datos permite un muestreo más eficiente de las experiencias en función de su prioridad. El PER tiende a conducir a una convergencia más rápida y a un mejor rendimiento, ya que se centra en experiencias que son más informativas o desafiantes para el agente.

Autor: Stephen Njuki

Nuevo comentario