Discusión sobre el artículo "Redes neuronales: así de sencillo (Parte 53): Descomposición de la recompensa"

 

Artículo publicado Redes neuronales: así de sencillo (Parte 53): Descomposición de la recompensa:

Ya hemos hablado más de una vez de la importancia de seleccionar correctamente la función de recompensa que utilizamos para estimular el comportamiento deseado del Agente añadiendo recompensas o penalizaciones por acciones individuales. Pero la cuestión que sigue abierta es el descifrado de nuestras señales por parte del Agente. En este artículo hablaremos sobre la descomposición de la recompensa en lo que respecta a la transmisión de señales individuales al Agente entrenado.

Continuamos nuestro análisis de los métodos de aprendizaje por refuerzo. Como ya sabrá, todos los algoritmos para entrenar modelos en esta área del aprendizaje automático se basan en el paradigma de maximización de las recompensas del entorno. Y la función de recompensa juega un papel clave en el proceso de entrenamiento del modelo. Sus señales rara vez resultan erróneas.

En un intento de incentivar al Agente para que se ciña al comportamiento deseado, hemos introducido recompensas y penalizaciones adicionales en la función de recompensa. Por ejemplo, con frecuencia hemos hecho que la función de recompensa resulte más compleja en un simple intento de estimular al Agente a explorar el entorno, y hemos introducido penalizaciones por no actuar. Al mismo tiempo, la arquitectura del modelo y la función de recompensa siguen siendo fruto de las consideraciones subjetivas del arquitecto del modelo.

Durante el proceso de entrenamiento, el modelo puede encontrar diversas dificultades y obstáculos, incluso con un enfoque de diseño cuidadoso. Es posible que el agente no logre los resultados deseados por muchos motivos diferentes, cuya búsqueda se convierte en una “adivinanza en posos de café”. Pero ¿cómo podemos entender que el Agente interpreta correctamente nuestras señales en la función de recompensa? En un intento por comprender esta cuestión, surge el deseo de dividir la recompensa en componentes aparte. El uso de recompensas descompuestas y el análisis de la influencia de componentes individuales puede resultar muy útil a la hora de hallar formas de optimizar el proceso de entrenamiento del modelo. Esto nos permitirá comprender mejor cómo los diferentes aspectos influyen en el comportamiento del Agente, identificar las causas de los problemas y ajustar eficazmente la arquitectura del modelo, el proceso de entrenamiento o la función de recompensa.

Autor: Dmitriy Gizlyk

Razón de la queja: