Discusión sobre el artículo "Redes neuronales: así de sencillo (Parte 56): Utilizamos la norma nuclear para incentivar la exploración"

 

Artículo publicado Redes neuronales: así de sencillo (Parte 56): Utilizamos la norma nuclear para incentivar la exploración:

La exploración del entorno en tareas de aprendizaje por refuerzo es un problema relevante. Con anterioridad, ya hemos analizado algunos de estos enfoques. Hoy le propongo introducir otro método basado en la maximización de la norma nuclear, que permite a los agentes identificar estados del entorno con un alto grado de novedad y diversidad.

El aprendizaje por refuerzo se basa en el paradigma de la exploración independiente del entorno por parte del agente. A través de sus acciones, el Agente influye en el entorno, provocando su cambio. A cambio, el Agente recibe algún tipo de recompensa.

Y aquí destacan dos grandes problemas del aprendizaje por refuerzo: la exploración del entorno y la función de recompensa. Una función de recompensa correctamente diseñada animará al Agente a explorar el entorno y encontrar las estrategias de comportamiento óptimas.

No obstante, en la mayoría de los problemas prácticos, nos enfrentaremos a recompensas externas escasas. Para superar esta barrera, propusimos el uso de las llamadas recompensas internas, que permiten al Agente aprender nuevas habilidades que pueden serle útiles para obtener recompensas externas en el futuro. Sin embargo, debido a la estocasticidad del entorno, las recompensas internas pueden verse influidas por el ruido. La aplicación directa de valores predictivos ruidosos a las observaciones puede afectar negativamente al rendimiento del entrenamiento de la política del Agente. Además, muchos métodos usan la norma L2 o la varianza para medir la novedad de la exploración, lo cual aumenta el ruido debido a la operación de elevación al cuadrado.

Para resolver este problema, en el artículo "Nuclear Norm Maximization Based Curiosity-Driven Learning" se propuso un nuevo algoritmo para estimular la curiosidad de los agentes, basado en la maximización de la norma nuclear (Nuclear Norm Maximization - NNM). Esta recompensa interna puede evaluar con mayor precisión la novedad de la exploración del entorno. Al mismo tiempo, permite una gran resistencia al ruido y los valores atípicos.

Autor: Dmitriy Gizlyk

Razón de la queja: