Discusión sobre el artículo "Redes neuronales: así de sencillo (Parte 26): Aprendizaje por refuerzo"

 

Artículo publicado Redes neuronales: así de sencillo (Parte 26): Aprendizaje por refuerzo:

Continuamos estudiando los métodos de aprendizaje automático. En este artículo, iniciaremos otro gran tema llamado «Aprendizaje por refuerzo». Este enfoque permite a los modelos establecer ciertas estrategias para resolver las tareas. Esperamos que esta propiedad del aprendizaje por refuerzo abra nuevos horizontes para la construcción de estrategias comerciales.

En nuestras vidas, miramos a nuestro alrededor, percibimos objetos al tacto, escuchamos sonidos, es decir, usando nuestros sentidos, evaluamos el mundo en cada momento, registrando su estado en nuestra mente.

Igualmente, el Entorno (Environment) genera su Estado (State), el cual es evaluado por el Agente (Agent).

De la misma forma que actuamos según nuestra visión del mundo, el Agente (Agente) realiza la Acción (Acción) dictada por su Estrategia (Policy).

Bajo la influencia de la acción ejercida, el entorno cambia con cierto grado de probabilidad. Al mismo tiempo, por cada acción, el Agente (Agent) recibe del Entorno (Environment) una cierta recompensa (Rewards). En este caso, la Recompensa (Rewards) puede ser tanto positiva como negativa. Es según el tamaño de la recompensa, que el Agente (Agent) puede evaluar la utilidad de la acción.

Aprendizaje por refuerzo

Autor: Dmitriy Gizlyk

Razón de la queja: