Discusión sobre el artículo "Redes neuronales: así de sencillo (Parte 67): Utilizamos la experiencia adquirida para afrontar nuevos retos"

Está perdiendo oportunidades comerciales:
- Aplicaciones de trading gratuitas
- 8 000+ señales para copiar
- Noticias económicas para analizar los mercados financieros
Registro
Entrada
Usted acepta la política del sitio web y las condiciones de uso
Si no tiene cuenta de usuario, regístrese
Artículo publicado Redes neuronales: así de sencillo (Parte 67): Utilizamos la experiencia adquirida para afrontar nuevos retos:
En este artículo, seguiremos hablando de los métodos de recopilación de datos en una muestra de entrenamiento. Obviamente, en el proceso de entrenamiento será necesaria una interacción constante con el entorno, aunque con frecuencia se dan situaciones diferentes.
El aprendizaje por refuerzo se basa en maximizar las recompensas que obtenemos del entorno cuando interactuamos con él. Obviamente, en el proceso de entrenamiento será necesaria una interacción constante con el entorno, aunque con frecuencia se dan situaciones diferentes. Y para algunas tareas, pueden encontrarse distintas restricciones en dicha interacción con el entorno. En tales situaciones, los algoritmos de aprendizaje por refuerzo offline acuden en nuestra ayuda. Estos permiten entrenar los modelos a partir de un archivo limitado de trayectorias recogidas por la interacción previa con el entorno durante su periodo de disponibilidad.
Obviamente, el aprendizaje por refuerzo offline no está exento de inconvenientes. En concreto, el problema del aprendizaje sobre el entorno se agrava aún más por las limitaciones de la muestra de entrenamiento, que sencillamente no puede abarcar toda la diversidad del entorno. Esto resulta especialmente grave en entornos estocásticos complejos. En el artículo anterior nos familiarizamos con una de las soluciones a este problema (el método ExORL).
No obstante, a veces las limitaciones de las interacciones del entorno pueden ser de una importancia crítica. El proceso de exploración del entorno puede ir acompañado de recompensas positivas y negativas. Las recompensas negativas pueden resultar muy indeseables e ir acompañadas de pérdidas económicas o de algún otro tipo de pérdida no deseada que no podamos permitirnos. Pero las tareas rara vez "nacen de la nada": la mayoría de las veces, estamos optimizando un proceso existente. Y en nuestra "era de la tecnología de la información" casi siempre podemos encontrar experiencia en la interacción con el entorno objeto de estudio en el proceso de resolución de problemas como el que nos ocupa. Es posible usar datos de interacción con el entorno del mundo real que puedan cubrir hasta cierto punto el espacio de acciones y estados requerido. En el artículo "Real World Offline Reinforcement Learning with Realistic Data Source" se describen experimentos que utilizan estas experiencias para resolver nuevos problemas de control de robots reales. En su trabajo, los autores de este artículo proponen un nuevo marco de entrenamiento de modelos Real-ORL.
Autor: Dmitriy Gizlyk