Está perdiendo oportunidades comerciales:
- Aplicaciones de trading gratuitas
- 8 000+ señales para copiar
- Noticias económicas para analizar los mercados financieros
Registro
Entrada
Usted acepta la política del sitio web y las condiciones de uso
Si no tiene cuenta de usuario, regístrese
Artículo publicado Redes neuronales: así de sencillo (Parte 41): Modelos jerárquicos:
El presente artículo describe modelos de aprendizaje jerárquico que ofrecen un enfoque eficiente para resolver problemas complejos de aprendizaje automático. Los modelos jerárquicos constan de varios niveles; cada uno de ellos es responsable de diferentes aspectos del problema.
El algoritmo Scheduled Auxiliary Control (SAC-X) es un método de aprendizaje por refuerzo que utiliza una estructura jerárquica para la toma de decisiones, y representa un nuevo enfoque hacia la resolución de problemas con recompensas escasas. Se basa en cuatro principios fundamentales:
El algoritmo SAC-X usa estos principios para resolver eficientemente problemas de recompensa dispersa (escasa). Los vectores de recompensa le permiten aprender de diferentes aspectos de una tarea y crear múltiples intenciones, cada una de las cuales maximiza su recompensa. El planificador gestiona la ejecución de las intenciones seleccionando la estrategia óptima para lograr los objetivos externos. El entrenamiento tiene lugar fuera de la política, lo cual permite el uso de la experiencia con diferentes intenciones para un aprendizaje efectivo.
Este enfoque permite al agente resolver eficientemente problemas de recompensas dispersas aprendiendo de las recompensas externas e internas, mientras que el uso de un planificador permite la coordinación de las acciones. También implica el intercambio de experiencias entre intenciones, lo que posibilita el uso eficiente de la información y mejora el rendimiento general del agente.
SAC-X ofrece un entrenamiento de agentes más eficiente y flexible en entornos de recompensa dispersa. Una característica clave de SAC-X es el uso de recompensas internas auxiliares que ayudan a superar el problema de la escasez de recompensas y facilitan el entrenamiento en tareas de recompensa baja.
Durante el aprendizaje de SAC-X, cada intención tiene su propia política que maximiza la recompensa auxiliar correspondiente. El planificador determina qué intenciones se seleccionarán y ejecutarán en cada momento. Esto permite al agente aprender de varios aspectos de la tarea y usar la información disponible de forma eficiente para lograr resultados óptimos.
Autor: Dmitriy Gizlyk