Discusión sobre el artículo "Redes neuronales: así de sencillo (Parte 55): Control interno contrastado (CIC)"
En todas las etapas, no salgo ganando.
En las primeras etapas hay un preentrenamiento, que consiste en explorar el entorno y aprender las habilidades del Actor. Aquí no se utilizan recompensas externas en absoluto. Entrenamos al Actor para que desarrolle múltiples habilidades. Por lo tanto, no esperamos pasajes positivos. La recompensa externa sólo se utiliza en la última etapa de Finetune, cuando entrenamos al Planificador para que gestione las habilidades del Actor para la tarea en cuestión. Y los resultados dependen directamente de que se hayan completado las dos primeras iteraciones.
Hola de nuevo. No puedo entender un punto. ¿Cuál es el punto de establecer tomar ganancias si se arrastra? Nunca funcionará así.
En primer lugar, es una herramienta de gestión de riesgos. Es una defensa contra grandes movimientos bruscos. Además, entrenamos el modelo. En teoría, el stop loss y el take profit no tienen por qué ser mayores que el tamaño de la vela. En el proceso de entrenamiento, buscamos la estrategia más rentable.
- Aplicaciones de trading gratuitas
- 8 000+ señales para copiar
- Noticias económicas para analizar los mercados financieros
Usted acepta la política del sitio web y las condiciones de uso
Artículo publicado Redes neuronales: así de sencillo (Parte 55): Control interno contrastado (CIC):
El aprendizaje contrastivo (Contrastive learning) supone un método de aprendizaje de representación no supervisado. Su objetivo consiste en entrenar un modelo para que destaque las similitudes y diferencias entre los conjuntos de datos. En este artículo, hablaremos del uso de enfoques de aprendizaje contrastivo para investigar las distintas habilidades del Actor.
Los entornos complejos requieren una gran variedad de habilidades, y para procesarlos, necesitaremos un Discriminador con mucha potencia. La contradicción entre este requisito y las limitadas capacidades de los Discriminadores existentes impulsó la creación del método Contrastive Intrinsic Control (CIC).
El método Contrastive Intrinsic Control es un nuevo enfoque de valoración contrastiva de la densidad para aproximar la entropía condicional del Discriminador. El método funciona con transiciones entre estados y vectores de habilidades, lo cual permite aplicar potentes métodos de aprendizaje de representaciones, desde el procesamiento visual de datos hasta el descubrimiento de habilidades. El método propuesto puede aumentar la estabilidad y la eficacia del aprendizaje del Agente en diversos entornos.
El algoritmo Contrastive Intrinsic Control comienza entrenando al Agente en el entorno mediante retroalimentación y obteniendo las trayectorias de los estados y acciones. A continuación, las representaciones se entrenan utilizando Predictive Coding (CPC), lo cual motiva al Agente a extraer características clave de estados y acciones. Luego se formarán representaciones que tienen en cuenta las dependencias entre estados sucesivos.
La recompensa interna desempeñará un papel esencial a la hora de determinar qué estrategias de comportamiento hay que maximizar. En el CIC, la entropía de las transiciones entre estados se maximiza, lo cual favorece la diversidad del comportamiento del Agente. Esto permitirá al Agente explorar y crear una amplia variedad de estrategias de comportamiento.
Tras generar la variedad de habilidades y estrategias, el algoritmo CIC utilizará el Discriminador para concretar las representaciones de las habilidades. El Discriminador pretende que los estados resulten predecibles y estables. De este modo, el Agente aprenderá a "utilizar" las habilidades en situaciones predecibles.
La combinación de la exploración motivada por recompensas internas y el uso de habilidades para la acción predecible creará un enfoque equilibrado para crear estrategias diversas y eficaces.
Como resultado, el algoritmo Contrastive Predictive Coding estimula al Agente a detectar y aprender una amplia gama de estrategias de comportamiento, a la vez que posibilita un aprendizaje estable. A continuación le mostramos la visualización del algoritmo del autor.
Autor: Dmitriy Gizlyk