Discusión sobre el artículo "Redes neuronales: así de sencillo (Parte 51): Actor-crítico conductual (BAC)"
Gracias Señor @Dmitriy
//+------------------------------------------------------------------+
Hola a todos. Tengo esta versión después de unos 3-4 ciclos (colección de base de datos - formación - prueba) comenzó a dar sólo una línea recta en las pruebas. Las ofertas no se abren. Formación hizo todas las veces 500 000 iteraciones. Otro punto interesante - en un momento dado el error de uno de los críticos se hizo muy grande al principio, y luego poco a poco los errores de ambos críticos disminuyó a 0. Y durante 2-3 ciclos de los errores de ambos críticos están en 0. Y en las pruebas Test.mqh da una línea recta y no hay ofertas. En los pases de Research.mqh hay pases con ganancias y tratos negativos. También hay pases sin tratos y resultado cero. Sólo hubo 5 pases con resultado positivo en uno de los ciclos.
En general, es extraño. He estado entrenando estrictamente de acuerdo con las instrucciones de Dmitry en todos los artículos, y no he sido capaz de obtener un resultado de cualquier artículo. No entiendo lo que hago mal....
Nuevo artículo Neural networks made easy (Part 51): behavioural actor-criticism (BAC ) ha sido publicado:
Autor: Dmitriy Gizlyk
He descargado la carpeta comprimida, pero dentro había muchas otras carpetas.
Si es posible me gustaría que me explicaras como desplegar y entrenar.
Enhorabuena por el gran trabajo.
Muchas gracias
- Aplicaciones de trading gratuitas
- 8 000+ señales para copiar
- Noticias económicas para analizar los mercados financieros
Usted acepta la política del sitio web y las condiciones de uso
Artículo publicado Redes neuronales: así de sencillo (Parte 51): Actor-crítico conductual (BAC):
Los dos últimos artículos han considerado el algoritmo SAC (Soft Actor-Critic), que incorpora la regularización de la entropía en la función de la recompensa. Este enfoque equilibra la exploración del entorno y la explotación del modelo, pero solo es aplicable a modelos estocásticos. El presente material analizará un enfoque alternativo aplicable tanto a modelos estocásticos como deterministas.
En primer lugar, reflexionaremos sobre la necesidad de la exploración del entorno en general. Creo que todo el mundo estará de acuerdo con la necesidad de este proceso, pero, ¿para qué en concreto y en qué fase?
Empezaremos con un ejemplo sencillo. Imaginemos que entramos por primera vez en una especie de habitación con 3 puertas idénticas y necesitamos hallar la salida a la calle. ¿Qué hacemos? Abriremos las puertas una a una hasta encontrar la correcta. Cuando volvamos a entrar en la misma habitación, para salir al exterior ya no abriremos todas las puertas, sino que iremos directamente a la salida, que ya conocemos. Si en esta situación tenemos una tarea diferente, entonces existirán varias opciones. Podemos volver a abrir todas las puertas, salvo la salida, que ya conocemos, y buscar la correcta. O bien podemos recordar qué puertas hemos abierto antes al buscar la salida y pensar si entre ellas estaba la correcta. Si recordamos la puerta correcta, nos dirigiremos a ella. En caso contrario, comprobaremos las puertas que no se hayan abierto antes.
Conclusión: la exploración del entorno es necesaria para, en un estado desconocido, seleccionar la acción correcta. Una vez hayamos encontrado la ruta necesaria, la exploración adicional del entorno solo podrá entorpecer el camino.
No obstante, puede que necesitemos investigar más el entorno cuando cambiemos la tarea en un estado conocido. Aquí se podría incluir la búsqueda de una ruta mejor: por ejemplo, en el caso de atravesar algunas habitaciones más para salir en la historia anterior, o si saliéramos por el lado equivocado del edificio.
De ahí que necesitemos un algoritmo que aumente la exploración del entorno en los estados inexplorados y la minimice en los estados previamente explorados.
Autor: Dmitriy Gizlyk