Discusión sobre el artículo "Redes neuronales: así de sencillo (Parte 50): Soft Actor-Critic (optimización de modelos)"
La imagen también puede ser simplemente arrastrada al texto o pegada con Ctrl+V
La investigación no consigue ninguna transacción positiva. No hay archivos en el directorio de datos. El archivo SoftAC.bd de la carpeta de datos compartida parece estar vacío (12 bytes). El estudio no se aferra al gráfico. ¿Puede decirme qué hacer?
1. La diferencia de operaciones positivas en los primeros pases de Estudio es bastante natural, porque se utilizan redes absolutamente aleatorias. Y las operaciones serán igual de aleatorias. Al iniciar el Asesor Experto, establezca MinProfit tan negativo como sea posible. Entonces el archivo SoftAC.bd se llenará de ejemplos para el entrenamiento inicial del modelo.
2. Hay una comprobación en el archivo Estudio. No funciona en ausencia de ejemplos en SoftAC.bd. No tiene datos para el entrenamiento del modelo.
Gracias, ayudó. Los puntos verdes comenzaron a aparecer. No me di cuenta de que MinProfit se puede establecer en el rango negativo. Pero hay una pregunta más. ¿Es necesario eliminar manualmente la primera base de datos? ¿Y qué archivo?
Toda la base de datos de ejemplo está en SoftAC.bd. He borrado la primera manualmente. Pero en el EA hay una constante MaxReplayBuffer 500, que limita el tamaño de la base de datos de ejemplos a 500 trayectorias. Si quieres, puedes cambiar y recompilar los archivos. Esto le permite mantener sólo las últimas 500 trayectorias en la base de datos de ejemplos.
Toda la base de datos de ejemplo está en SoftAC.bd. He borrado el primero manualmente. Pero el Asesor Experto tiene una constante MaxReplayBuffer 500, que limita el tamaño de la base de datos de ejemplos a 500 trayectorias. Si lo desea, puede cambiar y volver a compilar los archivos. Esto le permite mantener sólo las últimas 500 trayectorias en la base de datos de ejemplos.
Gracias de nuevo.
Dmitry, cuando se llena la base de datos de ejemplos y se añaden nuevos ejemplos, ¿se borran los ejemplos más antiguos o se borran accidentalmente? ¿O es necesario tener una base de datos de ejemplos para todo el número de operaciones, teniendo en cuenta las adiciones en el entrenamiento, una base de datos de 1000 trayectorias?
Y está escrito que usted hizo la prueba con el Asesor Experto Test.mqh (después de 500 000 iteraciones de entrenamiento) 10 veces. si he entendido bien. Y entonces usted dijo que usted hizo la colección - entrenamiento - prueba 15 veces más (ciclos). Y obtuviste un modelo de trabajo. Entonces no entiendo, ¿ejecutaste el Expert Advisor Test.mqh 10 veces en cada etapa del ciclo o no? El problema que tengo es que si lo hago así, tengo más ejemplos negativos en la base y el Asesor Experto al final empieza a operar en negativo.
Supongamos que he recogido una base de 200 trayectorias. Lo he entrenado durante 100.000 iteraciones. Luego he añadido 10 pasadas de la prueba. y Research.mqh añadido 10-15 nuevos ejemplos a la base de datos. He establecido el límite MinProfit por ejemplo -3000.
Hago el siguiente entrenamiento (100 000 iteraciones). De nuevo añado 10 pases de prueba y 10-15 de Research.mqh. Establezco MinProfit por ejemplo -2500.
Vuelvo a entrenar (100 000 iteraciones). De nuevo 10 pruebas y 10-15 ejemplos de Research.mqh. MinProfit=-2000.
Y así sucesivamente. ¿Entendido? Lo que me confunde es que la prueba a menudo da pases negativos muy grandes con -7000 o incluso -9000. Y habrá muchos de ellos en la base. ¿No está la red entrenada para operar en negativo a propósito?
¿Y qué hacer si las pasadas de prueba dan un resultado peor que la vez anterior? ¿Debo cambiar MinProfit al lado negativo? ¿Y qué hacer si Research.mqh no puede encontrar y añadir nada a la base de datos para 100 pases con un límite especificado (por ejemplo, MinProfit=-500)?
Se borran los más antiguos. Se organiza según el principio FIFO: primero en entrar, primero en salir.
Y aquí está escrito que usted hizo la prueba con el Asesor Experto Test.mqh (después de 500 000 iteraciones de entrenamiento) 10 veces. si he entendido bien. Y entonces usted dijo que usted hizo colección - formación - prueba 15 veces más (ciclos). Y obtuviste un modelo de trabajo. Entonces no entiendo, ¿ejecutaste el Expert Advisor Test.mqh 10 veces en cada etapa del ciclo o no? El problema que tengo es que si lo hago así, me salen más ejemplos negativos en la base y el Asesor Experto al final empieza a operar en negativo.
Hago condicionalmente 10 ejecuciones únicas en el probador de estrategias para estimar los límites de dispersión de los resultados del modelo. Y elijo el cuantil superior para seleccionar las mejores trayectorias durante la posterior recopilación de trayectorias en el modo de optimización.

- Aplicaciones de trading gratuitas
- 8 000+ señales para copiar
- Noticias económicas para analizar los mercados financieros
Usted acepta la política del sitio web y las condiciones de uso
Artículo publicado Redes neuronales: así de sencillo (Parte 50): Soft Actor-Critic (optimización de modelos):
En el artículo anterior, implementamos el algoritmo Soft Actor-Critic (SAC), pero no pudimos entrenar un modelo rentable. En esta ocasión, optimizaremos el modelo creado previamente para obtener los resultados deseados en su rendimiento.
Continuamos nuestro estudio del algoritmo SAC. En el artículo anterior implementamos dicho algoritmo, pero lamentablemente no pudimos entrenar un modelo rentable. Hoy hablaremos de las opciones disponibles para resolver este problema. Ya planteamos una cuestión similar en el artículo "Procrastinación del modelo, causas y métodos de solución". En esta ocasión, les propongo ampliar nuestros conocimientos en dicho ámbito y analizar nuevos enfoques usando nuestro modelo SAC como ejemplo.
Antes de pasar directamente a la optimización del modelo que hemos construido, permítanme recordarles que el SAC es un algoritmo de aprendizaje por refuerzo para modelos estocásticos en un espacio continuo de acciones. La principal característica de este método es la introducción de un componente de entropía en la función de recompensa.
El uso de la política estocástica del Actor dota al modelo de mayor flexibilidad y lo hace capaz de resolver problemas en entornos complejos en los que algunas acciones pueden ser inciertas o resulta imposible definir reglas claras. Esta política suele ser más sólida al trabajar con datos que contienen mucho ruido, porque considera el componente probabilístico en lugar de verse atado a reglas claras.
Autor: Dmitriy Gizlyk