Discusión sobre el artículo "Redes neuronales: así de sencillo (Parte 40): Enfoques para utilizar Go-Explore con una gran cantidad de datos"
Buenas tardes a todos. ¿Alguien ha conseguido entrenar esta red neuronal? En caso afirmativo, ¿cómo lo ha hecho?
Recogí datos de la fase 1 para el mismo periodo que el autor del artículo (4 meses). Obtuve un archivo bd de 1,2 GB aproximadamente (190 000 características). Después empecé a entrenar la fase 2. La fase 2 tiene por defecto 100.000 iteraciones. Intenté ejecutar la fase 2 varias veces. También probé a poner 1.000.000 y 10.000.000 de iteraciones. Con todos estos intentos, el error que muestra la fase 2 fluctúa dentro de 1,6 ... 1,8 y no baja. O crece hasta 0,3 (con otros archivos bd). Cuando se ejecuta la fase 3 (en el probador) no confunde el comercio. Simplemente abre estúpidamente una operación y la mantiene hasta que termina el tiempo de prueba. He intentado ejecutar la fase 3 en el probador en modo de optimización. He probado a hacer 200, 500, 1000 pasadas. No afecta a nada. Lo único es que el Asesor Experto abre una operación un poco antes o un poco después y la mantiene hasta el final de la prueba, debido a lo cual en raras ocasiones puede cerrar en un pequeño plus. Pero no cierra el trato en sí, sino que el probador lo cierra porque el tiempo se ha acabado. También he intentado cambiar el parámetro #define lr 3.0e-4f en el archivo NeuroNet.mqh a 1.0e-4f o 2.0e-4f, pero eso tampoco funciona. ¿Qué estoy haciendo mal?
¿Puede alguien explicar cómo se entrena? A ser posible con detalle.
¿A partir de qué error pasas a la fase 3?
¿Cuántas iteraciones haces con la fase 2?
¿Qué haces si el error en la fase 2 no disminuye?
¿A partir de qué número de iteraciones empiezas a cambiar algo? ¿Qué cambia exactamente?
¿Es normal que en la fase 3 el EA sólo abra una operación y no intente operar? ¿Tiene sentido entrenarlo con la fase 3 en modo optimización?

- Aplicaciones de trading gratuitas
- 8 000+ señales para copiar
- Noticias económicas para analizar los mercados financieros
Usted acepta la política del sitio web y las condiciones de uso
Artículo publicado Redes neuronales: así de sencillo (Parte 40): Enfoques para utilizar Go-Explore con una gran cantidad de datos:
Este artículo analizará el uso del algoritmo Go-Explore durante un largo periodo de aprendizaje, ya que la estrategia de elección aleatoria puede no conducir a una pasada rentable a medida que aumenta el tiempo de entrenamiento.
A medida que aumenta el periodo de entrenamiento del algoritmo Go-Explore, aparecen ciertas dificultades que pueden dificultar su uso. Algunas de ellas incluyen:
El problema de la maldición de la dimensionalidad: a medida que aumenta el periodo de entrenamiento, la cantidad de estados que un agente puede visitar crece exponencialmente, lo cual dificulta encontrar la estrategia óptima.
El cambio del entorno: a medida que aumenta el periodo de entrenamiento, es posible que se den cambios en el entorno que pueden influir en los resultados del aprendizaje del agente. Esto puede hacer que una estrategia que antes había sido exitosa se vuelva ineficaz o incluso imposible.
La complejidad de las opciones de acción: a medida que aumenta el periodo de entrenamiento, es posible que el agente necesite tener en cuenta un contexto más amplio de la tarea para poder tomar decisiones fundamentadas. Esto puede complicar la tarea de selección de la acción óptima y requerir métodos de optimización de algoritmos más complejos.
El aumento del tiempo de entrenamiento: a medida que aumenta el periodo de entrenamiento, también aumenta el tiempo necesario para recopilar suficientes datos y entrenar el modelo. Esto puede reducir el rendimiento y la velocidad del aprendizaje de los agentes.
Con un aumento en el periodo de entrenamiento, puede surgir el problema del aumento la dimensionalidad del espacio de estados que debe explorarse. Esto puede provocar el problema de la "maldición de la dimensionalidad", donde el número de estados posibles crece exponencialmente a medida que aumenta la dimensionalidad, lo cual dificulta la exploración del espacio de estados y puede hacer que el algoritmo dedique demasiado tiempo a explorar estados irrelevantes.
ara verificar la calidad y eficiencia del modelo entrenado, lo probaremos con conjuntos de entrenamiento y prueba. Debemos señalar que nuestro modelo ha logrado obtener beneficios con los datos históricos de la primera semana de mayo de 2023, que no hemos incluido en la muestra de entrenamiento, pero la siguen de inmediato.
Autor: Dmitriy Gizlyk