Discusión sobre el artículo "Redes neuronales: así de sencillo (Parte 39): Go-Explore: un enfoque diferente sobre la exploración"

 

Artículo publicado Redes neuronales: así de sencillo (Parte 39): Go-Explore: un enfoque diferente sobre la exploración:

Continuamos con el tema de la exploración del entorno en los modelos de aprendizaje por refuerzo. En este artículo, analizaremos otro algoritmo: Go-Explore, que permite explorar eficazmente el entorno en la etapa de entrenamiento del modelo.

La idea principal detrás de Go-Explore es recordar y regresar a estados de perspectiva, y esto es fundamental para un funcionamiento eficaz en condiciones en las que el número de recompensas es reducido. Esta idea es tan flexible y amplia que se puede implementar de diversas maneras. 

A diferencia de la mayoría de los algoritmos de aprendizaje por refuerzo, Go-Explore no se centra en resolver directamente el problema objetivo, sino en encontrar estados y acciones relevantes en el espacio de estados que puedan redundar en el logro del estado objetivo. Para ello, el algoritmo tiene dos fases principales: búsqueda y reutilización.


La primera fase consiste en recorrer todos los estados en el espacio de estados y escribir cada estado visitado en un "mapa" de estados. Después de ello, el algoritmo comienza a estudiar con más detalle cada estado visitado y a recopilar información sobre acciones que pueden conducir a otros estados interesantes.

La segunda fase consiste en reutilizar los estados y acciones previamente aprendidos para encontrar nuevas soluciones. El algoritmo guarda las trayectorias más exitosas y las usa para generar nuevos estados que pueden conducir a soluciones aún más exitosas.

Autor: Dmitriy Gizlyk

 
Hola. Faza 1 funcionó en el probador y creó un archivo vacío en la carpeta compartida GoExploer. bd. Faza 2 no se adjunta al gráfico.
 
En el segundo intento, el proceso comenzó. La fecha de inicio se fijó lejos, configurarlo como usted tiene un mes.
 
star-ik #:
En el segundo intento, el proceso comenzó. La fecha de inicio estaba fijada muy lejos, yo la fijé en un mes.
¿Cuál es el resultado?
 
Más o menos. Pero las detracciones son grandes. Abre una operación y espera mucho tiempo un momento favorable para cerrarla. A menudo rellena. Muy raramente vende, siempre sólo compra. Las flechas están en cada barra. En cuanto el mercado empiece a funcionar, lo probaré en demo.
 
En la demostración, es específicamente menos. Se llena en cada apertura de una nueva barra. No entiendo cómo hizo un plus en el probador.
 
star-ik #:
En la demostración, es específicamente menos. Se llena en cada apertura de una nueva barra. No entiendo como se ha puesto en plus en el tester.

gracias

 
star-ik #:
En la demostración, es específicamente menos. Se llena en cada apertura de una nueva barra. No entiendo cómo hacía un plus en el tester.

Ahahahah))))

El día de la marmota.


Me solidarizo contigo.

Prueba a pulsar varias veces el botón "Start" en el probador de estrategias. Te sorprenderás.

 

Buenas tardes Dimitri. Gracias por tan maravillosa serie de artículos. He probado todos sus Asesores Expertos, pero tengo un problema con los últimos.

El Asesor Experto del artículo 36 (el que tiene la red neuronal más grande) pasa la prueba en el probador, pero la tarjeta de vídeo no se carga durante la prueba y el Asesor Experto no intenta operar. El gráfico de balance no cambia. No hay errores en el registro del probador. Aparecen archivos de 1 kb en la carpeta Common\Files.

Los Asesores Expertos de los artículos 37, 38 no se prueban en absoluto. La prueba se inicia, pero no hay progreso. Al mismo tiempo, la tarjeta de video se carga al 100%. Y así sucesivamente hasta que el proceso MT5 se mata en el Manager. No se crean archivos en Common\Files. No hay errores en el probador.

El Asesor Experto de este artículo Faza1 pasa la prueba correctamente sin errores en el log, pero el archivo GoExploer.bd también se crea con el tamaño de 1kb.

¿Puede decirme dónde buscar? Otros Expert Advisors de esta serie de artículos (que se lanzan en el gráfico) funcionan normalmente y se consideran como una tarjeta de vídeo. Tarjeta de vídeo RTX 3060 c 12Gb.

 
Viktor Kudriavtsev #:

El Asesor Experto de este artículo Faza1 también pasa la prueba correctamente sin errores en el registro, pero el archivo GoExploer.bd también se crea con el tamaño de 1kb.


El Asesor Experto Faza1 añade datos a la base de datos sólo con beneficio positivo según los resultados de la prueba. Si todas las pasadas fueron no rentables, no guardará nada. Intente ejecutarlo varias veces en modo de optimización.
 
star-ik #:
En la demostración, es específicamente menos. Se llena en cada apertura de una nueva barra. No entiendo cómo hizo un plus en el probador.

¿Cuál es el período de entrenamiento? Un corto período de entrenamiento permite sólo para ver si el modelo puede aprender. Pero no tal experiencia no es suficiente para interpolar a los futuros estados del sistema.