Discusión sobre el artículo "Random Decision Forest en el aprendizaje reforzado" - página 7

 
FxTrader562:

¿Puede proporcionarme un código de ejemplo de un indicador sin lógica difusa y dónde colocar el indicador en la implementación actual del código?

Ahora no puedo, lo intentaré esta noche.

 
mov :

Ahora no puedo, lo intentaré por la noche.

OK, gracias. Voy a esperar.

Básicamente, sólo quiero saber cómo alimentar a otros indicadores como MACD, SAR, MA, etc a la matriz de política para actualizar la política y la recompensa de actualización en cada pérdida y ganancia. Debe ser sin lógica difusa.

 

FxTrader562:

Básicamente, sólo quiero saber cómo alimentar otros indicadores como MACD, SAR, MA etc a la matriz de política para actualizar la política y actualizar la recompensa en cada ganancia y pérdida. Debe ser sin lógica difusa.

Miré a mi código, es un batiburrillo horrible de diferentes algoritmos que se comprueba. En aras de la simplicidad, he añadido los puntos necesarios para trabajar sin lógica difusa en el código fuente del artículo. Espero que el autor no se ofenda. Lo he comprobado, parece que funciona y no he olvidado nada importante. El número de indicadores se establece por nIndicat.

 
mov :

Miré mi código, un lío terrible de diferentes algoritmos verificables. Para simplificar, he introducido los elementos necesarios para el trabajo sin fuzzy al código fuente del artículo. Espero que el autor no se ofenda. He comprobado, parecía funcionar. El número de indicadores especifica nIndicat.

Gracias por el código. Voy a mirar en él.

Por cierto, una cosa más. Si usted ha tratado de automatizar el proceso de optimización para el aprendizaje iterativo, entonces por favor hágamelo saber. Es decir, si tiene alguna solución para ejecutar el optimizador de forma automática para que el EA llame automáticamente al optimizador en cada pérdida, por favor hágamelo saber.

El autor me ha dicho que va a añadir la función de auto-optimización en los próximos artículos. Pero si alguien ya tiene el código, entonces será genial. Dado que el EA mantiene automáticamente la política óptima en los archivos de texto y por lo tanto, sólo se requiere para ejecutar el optimizador de forma automática a intervalos regulares que creo que es fácil de implementar.pero no sé cómo hacerlo.

 
FxTrader562: Si ha intentado automatizar el proceso de optimización para el aprendizaje iterativo, le ruego que me lo comunique.

Yo lo he intentado, pero mi eficacia es mucho menor. Como era de esperar un nuevo artículo del autor.

 
mov:

Lo he intentado, pero mi eficiencia es mucho menor. Como era de esperar un nuevo artículo del autor.

De todos modos, gracias. También estoy tratando, así como a la espera de la actualización del autor.

El código que ha proporcionado parece funcionar bien. Probaré con varias combinaciones y puede que vuelva a actualizar.

Muchas gracias de nuevo.

 
Hola gente ,
En primer lugar quiero felicitar a Maxim Dmitrievsky por su artículo.
En segundo lugar quiero decir que estoy pendiente del tema, porque el tema es muy interesante.
En tercer lugar me gustaría sacarme una duda porque no soy capaz de entender cómo se realiza hoy la ejecución de la recompensa en el EA de clasificación, ¿alguien podría describirlo?

Lo que he entendido es que cuando el EA cierra la posición con un valor negativo hace un cambio en los 2 índices del vector (3 y 4).
¿alguien puede? ¿como se que esta recompensa es buena? porque me gustaria aumentar las recompensas cuando la operacion es positiva y se lleva una cierta cantidad de puntos.
//+------------------------------------------------------------------+
//||
//+------------------------------------------------------------------+
void updateReward()
  {
   if(MQLInfoInteger(MQL_OPTIMIZATION)==true)
     {
      int unierr;
      if(getLAstProfit()<0)
        {
         double likelyhood=MathRandomUniform(0,1,unierr);
         RDFpolicyMatrix[numberOfsamples-1].Set(3,likelyhood); // HERE 
         RDFpolicyMatrix[numberOfsamples-1].Set(4,1-likelyhood); // AND HERE 
        }
     }
  }


Gracias.
Ps. He utilizado Google Translate, lo siento si no es comprensible.
 
rogivilela:
Lo que he entendido es que cuando el EA cierra la posición con un valor negativo hace un cambio en los 2 índices del vector (3 y 4).
¿alguien cumple los requisitos? ¿cómo sé que esta recompensa es buena? porque me gustaría aumentar las recompensas cuando la operación es positiva y tomar una cierta cantidad de puntos.

Tomas el texto del artículo, miras los posts de arriba, hay una discusión constante sobre la mejor recompensa, hay sugerencias de recompensas más efectivas.

 
rogivilela:

¿Cómo sé que esta recompensa es buena?

Si hay una pérdida, el algoritmo debería intentar no operar o operar en la dirección opuesta, no sabemos como hacerlo correctamente, usamos un valor aleatorio. No hay otro significado en las líneas anteriores

 
mov:

Si una pérdida, el algoritmo debe tratar de no operar o de operar en la dirección opuesta, no sabemos la forma correcta, utilizamos un valor aleatorio. No hay otro significado en las líneas anteriores

el propio artículo y el algoritmo dado tiene un carácter introductorio, para obtener el resultado y no sólo en el probador que necesita para preparar los datos de entrada, recientemente he estado viendo un montón de videos en YouTube sobre este tema, aquí es un ejemplo muy informativo, y el canal en su conjunto.


para empezar creo que para entrenar por horas, es decir, 24 redes neuronales entrenadas, porque a diferentes horas del día diferente volatilidad, y luego ya veremos.