Discusión sobre el artículo "Random Decision Forest en el aprendizaje reforzado" - página 8

 
rogivilela:
Hola gente ,
En primer lugar quiero felicitar a Maxim Dmitrievsky por su artículo.
En segundo lugar quiero decir que estoy pendiente del tema, porque el tema es muy interesante.
En tercer lugar me gustaría sacarme una duda porque no soy capaz de entender cómo se realiza hoy la ejecución de la recompensa en el EA de clasificación, ¿alguien podría describirlo?

Lo que he entendido es que cuando el EA cierra la posición con un valor negativo hace un cambio en los 2 índices del vector (3 y 4).
¿alguien puede? ¿como se que esta recompensa es buena? porque me gustaria aumentar las recompensas cuando la operacion es positiva y se lleva una cierta cantidad de puntos.


Gracias.
Ps. He utilizado Google Translate, lo siento si no es comprensible.

Esto es exactamente lo que he estado trabajando casi desde el principio del artículo como la forma de integrar los parámetros de la cuenta a la política y la forma de actualizar la recompensa basada en las ganancias y pérdidas. Pero hasta ahora no soy capaz de implementar con éxito nada.

Me di cuenta de que si vamos a tratar de aplicar las pérdidas y ganancias a la función de recompensa, entonces tenemos que cambiar por completo esta función updateReward(). Además, es posible que tengamos que cambiar la implementación de la matriz por completo.

Tengo una solución para implementar ganancias y pérdidas usando Q-learning por la ecuación de BellMan en la cual podemos implementar ganancias y pérdidas flotantes al agente para actualizar la recompensa. Pero tenemos que crear una nueva matriz y actualizar toda la matriz en cada vela. Pero no soy bueno en la implementación de matrices y por lo tanto, sólo estoy esperando a que el autor publique su próximo artículo con nuevos agentes.

Si alguien está interesado en la implementación de aprendizaje Q y puede implementar la matriz, entonces puedo discutir aquí como actualizar la recompensa utilizando ganancias y pérdidas utilizando el valor Q.

He estado probando el EA con un número ilimitado de combinación de indicadores y ajustes, pero me di cuenta de que no hay otra manera de mejorar los resultados sin actualizar la política. El agente está haciendo exactamente lo que se le ha asignado hacer y por lo tanto, es sólo el cierre de pequeñas pequeñas ganancias para aumentar el win % , pero en general la cuenta no crece beneficio ya que la política no considera pequeñas o grandes pérdidas por separado.

 

Hola Maxim Dmitrievsky,

¿hay algún progreso o actualización hacia la publicación de su próximo artículo sobre RDF?

Gracias...

 
Después de actualizar a la build 1940, ya no funciona, el retorno del cálculo recibe el valor de "-nan (ind)". ¿Alguien sabe qué ha pasado?
[Eliminado]  
Igor Vilela:
Después de actualizar a la build 1940, ya no funciona, el retorno del cálculo recibe el valor de "-nan (ind)". ¿Alguien sabe qué ha pasado?

Hola, prueba esta librería https://www.mql5.com/es/code/22915

o intenta recompilar

RL GMDH
RL GMDH
  • www.mql5.com
Данная библиотека имеет расширенный функционал, позволяющий создавать неограниченное количесто "Агентов". Использование библиотеки: Пример заполнения входных значений нормированными ценами закрытия: Обучение происходит в тестере...
 
gracias Maxim Dmitrievsky, pero ya he hecho todo el conocimiento sobre este caso, me gustaría tratar de corregir este error, ya que ya estoy ejecutando un robo con la idea de que se presentó en este artículo. Podría ayudar a identificar la causa del error. Dejó de funcionar al actualizar a la versión 1940.
[Eliminado]  
Igor Vilela:
gracias Maxim Dmitrievsky, pero ya he hecho todo el conocimiento sobre este caso, me gustaría tratar de corregir este error, ya que ya estoy ejecutando un robo con la idea de que se presentó en este artículo. Podría ayudar a identificar la causa del error. Dejó de funcionar al actualizar a la versión 1940.

Intenta descargar la libreria fuzzy correcta desde aqui, porque tal vez la actualizacion de MT5 pueda cambiarla por defecto

https://www.mql5.com/ru/forum/63355#comment_5729505

Библиотеки: FuzzyNet - библиотека для работы с нечеткой логикой
Библиотеки: FuzzyNet - библиотека для работы с нечеткой логикой
  • 2015.08.26
  • www.mql5.com
8 новых функций принадлежности.
 
He conseguido solucionarlo, gracias Maxim Dmitrievsky.
Volví a copiar toda la carpeta MATH en el nuevo metatrader y reinicié el ordenador.
[Eliminado]  
FxTrader562:

Estimado Maxim Dmitrievsky,

¿Podría actualizar si ha publicado su próximo artículo sobre la implementación del bosque de decisión aleatoria con diferentes agentes y sin la lógica difusa que mencionó anteriormente?

Muchas Gracias

Hola, FxTrader, el nuevo artículo ha sido traducido y ya está disponible.

No estoy seguro de la calidad de la traducción, no es mi trabajo, pero supongo que todo bien.

 

Buenas tardes. No entiendo por qué tenemos que añadir nada a Metatrader en términos de formación de redes neuronales.

Hay pesos, hay que optimizarlos utilizando el mecanismo de optimización de Metatrader. ¿No cree que los desarrolladores de Metatrader ya han avanzado bastante en el tema del entrenamiento de redes / optimización de parámetros?

La compra y la venta se realizan según las reglas definidas por los indicadores. La red neuronal agrega "datos de observación" de estos indicadores (número de picos, altura de los picos en vísperas de una operación, etc.), pero no los valores de los indicadores en sí, porque esto no tiene sentido. Puede comprobar la configuración de las ponderaciones justo en el transcurso del entrenamiento, por ejemplo: +1 si el mercado fue por donde debía ir los 2 días siguientes, y -1 si fue por donde no debía. Al final cada configuración de pesos tiene una suma. Así se optimiza la mejor configuración de pesos según el criterio del usuario (es un parámetro de optimización, ¡todo tiene que estar pensado, ¿no?!).

El ejemplo descrito ocupa 40-50 líneas en el código. Eso es toda la red neuronal con el entrenamiento. Y vuelvo a mi pregunta original: ¿por qué crees que inventando algo complejo y poco comprensible te has acercado al santo grial? Cuanto más compleja e incomprensible es la caja negra que creo, más me halaga, como, ¡qué listo soy!

[Eliminado]  
Evgeniy Scherbina:

Buenas tardes. Una cosa que no entiendo es ¿por qué hay que añadir algo a Metatrader en cuanto al entrenamiento de la red neuronal?

Hay pesos, hay que optimizarlos utilizando el mecanismo de optimización de Metatrader. ¿No cree que los desarrolladores de Metatrader ya han avanzado mucho en el entrenamiento de redes / optimización de parámetros?

La compra y la venta se realizan según las reglas definidas por los indicadores. La red neuronal agrega "datos de observación" de estos indicadores (número de picos, altura de los picos en vísperas de una operación, etc.), pero no los valores de los indicadores en sí, porque esto no tiene sentido. Puede comprobar la configuración de las ponderaciones justo en el transcurso del entrenamiento, por ejemplo: +1 si el mercado fue por donde debía ir los 2 días siguientes, y -1 si fue por donde no debía. Al final cada configuración de pesos tiene una suma. Así optimizamos la mejor configuración de ponderaciones según el criterio del usuario (¡es un parámetro de optimización, hay que pensarlo todo...!).

El ejemplo descrito ocupa 40-50 líneas en el código. Eso es toda la red neuronal con el entrenamiento. Y vuelvo a mi pregunta original: ¿por qué crees que inventando algo complejo y poco comprensible te has acercado al santo grial? Cuanto más complicada e incomprensible es la caja negra que he creado, más me halaga, en plan, ¡qué listo soy!

Cuando crezcas, lo entenderás.

Al menos, para empezar, lee qué solucionadores se utilizan en las redes neuronales, y por qué nadie utiliza la genética para entrenarlas.