Discusión sobre el artículo "Random Decision Forest en el aprendizaje reforzado" - página 2

 
Lo siento Maxim, estaba distraído, escribí mal tu nombre.
 
Olvidé añadir. La solución, en los juegos de estrategia, es la combinatoria (búsqueda de combinaciones repetidas), el análisis probabilístico, la determinación del psicotipo del adversario y la creación de un modelo de comportamiento.
 
Vasily Belozerov:
Olvidé añadir. La solución, en los juegos estratégicos, es la combinatoria (búsqueda de combinaciones repetidas), el análisis probabilístico, la determinación del psicotipo del adversario y la creación de un modelo de comportamiento.

Saludos, sobre el psicotipo - ciertamente no es aplicable al mercado. Por lo demás, la RL es en gran medida una herencia de la teoría de juegos. Por ejemplo, se puede pensar en varios agentes de RL como jugadores que compiten, cada uno tratando de vencer a los demás. Otra posibilidad es hacer que se refuercen mutuamente.

Esencialmente, se elabora una matriz de pagos entre el mercado y el agente. Y si la estrategia del mercado no cambia, el agente empieza a ganarle, cuando es posible.
 
Sólo estaba sugiriendo que quizás a la máquina correcta se le debería añadir algo no correcto, similar a las acciones humanas. Por ejemplo, primer movimiento e2 - e4, luego segundo movimiento e4 - e2, tercer movimiento de nuevo e2 - e4. Básicamente, algo así.
 
Vasily Belozerov:
Sólo estaba sugiriendo que quizás a la máquina correcta se le debería añadir algo no correcto, similar a las acciones humanas. Por ejemplo, primer movimiento e2 - e4, luego segundo movimiento e4 - e2, tercer movimiento de nuevo e2 - e4. Básicamente, algo así.

La tarea no es hacer que el trading sea similar al trading humano (¿y cómo sabes eso, el bot tiene que pasar el test de Turing?) y lo que te hace pensar que un humano es capaz de operar bien o mejor que un Asesor Experto, todo depende de la estrategia. El objetivo es que la propia máquina busque unos patrones y opere con ellos.

 
Vasily Belozerov:
Sólo estaba sugiriendo que quizás a la máquina correcta se le debería añadir algo no correcto, similar a las acciones humanas. Por ejemplo, primer movimiento e2 - e4, luego segundo movimiento e4 - e2, tercer movimiento otra vez e2 - e4. Ya sabes, algo así.

Esto es Random forest, su punto principal: que forma el libro de apertura por sí mismo.

 
Maxim, ¿tiene algún efecto intentar generar nuevos árboles aleatorios? Por ejemplo, la primera vez que generamos un árbol, la segunda vez generamos otros árboles, que se entrenan de forma más eficiente. ¿O no tiene ningún efecto en el resultado final del entrenamiento?
 
Ivan Gurov:
Maxim, ¿tiene algún efecto intentar generar nuevos árboles aleatorios? Por ejemplo, la primera vez que generamos un árbol, la segunda vez generamos otros árboles, que se entrenan de forma más eficiente. ¿O no afecta en absoluto al resultado final del entrenamiento?
No son los árboles, sino entrenar varios bosques con los mismos datos sí, afecta. Porque el proceso de construcción es aleatorio y los resultados pueden variar. Me sorprendió que un conjunto de bosques diera una mejora notable, es decir, entrenar varios bosques sobre los mismos datos y promediar el resultado. (5-15 piezas) También puedes hacer diferentes ajustes. Los resultados deberían ser aún mejores en caso de bousting, pero aún no he llegado a ese punto.
 
Me ha gustado el artículo. Me gustaría que alguien rediseñara el bosque en alglib para poder ajustar la profundidad de los árboles.
 

Gracias por compartir este artículo muy útil.

Yo estaba tratando de implementar indicadores adicionales para el código, pero no soy un experto programador y no buena experiencia en cuanto a cómo utilizar las funciones de membresía y por lo tanto, no podía conseguir mi cabeza como la forma de añadir más indicadores que se utilizarán junto con las reglas dentro de la OnInit() función. El código sólo contiene el indicador RSI y crea las reglas de COMPRA y VENTA a partir de él. ¿Puede usted por favor proporcionar algunos códigos de ejemplo más de indicadores como la media móvil o MACD o estocástico o SAR para ser utilizado en el código?

Especialmente, quiero saber cómo crear reglas y añadir a las condiciones de entrada mientras se compara con el precio actual. El principal problema con el código actual es que a veces mantiene operaciones perdedoras durante mucho tiempo, mientras que el cierre de operaciones rentables rápidamente y por lo que cualquier consejo sobre esto será apreciado. Creo que es necesario filtrar más la lógica de salida.

Además, tengo una pregunta si usted puede responder por favor:

¿El archivo OPT se actualiza continuamente con el fin de mejorar las entradas y salidas con el tiempo después de mucho tiempo por el ajuste fino de la propia política?

¿O el EA sólo utiliza el probador de estrategia para optimizar los valores de EA y utiliza los mismos valores de entrada y salida de los cuales fueron rentables recientemente como EA optimizado regular?

Me refiero a que, al igual que otros EA de red neuronal, ¿ajusta su política general de entrada y salida de operaciones durante el transcurso de las operaciones?