Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 1533

 
Maxim Dmitrievsky:

Ya lo escribí antes. El modelo básico en una mitad de las piezas, el segundo modelo correctivo en la otra mitad

entonces 5-10 faltas serán suficientes, e incluso más

Lo que se ha escrito arriba está claro.

No entiendo qué significa "5-10 faltas".

 
Aleksey Vyazmikin:

Lo que se ha escrito arriba está claro.

No entiendo qué significa "5-10 faltas".

dividir el conjunto de datos en partes iguales, digamos 5 piezas

fusionar 1,3,4 y enseñar el modelo principal en ellos

combinan 2,5. Entrene el primer modelo con ellos y obtenga los resultados.

Entrene el 2º modelo en estos 2,5 utilizando los resultados del 1º modelo y corrija las operaciones no rentables.

Ejecute ambos modelos en el conjunto de datos y en los nuevos datos y vea los resultados.

 
Aleksey Vyazmikin:

¿Qué hay que recalcular exactamente?

Como es habitual en una cartera - ponderaciones (activos, sistemas). En su caso podría ser, por ejemplo, 0 - comercio de señal de hoja virtual, 1 - real y puede añadir -1 - inversión de señal. Cada cartera corresponde a un vector de longitudes 0, 1 o -1. La optimización se realiza, por ejemplo, para cada último mes por beneficio con penalizaciones por reducción y volumen de la cartera.

 
Maxim Dmitrievsky:

dividir el conjunto de datos en secciones iguales, digamos 5 piezas

combinar 1,3,4 y entrenar el modelo principal con ellos

combinan 2,5. Ejecutar el primer modelo en ellos, obtener resultados.

Entrene el 2º modelo en estos 2,5 utilizando los resultados del 1º modelo y corrija las operaciones no rentables.

Ejecute ambos modelos en el conjunto de datos y en los nuevos datos y vea los resultados

Ah, ahora lo veo, sólo quería mezclar la muestra y entrenar el segundo modelo donde el primero no estaba entrenado. Tengo que pensar cómo se puede implementar, pero probablemente no en este proyecto, salvo para enseñar el segundo modelo en 2019, pero entonces no habrá lugar para comprobar los resultados fuera del entrenamiento.

 
Aleksey Nikolayev:

Como es habitual en una cartera - ponderaciones (activos, sistemas). En su caso podría ser, por ejemplo, 0 - comercio de señal de hoja virtual, 1 - real y puede añadir -1 - inversión de señal. Cada cartera corresponde a un vector de longitudes 0, 1 o -1. La optimización se realiza, por ejemplo, para cada último mes por beneficio con penalizaciones por reducción y volumen de la cartera.

Aquí la cuestión es la frecuencia con la que se cambian los coeficientes: si son raros, nos quedamos atrás de la tendencia, si son frecuentes, nos enfrentaremos a un ajuste horrible, porque la propia estrategia permite detracciones, mientras que la hoja puede no dar nunca una señal durante un trimestre, lo que complica este enfoque.

 
Maxim Dmitrievsky:

Parece que se ha arreglado el probador, no se ve por ningún lado, los resultados:

EURUSD tren+válido, 10k barras


El EURUSD prueba los 50k bares

El mismo modelo entrenado en EURUSD pero probado en GBPUSD, 50k barras

El mismo modelo también se ha entrenado con el USDCHF

Parece que tiene sentido. Hay una tendencia de crecimiento, por así decirlo).

Tal vez me he perdido algo, pero, sobre la marcha, es claramente mejor que el bosque de alglib (aunque he añadido muchas otras cosas para mejorarlo)

Funciona rápido, hay muchas señales, podemos intentar crear una cartera. ¿Cuál es el plazo de la muestra?

 
Aleksey Vyazmikin:

Corriendo enérgicamente, muchas señales, puedes intentar hacer una cartera. ¿Y cuál es el rango de tiempo de la muestra?

Un año y medio en 15 minutos más o menos.

Tengo que limpiar la detracción y todo lo demás, eso es lo que haré.

 
Maxim Dmitrievsky:

Un año y medio en 15 minutos más o menos.

Bueno es un juicio, tengo que limpiar las detracciones y todo lo demás, y eso es lo que voy a hacer.

Parece que hay muchas operaciones, como si el spread no se lo comiera todo... En cualquier caso, el potencial está ahí, ¡buena suerte!

 

Decidí mirar un poco la dinámica de los indicadores métricos de los modelos durante la división, tomé 1, 20 y 48 pasos (el último procesado), resultó la siguiente tabla resumen.

Indicadores de la muestra utilizada para la formación.

Los resultados me parecen interesantes; en primer lugar, debo prestar atención a que estamos trabajando con árboles que dan sólo un 52%-53% de precisión, lo que es muy bajo para el modelo en su conjunto.Sin embargo, no nos interesa todo el modelo, porque para el comercio es más importante entrar en la dirección correcta que fallar una entrada y, por lo tanto, debemos interesarnos en primer lugar por la precisión de la clasificación y podemos ver que la precisión de las clases "-1" y "1" en algún momento llegó a ser un 4% y un 3% mayor que en la versión inicial, mientras que la precisión de la clase "0" perdió sólo un 1-2%, pero al mismo tiempo la exhaustividad de las clases "-1" y "1" disminuyó y la exhaustividad de la clase "0" creció junto con ella.

En esta fase, se ha eliminado de la muestra aproximadamente el 10% de los predictores raíz -uno en cada paso-, pero el modelo no se ha colapsado e incluso los indicadores individuales, importantes para nosotros, han mejorado.

Por supuesto, se puede obtener más información sobre la dinámica si se procesan las 48 divisiones, tal vez haya lagunas en los indicadores o, por el contrario, todos los indicadores se muevan en el vector seleccionado. Pero lo principal creo que es que el comercio necesita su propio método de creación de modelos, cuyo principio no es tratar de describir toda la estructura, sino entender parte de la estructura mejor que otras partes, y ahora un buen modelo, en todos los métodos que conozco, el modelo se estima por entropía o logloss, es decir, para el aprendizaje de todo el modelo - el conocimiento de cero y uno, si se quiere, mientras que sólo necesitamos saber más sobre el uno.

Pues bien, como he mostrado antes, el árbol por hojas, y mi método de selección por hojas, mejora la precisión de la clasificación en la muestra de entrenamiento en un 20%-25% en comparación con el modelo convencional.

La cuestión es cómo podemos agilizar el proceso, busco gente interesada con la que podamos colaborar para repensar el funcionamiento del script de R, que ahora genera árboles, y pensar en mejorar y agilizar la metodología.

 
Aleksey Vyazmikin:

Decidí mirar un poco la dinámica de los indicadores métricos de los modelos durante la división, tomé 1, 20 y 48 pasos (el último procesado), obtuve la siguiente tabla resumen.

Indicadores de la muestra utilizada para la formación.

Los resultados me parecen interesantes; en primer lugar, debo prestar atención a que estamos trabajando con árboles que dan sólo un 52%-53% de precisión, lo que es muy bajo para el modelo en su conjunto.Sin embargo, no nos interesa todo el modelo, porque para el comercio es más importante entrar en la dirección correcta que fallar una entrada y, por lo tanto, debemos interesarnos en primer lugar por la exactitud de la clasificación y podemos ver que la exactitud de las clases "-1" y "1" en algún momento llegó a ser un 4% y un 3% mayor que en la versión inicial, mientras que la exactitud de "0" fue sólo un 1-2% menor, pero al mismo tiempo la exhaustividad de "-1" y "1" disminuye pero la exhaustividad de "0" aumenta junto con ella.

En esta fase, se ha eliminado de la muestra aproximadamente el 10% de los predictores raíz -uno en cada paso-, pero el modelo no se ha colapsado e incluso los indicadores individuales, importantes para nosotros, han mejorado.

Por supuesto, se puede obtener más información sobre la dinámica si se procesan las 48 divisiones, tal vez haya lagunas en los indicadores o, por el contrario, todos los indicadores se muevan en el vector seleccionado. Pero lo principal creo que es que el comercio necesita su propio método de creación de modelos, cuyo principio no es tratar de describir toda la estructura, sino entender parte de la estructura mejor que otras partes, y ahora un buen modelo, en todos los métodos que conozco, el modelo se estima por entropía o logloss, es decir, para el aprendizaje de todo el modelo - el conocimiento de cero y uno, si se quiere, mientras que sólo necesitamos saber más sobre el uno.

Pues bien, como he mostrado antes, el árbol por hojas, y mi método de selección por hojas, mejora la precisión de la clasificación en la muestra de entrenamiento, en comparación con el modelo convencional, en un 20%-25%.

La pregunta es cómo puedo acelerar el proceso, estoy buscando gente interesada con la que trabajar para replantear el funcionamiento del script de R que actualmente genera los árboles, y pensar en mejorar y acelerar la metodología.

por lo que se tiene una pérdida logarítmica de ~1, por lo que el modelo está en un estado de flujo.

¿Quieres encontrar un logloss separado para una sola entrada? ¿Es decir, la cantidad de información entre los valores de la hoja y los valores objetivo?

la clase "no hace nada" está claramente desequilibrada en relación con las otras, como escribí más arriba que podría ser un problema debido al modelo de 3 clases. Otros indicadores son deprimentes.

Razón de la queja: