Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 1354

 
Yuriy Asaulenko:

Guarda los archivos. Véase el anexo.

Aprender.csv - entradas. El primer dígito de cada línea es vinculante para la historia, debe ser eliminado.

Cell.scv - objetivo.

Este es el gráfico que deberíamos obtener después de entrenar con estos datos.

El filtro es aproximadamente igual a EMA(16) y la previsión es de 5 min.

Realizaré la prueba más tarde, cuando la necesite.

No estoy seguro de si este gráfico es de entrenamiento o de prueba.

Aquí está el CatBoost en la prueba - los últimos 100 valores.

Histograma de desviaciones.

Tomé 4000 para el entrenamiento, 2000 para la validación y 100 filas para la prueba. He entrenado 1000 árboles de profundidad 6, fórmula RMSE (sustituida porPoisson).

Adjunto muestra y ajustes, para la reproducción es necesario descargar CB y poner en el directorio de configuración.

En la muestra de entrenamiento la misma distribución no se parece a la suya

Añadido: Aplicación incorrecta del modelo - los gráficos de probabilidad resultaron...

Archivos adjuntos:
Setup.zip  587 kb
 
Aleksey Vyazmikin:

No está del todo claro, ¿en qué muestra obtuviste este gráfico, en la de entrenamiento o en la de prueba?

Aquí está el CatBoost en la prueba - los últimos 100 valores.

Histograma de desviaciones.

Tomé 4000 para el entrenamiento, 2000 para la validación y 100 filas para la prueba. He entrenado 1000 árboles con una profundidad de 6, fórmula RMSE.

Se adjunta muestra y configuración, para la reproducción es necesario descargar CB y ponerlo en el directorio Setup.

En la muestra de entrenamiento también la distribución no se parece a la suya

Mi gráfico sólo entrena con toda la muestra. No hice una prueba en este caso. Será más o menos idéntico al entrenamiento.
¿Adónde han ido a parar los valores negativos de la gráfica del eje x? ¿Y el rango de valores de x no es el mismo que el de y? ¿Cómo es eso?
Tengo un gráfico en el que se comparan los valores previstos y los reales (objetivo). No hay distribución.
 
Yuriy Asaulenko:
Mi gráfico sólo entrena sobre toda la muestra. No he hecho pruebas sobre esto. Será aproximadamente idéntica a la formación.
¿Dónde están los valores negativos en el eje de abscisas del gráfico? ¿Y el rango de valores de x no es el mismo que el de y? ¿Cómo es eso?
Tengo un gráfico que compara la predicción y los valores reales.

Sí, no he hecho regresión antes, hay un montón de funciones de fitness oscuras, a diferencia de la clasificación, dan resultados diferentes, y tomé el valor equivocado.

Aquí está la muestra de la prueba.

Y aquí está la muestra de entrenamiento: 4.000 líneas.

Histograma de las desviaciones de la muestra de ensayo

Este es el gráfico general de las 3 muestras.

La métrica que se utilizó para entrenar la muestra de prueba

Dice que podríamos haber dejado de entrenar a las 250 iteraciones y el modelo se vuelve a entrenar.

 
Aleksey Vyazmikin:

Sí, no he hecho regresión antes, hay un montón de funciones de aptitud poco claras, a diferencia de la clasificación, que dan resultados diferentes, y tomé el valor equivocado.

Aquí está la muestra de la prueba.

Y aquí está la muestra de entrenamiento - 4000 filas.

Histograma de desviaciones de la muestra de ensayo

Este es un gráfico general para 3 muestras

Parece que está bien. En el examen, también. aunque reciclado).
 
Yuriy Asaulenko:
Parece estar bien.

Bueno, sí, puedes mejorarlo si quieres - sólo que no tengo experiencia con modelos de regresión.

Así que los principales predictores son herramientas de trabajo :)

Adjunto la versión final con los ajustes - entrena 10 modelos con diferentes Seed

Archivos adjuntos:
Setup.zip  588 kb
 
Aleksey Vyazmikin:

Bueno, sí, se puede mejorar si se quiere - sólo que no tengo experiencia con los modelos de regresión.

Así que los principales predictores son herramientas de trabajo :)
Hay una serie de precios a escala como entrada. - 20 valores cercanos y eso es todo. No se trata de los predictores, sino de la formulación del problema: es solucionable. Y tu bosque se encargará de los predictores por sí mismo).
 
Yuriy Asaulenko:
Hay una serie de precios a escala en la entrada. - Hay 20 valores cercanos y eso es todo. No se trata de los predictores, sino de la formulación del problema: se puede resolver. Y su bosque pensará en los predictores por sí mismo).

Sí, se trata del planteamiento del problema, estoy de acuerdo. Es que no veo el precio como una masa a partir de la cual se moldean pasteles, y se necesitan predictores para dar forma a estos pasteles.

 
Maxim Dmitrievsky:

Una de las técnicas clásicas que pueden mejorar un modelo. O más bien, encontrar el óptimo. La aplicación original de Monte Carlo.

https://en.wikipedia.org/wiki/Importance_sampling

¿No has aplicado este método en tu artículo?

 
Maxim Dmitrievsky:

Para RL fuera de política (gradiente de política)

https://medium.com/@jonathan_hui/rl-importancia-sampling-ebfb28b4a8c6

¿Puede explicar en ruso, con sus propias palabras, cuál es la idea? En inglés, por así decirlo).

 
Yuriy Asaulenko:

El filtro LPF lo hemos predicho con bastante éxito. Incluso ahora los dos, ni siquiera el NS, sino el bosque. Ahora tratemos de predecir el precio, que es un ejercicio totalmente inútil). Preferimos predecir el componente RF del cambio esperado en la expectativa de precios, que (la expectativa) es actualmente desconocida. Y aquí en el contexto de todo tipo de movimientos, oscilaciones HF y todo lo demás.

Así que tenemos lo siguiente: el tiempo de predicción es de 5 m en 1m TF.

Como siempre: x es la previsión, y es el valor real. Bueno, inclinado a 45 grados parece un rectángulo, gracias por no ser un círculo. Si te mueves un poco a la derecha-izquierda del cero en x, puedes incluso jugar con una probabilidad de un poco más del 50% (ver áreas).

Por supuesto, sería bueno construir todo tipo de líneas de regresión y distribuciones, pero es necesario hacer rebanadas, al menos algunas - eso es para más adelante.

PS Bueno, y una previsión utilizando un algoritmo ligeramente modificado. Los mismos 5 minutos en el marco temporal de 1m.

Ya es mucho mejor). Partiendo de la previsión >2 y < -2 por х apenas se esperan operaciones con pérdidas si simplemente cerramos en 5 min.

La segunda foto es realmente buena. ¿Qué cambios en el algoritmo lo han hecho posible?