Discusión sobre el artículo "Aprendizaje de máquinas de Yándex (CatBoost) sin estudiar Python y R" - página 2

 
Andrey Dibrov:

Presté atención a la duración del período de prueba. Pero el resultado positivo estable es en un corto período adyacente al período de formación - un mes - dos meses. Digamos que entrenamos en una historia de dos años. Prueba + un mes. Guardar el resultado. Desplazar (o añadir) para este mes - antes del entrenamiento (reentrenamiento). Prueba + mes. Guardar el resultado. Y así sucesivamente.

¿Es este un pequeño período?

Entiendo tu idea, yo mismo pensé en ello - incluso hice un guión, pero la formación será ciego y en los datos pequeños - es dudoso que usted puede conseguir algo allí.

 
Aleksey Vyazmikin:

¿Es un periodo pequeño?

Entiendo tu idea, yo mismo estaba pensando en ello - incluso hice un script, pero el entrenamiento será a ciegas y sobre datos pequeños - es dudoso que puedas conseguir algo allí.

Tengo que probarlo, una ventana deslizante es como siempre datos frescos).

 
Valeriy Yastremskiy:

Tengo que probarlo, ventana deslizante es como siempre datos frescos)

¿Quién lo necesita? ¿Puedes determinar que el mercado ha cambiado en alguna métrica, pero ha cambiado de una forma que antes no era? Si puede y se ha producido tal acontecimiento, entonces sí - necesita entrenar un nuevo modelo teniendo en cuenta los nuevos datos. Cuanto más pequeño sea el intervalo, más se ajustará a los datos, ya que no se revelarán regularidades generales.

Para la "suerte", sí, puedes hacerlo, ahora el script cortará una muestra y verá qué ocurrirá si entrenas en una ventana de 12 meses cada mes.

 
Aleksey Vyazmikin:

¿Quién lo necesita? ¿Puede determinar que el mercado ha cambiado en alguna métrica, pero que lo ha hecho de una forma que antes no lo hacía? Si puede y se ha producido tal acontecimiento, entonces sí: necesita entrenar un nuevo modelo teniendo en cuenta los nuevos datos. Cuanto más pequeño sea el intervalo, más se ajustará a los datos, ya que no se revelarán regularidades generales.

Para la "suerte", sí, puedes hacerlo, ahora el script cortará una muestra y verá qué ocurrirá si entrenas sobre una ventana de 12 meses cada mes.

Me))))) Sólo manualmente tratando de describir al menos específicamente diferentes estados de BP. No puedo decir que es fácil) Y la ventana deslizante sólo ayuda. Por supuesto, hay una cuestión de anchura, pero el cribado de las emisiones en la ventana es más eficaz en mi opinión que en los filtros. Aunque puedo estar equivocado)

 

He aquí una muestra del artículo

Tardé 2 años en entrenar, entrenaba cada nuevo mes.

Aprendí 400 árboles - ajustes para todos los modelos son los mismos.

Y EURUSD - aquí aprendí en la historia durante un año, también cada mes


 
No, cometí un error arriba - la muestra en el artículo es diferente - está archivado - lo reharé ahora.
 
Aleksey Vyazmikin:
No, cometí un error arriba - la muestra en el artículo es diferente - está archivado - lo reharé ahora.


Esta es la versión correcta.

Mira Recall - se puede ver que los modelos carecen de conocimiento del mercado, en otras palabras - el mercado es más variable que la información en la ventana - especialmente más cerca de nuestros días.

Valeriy Yastremskiy:

Para me))))) Sólo manualmente tratando de describir al menos específicamente diferentes estados de BP. No puedo decir que es fácil) Y la ventana deslizante sólo ayuda. Por supuesto, hay una cuestión de ancho, pero el cribado de las emisiones en la ventana es más eficaz en mi opinión que en los filtros. Aunque puedo estar equivocado)

Aquí arriba se muestra lo que salió si se toma una ventana de 12 meses.

Respecto a los valores atípicos - si el modelo está basado en árboles y además utiliza la cuantificación, al contrario, cuanta más información des, menos te afectarán los valores atípicos, porque estadísticamente serán pequeños.

 
Aleksey Vyazmikin:


Es lo que hay que hacer.

Mira Recall - se puede ver que los modelos carecen de conocimiento del mercado, en otras palabras - el mercado es más variante que la información golpeó la ventana - especialmente más cerca de nuestros días.

Aquí está lo anterior muestra lo que salió si se toma una ventana de 12 meses.

En cuanto a los valores atípicos - si el modelo está basado en árboles y también utiliza la cuantificación, por el contrario, cuanta más información se da, menos se verá afectado por los valores atípicos, porque estadísticamente serán pequeños.

La anchura de la ventana es muy importante para el resultado del entrenamiento en función del estado de la serie. Y el ancho tiene optimalidad. Un periodo demasiado grande de los datos de la ventana deslizante es tan perjudicial como uno demasiado pequeño.

 
Valeriy Yastremskiy:

La anchura de la ventana es importante para el resultado del aprendizaje en función del estado de la fila. Y la anchura es óptima. Un periodo demasiado grande de los datos de la ventana deslizante es tan perjudicial como uno demasiado pequeño.

Pasemos de las abstracciones a los números. ¿Cuánto será efectiva una ventana pequeña?

La cuestión es que usted sugiere saltar tras las condiciones del mercado, mientras que yo sugiero utilizar el conocimiento sobre las diferentes condiciones del mercado. Cuanto mayor sea el conocimiento respaldado por la historia, más lentamente cambiarán los patrones construidos sobre él.

Y entonces, ¿cómo se definen los hiperparámetros en una muestra pequeña - cuántas iteraciones de entrenamiento por lo menos. Pongo lo mismo en todas partes.
 
Ah, prueba a repetir el mismo experimento, sólo que añadiendo uno o dos meses más de historia a la muestra de entrenamiento y luego compara las dos pruebas. Si la red neuronal se mantendrá estable, qué influencia tienen los movimientos de precios más recientes en este modelo...