Discusión sobre el artículo "Aprendizaje de máquinas de Yándex (CatBoost) sin estudiar Python y R" - página 3
Está perdiendo oportunidades comerciales:
- Aplicaciones de trading gratuitas
- 8 000+ señales para copiar
- Noticias económicas para analizar los mercados financieros
Registro
Entrada
Usted acepta la política del sitio web y las condiciones de uso
Si no tiene cuenta de usuario, regístrese
Ah, prueba a repetir el mismo experimento, sólo que añadiendo uno o dos meses más de historia a la muestra de entrenamiento y luego compara las dos pruebas. Si la red neuronal se mantendrá estable, qué influencia tienen los movimientos de precios más recientes en este modelo...
Cuidado: no se trata de una red neuronal, sino de gradient bousting, un enfoque muy diferente para encontrar un patrón, aunque ambos son métodos de aprendizaje automático.
Estoy convencido de que los datos son escasos en muestras cortas, pero ahora estoy entrenando muestras para satisfacer la curiosidad de los lectores:
1. ventana de un año con diferente número de árboles - comparemos el resultado. (no se utiliza muestra de control)
2. Ventana para el año 3 con diferente número de árboles - comparemos el resultado. (no se utiliza muestra de control)
3. Ventana para un año con nuevos datos añadidos cada mes con diferente número de árboles - comparemos el resultado. (no se utiliza muestra de control)
Tendrá que esperar a que finalice el proceso de cálculo: se están construyendo muchos modelos.
Pasemos de las abstracciones a los números. ¿Qué eficacia tendrá una ventana pequeña?
La cuestión es que usted sugiere saltar tras las condiciones del mercado, mientras que yo sugiero utilizar el conocimiento sobre las diferentes condiciones del mercado. Cuanto mayor sea el conocimiento respaldado por la historia, más lentamente cambiarán los patrones construidos sobre él.
Y entonces, ¿cómo se definen los hiperparámetros en una muestra pequeña - cuántas iteraciones de entrenamiento por lo menos. Yo pongo lo mismo en todas partes.La anchura debe ser al menos tan amplia como la anchura de los estados estables, en los que se puede obtener un beneficio. No lo estoy sugiriendo, me doy cuenta de que es difícil para el día de hoy. Pensamiento de las disposiciones que el aprendizaje es productivo en los estados estables. Es decir, el resultado del entrenamiento sobre un estado estable de la PA será mejor que sobre la misma cantidad de datos, pero el estado de la PA consistirá en varios segmentos de diferentes estados estables.
La anchura debe ser al menos igual a la anchura de los estados estables en los que se puede obtener beneficios. No estoy sugiriendo esto, me doy cuenta de que es difícil para hoy. El pensamiento de las cláusulas es que el aprendizaje es eficiente en estados estables. Es decir, el resultado del entrenamiento sobre un estado estable de la PA será mejor que sobre la misma cantidad de datos, pero el estado de la PA consistirá en varios segmentos de diferentes estados estables.
Por tanto, sólo podremos averiguar la anchura óptima después de detectar un nuevo estado del mercado.
Aquí en el artículo no utilizamos series temporales en su forma pura, porque la recopilación de datos se basa en un determinado estado del mercado, y hay diferentes números de barras entre los estados.
Cuidado: no se trata de una red neuronal, sino de gradient bousting, un enfoque muy diferente para encontrar un patrón, aunque ambos métodos están relacionados con el aprendizaje automático.
Estoy convencido de que los datos son escasos en muestras cortas, pero estoy entrenando muestras ahora para satisfacer la curiosidad de los lectores:
1. ventana de un año con diferente número de árboles - comparemos el resultado. (no se utiliza muestra de control)
2. ventana para el año 3 con diferente número de árboles - comparemos el resultado. (no se utiliza muestra de control)
3. ventana para un año con nuevos datos añadidos cada mes con diferente número de árboles - comparar el resultado. (no se utiliza muestra de control)
Habrá que esperar a que finalice el proceso computacional - se están construyendo muchos modelos.
Así es... Para mí, la pregunta interesante es - ¿es posible utilizar el gradient bousting para buscar patrones sobre los que muestrear datos para entrenar una red neuronal? Este es el problema de encontrar una solución para cubrir operaciones con redes neuronales entrenadas en diferentes patrones de mercado...
Así es... Para mí, la pregunta interesante es - ¿se puede utilizar el gradient bousting para buscar patrones sobre los que muestrear datos para entrenar una red neuronal? Este es el problema de encontrar una solución para cubrir operaciones con redes neuronales entrenadas en diferentes patrones de mercado...
¿Cómo piensa obtener una respuesta a la pregunta sin experimentar con redes neuronales sobre una muestra?
Podemos estimar el rendimiento de los predictores en el tiempo, por ejemplo, el porcentaje de cierre de "algo por ahí" - se puede ver en el gráfico que el sesgo varía sobre las filas (cada fila N filas de la muestra) - y si tomamos 1/10 de la muestra, no tendremos suficiente información cuando el indicador se mueve hacia los lados (por ejemplo, depende de la tendencia global en el TF superior).

Por cierto, la figura muestra cómo se particionan (cuantifican) los datos en forma de cuadrícula SatBoost.Por ahora, la primera versión está lista:
1. ventana para un año con diferente número de árboles - comparemos el resultado. (no se utiliza muestra de control)
400 árboles no es suficiente y 1600 es excesivo.
La dinámica de las curvas es similar, ¿alguna idea de por qué?
El primer borrador está listo por ahora:
1. ventana para un año con diferente número de árboles - comparemos el resultado. (no se utiliza muestra de control)
400 árboles no es suficiente y 1600 es excesivo.
La dinámica de las curvas es similar, ¿alguna idea de por qué?
200 no es suficiente información, y 1600 hay una pérdida de información, o no identificar información significativa.
200 falta información, y 1600 hay una pérdida de información, o no se identifica información significativa.
La información es establemente la misma para el entrenamiento, pero el tamaño de la memoria para recordar las condiciones es diferente. Creo que la similitud de los árboles en los diez primeros determina la lógica básica del comportamiento del modelo, y más adelante sólo queda su mejora, por eso las curvas son similares en sus rupturas.
2.ventana para el año 3 con diferente número de árboles - comparar el resultado. (no se utiliza muestra de control)
De nuevo observamos que 800 iteraciones es lo óptimo, así que para la tercera variante no hice más. Lo que es confuso es el fuerte fracaso en marzo de 2020 - si es el impacto de la crisis más allá del modelo, o un error de muestreo - Hice el entrenamiento en el encolado y podría haber una brecha debido a la transición a un nuevo contrato de futuros, que no ocurrió en la vida real. En el lado positivo, el aprendizaje es claramente mejor que a 12 meses (¡véase este periodo de tiempo en el último gráfico!), lo cual es bueno de ver y muestra de nuevo que 12 meses no acomoda toda la variabilidad del mercado.
3. ventana durante un año con nuevos datos añadidos cada mes con un número diferente de árboles - comparemos el resultado.(no se utiliza muestra de control)
La figura muestra que el crecimiento del modelo a partir de 400 iteraciones fue más rápido o en línea, pero a medida que aumentaba el tamaño de la muestra, la tendencia cambió y el modelo a partir de 800 iteraciones empezó a alejarse con menos errores y mejor cierre de mes. Aparentemente, en este caso es necesario aumentar dinámicamente el tamaño del modelo.
De este estudio podemos concluir que el método expuesto en el artículo y el resultado obtenido no son una casualidad.
Sí, estoy de acuerdo en que hay cambios significativos en el comportamiento de los precios, y el comportamiento anterior no se repite, y en consecuencia, el muestreo durante un período largo impedirá ganar dinero con los nuevos datos. La identificación de la variabilidad del comportamiento de los precios en un modelo es objeto de nuevas investigaciones, pero yo prefiero utilizar la mayor cantidad posible de información sobre precios, aunque esté ligeramente desfasada.
La siguiente figura ofrece información sobre la recuperación: el histograma azul corresponde a los modelos con acumulación de muestras y el histograma rojo a los modelos con una ventana fija de 12 meses.
Puede observarse que los modelos de 12 meses intentaron ajustarse a la situación actual del mercado y tuvieron más recuperaciones en varios periodos de baja volatilidad, mientras que los modelos con acumulación explícita en 2020 utilizaron la experiencia del aumento de la volatilidad en 2014-2016 y fueron capaces de reconocer fuertes movimientos durante la crisis de 2020.