Discusión sobre el artículo "Gradient boosting (CatBoost) en las tareas de construcción de sistemas comerciales. Un enfoque ingenuo" - página 4

 
Valeriy Yastremskiy:

Aunque se solapen, sigue siendo un tema bastante complejo, por lo que las diferentes explicaciones del tema irán al grano.))))

Y pocas preguntas se hacen - incluso aquí, cuando Maxim mostró el truco con pérdida parcial de la memoria :)

 
Rorschach:

Es curioso, pensé que si la expectativa es tan baja, es un grial tester. Lo corrí en Saber, en un símbolo personalizado, casi el mismo resultado.

Comprobado 17 años, hay una tendencia al alza similar, está drenando.

¿Es un pedazo de suerte de la historia o se puede obtener una imagen de este tipo para los últimos años también? Sé que está perdiendo en la prueba, pero era un mercado completamente diferente allí.

He comprobado 4 sko, el resultado es significativo. Lo curioso es que nunca he visto Sharpe por encima de 3, ¿existe tal cosa?

No estoy seguro de entender la pregunta. Es así en cualquiera de ellos.

No hay problema con eso, es la generalización para nuevos datos el problema.

sobre los datos de Saber - por lo que tengo entendido, no todos los pares de divisas son adecuados y él hace optimización, es decir, repasa modelos

Puramente en teoría... si muestreas aleatoriamente y reentrenas durante mucho tiempo, puedes encontrar un buen modelo. En la práctica obtuve X2 oos +-, es decir, en datos nuevos funcionó tanto como traine\valid, en términos de tiempo. A veces un poco más.

Es deseable hacerlo en algún lugar de la nube, el portátil no lo permite

 
Maxim Dmitrievsky:

No estoy seguro de entender la pregunta. ¿Es una buena pieza de entrenamiento? En cualquiera de ellos.

No hay problema con eso, es la generalización para nuevos datos el problema.

sobre los datos Saber - por lo que tengo entendido, no todos los pares de divisas son adecuados y él hace la optimización, es decir, va a través de los modelos

Puramente en teoría... si tomas muestras aleatorias y reentrenas durante mucho tiempo, puedes encontrar un buen modelo. En la práctica obtuve X2 oos +-, es decir, en los nuevos datos trabajó tanto como traine\valid, en términos de tiempo. A veces un poco más.

Es deseable hacerlo en algún lugar de la nube, el portátil no lo permite

No entiendo los términos, aleatoriza los parámetros del CT, hace ejecuciones e intenta encontrar la zona de los mejores conjuntos de parámetros para el resultado del CT. Eso es optimización. Ahí no hay modelo. Hay modelos en NS con MO.

 
Valeriy Yastremskiy:

Lo que no entiendo en cuanto a los términos, aleatoriza los parámetros TC, hace ejecuciones y trata de encontrar la región de los mejores conjuntos de parámetros para el resultado TC. Eso es optimización. No hay modelo. Hay modelos en NS con MO.

Una ST con un conjunto de parámetros es un modelo

 
Aleksey Vyazmikin:

Y se hacen pocas preguntas, incluso aquí, cuando Maxim mostró un truco con pérdida parcial de memoria :)

¿Qué tipo de pérdida de memoria?

 
elibrarius:

¿Qué pasa con la pérdida de memoria?

Aquí creamos una memoria de movimientos pasados con una etiqueta vinculante:

El último paso consiste en crear columnas adicionales con filas desplazadas por la profundidad look_back, lo que significa añadir características adicionales (retardadas, rezagadas) al modelo.

Mezcla adicional:

Разобьём данные на два датасета равной длины, предварительно случайно перемешав обучающие примеры.

Suponiendo que la mezcla sea uniforme, esto significa que en el entrenamiento hemos obtenido información de columnas sobre la mitad de la muestra acerca de los retornados pasados y presentes. En un periodo relativamente pequeño, en el que es posible ajustar la volatilidad de esta forma, funciona gracias al conocimiento sobre el mercado, pero en cuanto cambia significativamente, el modelo no puede funcionar. Aquí, me pareció sólo un efecto de memoria, más que la identificación de un patrón general. Maxim, corrígeme si lo percibes de otra manera.

 
Aleksey Vyazmikin:

Aquí estamos creando una memoria de movimientos pasados con una vinculación a una etiqueta:

Seguir mezclando:

Suponiendo que la mezcla sea uniforme, esto significa que en el entrenamiento hemos obtenido información en columnas sobre la mitad de la muestra acerca de los rendimientos pasados y presentes. En un periodo relativamente pequeño, donde es posible ajustar la volatilidad de esta manera, funciona debido al conocimiento sobre el mercado, pero tan pronto como cambia significativamente - el modelo no puede funcionar. En este caso, me pareció simplemente un efecto de memoria, más que la identificación de un patrón general. Maxim, corrígeme si lo percibes de otra manera.

Si te fijas en los signos en sí, tienen correlación serial(autocorrelación), si te fijas en las etiquetas, lo mismo. La correlación serial conduce a una estimación incorrecta del modelo, a un entrenamiento incorrecto. Un ejemplo burdo (o quizá no) es el sobreentrenamiento para la volatilidad, sí. Barajar es una forma primitiva de romper un poco la serialidad, y barajar el entrenamiento y la prueba es un poco de equilibrio de los datos en ambos conjuntos. Hay que tratar este tema más seriamente, no de una forma tan primitiva, que es a lo que quería dedicar el siguiente artículo. Ya que es un tema aparte, bastante amplio.
 
Maxim Dmitrievsky:
Si nos fijamos en las propias características, tienen correlación en serie (autocorrelación), y si nos fijamos en las etiquetas, lo mismo. La correlación serial conduce a una estimación incorrecta del modelo, a un entrenamiento incorrecto. Un ejemplo burdo (o tal vez no) es el sobreentrenamiento para la volatilidad, sí. Barajar es una forma primitiva de romper un poco la serialidad, y barajar el entrenamiento y la prueba es un poco de equilibrio de los datos en ambos conjuntos. Hay que tratar este tema más seriamente, no de una forma tan primitiva, que es a lo que quería dedicar el siguiente artículo. Ya que se trata de un tema aparte, bastante amplio.

Sería un artículo interesante si resolviera la cuestión de si es posible mezclar muestras en absoluto basándose en su similitud.

Por lo que tengo entendido, si las muestras son similares, es posible, pero si son significativamente diferentes, no. En nuestro caso, trabajamos con un mercado cambiante, y entonces la cuestión de la posibilidad de mezclar viene determinada por el intervalo de tiempo..... Me gustaría ver un criterio numérico específico para evaluar la similitud de dos muestras con una prueba de la teoría de la admisibilidad de su mezcla. Información para la reflexión.

 
Aleksey Vyazmikin:

Aquí estamos creando una memoria de movimientos pasados con una vinculación a una etiqueta:

Seguir mezclando:

Suponiendo que la mezcla sea uniforme, esto significa que en el entrenamiento hemos obtenido información en columnas sobre la mitad de la muestra acerca de los rendimientos pasados y presentes. En un periodo relativamente pequeño, donde es posible ajustar la volatilidad de esta manera, funciona debido al conocimiento sobre el mercado, pero tan pronto como cambia significativamente - el modelo no puede funcionar. En este caso, me pareció simplemente un efecto de memoria, más que la identificación de un patrón general. Maxim, corrígeme si lo percibes de otra manera.

Se trata simplemente de N incrementos dentro de una ventana deslizante.
Maxim Dmitrievsky:
Si nos fijamos en los propios signos, tienen correlación serial (autocorrelación), y si nos fijamos en las etiquetas, ocurre lo mismo. La correlación serial conduce a una estimación incorrecta del modelo, a un entrenamiento incorrecto. Un ejemplo burdo (o quizá no) es el sobreentrenamiento para la volatilidad, sí. Barajar es una forma primitiva de romper un poco la serialidad, y barajar el entrenamiento y la prueba es un poco de equilibrio de los datos en ambos conjuntos. Hay que tratar este tema con más seriedad, no de una forma tan primitiva, que es a lo que quería dedicar el siguiente artículo. Porque es un tema aparte, bastante amplio.
Mezclar el conjunto de trenes no cambia el modelo de árbol de ninguna manera. El árbol ordenará cada columna. El resultado de ordenar los datos mezclados y no mezclados es el mismo.
Mezclar el tren con la prueba no es necesario en mi opinión, como escribí anteriormente.
 
elibrarius:
Se trata simplemente de N incrementos dentro de una ventana deslizante. Barajar el juego de trenes no cambia el árbol de ninguna manera.
Lo sé.