Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 2799

 
elibrarius #:

Busting busca las mejores divisiones de todas las columnas y todos los ejemplos. Es decir, utiliza las mejores fichas.
Schuch. forest toma la mitad de las fichas y la mitad de los ejemplos (la proporción es configurable) para cada árbol y luego, de 20 a 100 árboles, encuentra la media. Si sólo hay 5 fichas informativas de 200 fichas, entonces algunos de los árboles no contendrán fichas informativas (una media de 2,5 fichas informativas por árbol). Y promediaremos una parte de árboles informativos con árboles de ruido. El resultado también será muy ruidoso.
Un bosque esporádico funciona bien si hay muchas fichas informativas (como en los ejemplos clásicos/problemas de MO).

Busting encontrará y utilizará las fichas más informativas, ya que las comprueba todas. Así que por la lógica del bousting, seleccionará las mejores fichas por sí mismo. Pero el bousting también tiene sus propios problemas.

Lógicamente
 
Maxim Dmitrievsky #:
cuanta más información mutua al dividir en clases, menos se solapan las distribuciones, lo cual es lógico

Las distribuciones seguirán flotando en los nuevos datos.

Yo no confiaría mucho en una manipulación de este tipo, sólo es una idea para probar.

No has notado la variabilidad de sd

 
СанСаныч Фоменко #:

No puedo estar de acuerdo con lo del bousting.

El bousting encontrará características que tengan una fuerte correlación (poder predictivo), créalo. Todo está bien si la magnitud de la relación es constante. Renunciando a la estimación del propio rasgo, en el bousting no podemos rastrear la variabilidad de la magnitud de la asociación, y según mis datos la SD de la estimación de la asociación puede variar del 10% al 120 (en mis rasgos). ¿Qué nos aportará el bousting? Al fin y al cabo, necesitamos muestrear los rasgos que tienen más variabilidad.

Todos los modelos MO buscan patrones. El bousting selecciona automáticamente los mejores rasgos de la línea.

Si hay variabilidad (por ejemplo, en los datos de mercado), entonces tenemos que hacer algo extra. He experimentado con Walking Forward. Pero sólo muestra el resultado, no afecta a la selección de signos. Y nada puede predecir qué características funcionarán en el futuro si no hay patrones o cambian. La única posibilidad es que no cambien instantáneamente, y el patrón funcione durante algún tiempo.

 
Aleksey Vyazmikin #:

Creado un hilo con una muestra que demuestra lo contrario - bousting no es omnipotente, especialmente fuera de la caja.

Creo que no es un problema de boosting, sino de variabilidad de datos. Intentaré entrenar con tus datos.
 
elibrarius #:
Creo que no es un problema de impulso, sino de variabilidad de los datos. Intentaré entrenar con tus datos.

Por supuesto, no es el algoritmo en sí, sino los datos.

Inténtalo y a ver qué encuentras.

La muestra es relativamente única en el sentido de que es difícil entrenarse en ella para que algo funcione fuera del entrenamiento.

Todavía estoy experimentando con ella.

 
Aleksey Vyazmikin #:

La muestra es relativamente única en el sentido de que es difícil entrenarse en algo que funcionaría fuera del entrenamiento.

¿Por qué es única? Los datos de mercado no suelen funcionar fuera del entrenamiento. Te he hecho un par de preguntas

 
elibrarius #:

¿Es eso único? Fuera de la formación, los datos de mercado no suelen funcionar. Te hice un par de preguntas allí

Bueno, no funcionan, suelen funcionar, pero no muy bien.

La peculiaridad aquí es que el modelo CatBoost prefiere asignar a todos los ejemplos una probabilidad inferior a 0,5 - por lo que no clasifica el objetivo "1", y lo que está entre 0 y 0,5 tampoco está muy bien distribuido - hay capturas de pantalla del modelo en el hilo.

 
Aleksey Vyazmikin #:

La peculiaridad aquí es que el modelo CatBoost prefiere asignar a todos los ejemplos una probabilidad inferior a 0,5 - por lo que no clasifica el objetivo "1", y lo que está entre 0 y 0,5 también está muy mal distribuido - hay capturas de pantalla del modelo en el hilo.

La peculiaridad aquí es que parece haber un fuerte desequilibrio de clases, si para 100 ejemplos hay 5 etiquetas de una clase y 95 etiquetas de otra clase, ¿cómo puede el modelo dar más de 0,5 de probabilidad para la primera clase? Esto no es una pregunta al modelo, es una pregunta al autor del conjunto de datos...?

 
mytarmailS #:

La peculiaridad es que parece haber un fuerte desequilibrio de clases, si para 100 ejemplos hay 5 marcas de una clase y 95 marcas de otra, ¿cómo puede el modelo dar más de 0,5 de probabilidad para la primera clase?... no es una pregunta al modelo, es una pregunta al autor del conjunto de datos.

Hay más de un 30% de primera clase. Y, sí, se puede, no veo el problema. Basta con encontrar una regla que tenga más probabilidades de predecir "1" que "0", aunque sea raramente.

Además, nadie impide cambiar el conjunto de datos equilibrando las clases.
 
Aleksey Vyazmikin #:

Hay más de un 30% en primera clase. Y, sí, tal vez, no veo el problema. Basta con encontrar una regla que tenga más probabilidades de predecir "1" que "0", aunque sea raramente.

Además, nadie puede cambiar el conjunto de datos equilibrando las clases.

Usted se quejaba de catbust, y catbust no es una tree\rule\list.

Razón de la queja: