Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 2804

 
mytarmailS #:

No tiene sentido

¿Crees que esa muestra no tiene sentido?

 
Aleksey Vyazmikin #:

CatBoost elige aleatoriamente el número de predictores en cada iteración de división o construcción del árbol - depende de la configuración, y significa que los predictores fuertemente correlacionados tienen más posibilidades de entrar al azar, es decir, no en ellos, sino en la información que llevan.

Sí, y los creadores de boosts no lo saben...

Tampoco saben que es posible filtrar señales por correlación))) cómo lo van a saber, el método sólo tiene 50 años))))

¿de verdad crees que sabes más que ellos?

Aleksey Vyazmikin #:

¿Crees que la muestra no tiene remedio?

Claro... Boost lo tiene todo en cuenta.

Y no me lo tomes a mal, seguro que soy más joven que tú ;).

 
Aleksey Vyazmikin #:

¿Crees que esa muestra no tiene remedio?

https://datascience.stackexchange.com/questions/12554/does-xgboost-handle-multicollinearity-by-itself


Los árboles de decisión son intrínsecamente inmunes a la multicolinealidad. Por ejemplo, si tiene 2 funciones ,

que están correlacionadas al 99%, el árbol sólo elegirá una de ellas al tomar una decisión de partición. Otros modelos,

como la regresión logística, utilizarán ambas funciones.

Dado que los árboles bousting utilizan árboles de decisión separados, tampoco se ven afectados por la multicolinealidad.

========

puede utilizar este enfoque, evaluar la importancia de cada función y mantener sólo las mejores funciones para su modelo final.


Que es en realidad lo que te estoy diciendo antes

Does XGBoost handle multicollinearity by itself?
Does XGBoost handle multicollinearity by itself?
  • 2016.07.02
  • ope ope 1,653 3 3 gold badges 16 16 silver badges 27 27 bronze badges
  • datascience.stackexchange.com
I'm currently using XGBoost on a data-set with 21 features (selected from list of some 150 features), then one-hot coded them to obtain ~98 features. A few of these 98 features are somewhat redundant, for example: a variable (feature) $A$ also appears as $\frac{B}{A}$ and $\frac{C}{A}$. My questions are : From what I understand, the model is...
 
mytarmailS #:

Sí, y los creadores de potenciadores así no lo saben....

Tampoco saben que es posible filtrar los signos por correlación)) cómo iban a saberlo, el método sólo tiene 50 años)))

¿De verdad crees que sabes más que ellos?

Lo creo. Boost lo tiene todo en cuenta.

Y no me vengas con esa mierda, probablemente soy más joven que tú).

Analizo los resultados de los modelos y veo que cogen predictores muy correlacionados, por ejemplo predictores basados en el tiempo, aunque tengan un pequeño desfase.

Creo que lo saben todo perfectamente, pero tampoco deberían hablarte de tópicos que tienen décadas de antigüedad....

Sobre "Tú" o "Usted" - creo que es mejor para cada uno llamar al interlocutor como le convenga, si no conlleva un mensaje ofensivo y no impide un diálogo constructivo.


mytarmailS #:

https://datascience.stackexchange.com/questions/12554/does-xgboost-handle-multicollinearity-by-itself


Los árboles de decisión son intrínsecamente inmunes a la multicolinealidad. Por ejemplo, si tienes 2 funciones,

que están correlacionadas al 99%, el árbol elegirá sólo una de ellas a la hora de decidir si dividir. Otros modelos,

como la regresión logística, utilizarán ambas funciones.

Dado que los árboles bousting utilizan árboles de decisión independientes, tampoco se ven afectados por la multicolinealidad.

========

puede utilizar este enfoque, evaluar la importancia de cada característica y conservar sólo las mejores características para su modelo final.


Que es en realidad lo que te estoy diciendo antes

Esa es la cuestión, elegirá - sí una, pero cuántas veces pasará esta elección....

Además CatBoost tiene algunas diferencias con xgboost, y hay diferentes resultados en diferentes muestras, en promedio CatBoost es más rápido e incluso mejor, pero no siempre.

 

Además, tengo mi propio método para agrupar predictores similares y seleccionar la mejor opción entre ellos, y necesito un grupo de control en forma de correlación...

 
El script funciona - supongo que tendré que dejarlo de un día para otro....
 
Aleksey Vyazmikin #:

CatBoost elige aleatoriamente el número de predictores en cada iteración de división o construcción del árbol - depende de la configuración, y significa que los predictores fuertemente correlacionados tienen más posibilidades de entrar al azar, es decir, no en ellos, sino en la información que llevan.

¿Estás seguro de que está eligiendo predictores al azar? No estaba catbustando, estaba mirando el código de los ejemplos básicos de bousting. Ahí se usan todos los predictores. Es decir, se coge el mejor. El correlacionado será el siguiente, pero ligeramente peor. Pero en algunos otros niveles de división o en árboles de corrección, otro de los predictores correlacionados puede ser mejor.

 
Aleksey Vyazmikin agrupar predictores similares y seleccionar la mejor variante entre ellos, y necesito un grupo de control en forma de correlación.....
Así que dame un par de fórmulas informativas para probar.
 
https://habr.com/ru/post/695276/ puede ser útil/interesante para algunas personas
Хитрые методики сэмплинга данных
Хитрые методики сэмплинга данных
  • 2022.10.27
  • habr.com
Любой, кто хоть раз обучал нейронки, знает, что принято на каждой эпохе шаффлить датасет, чтобы не повторялся порядок батчей. А зачем это делать? Обычно это объясняют тем, что шаффлинг улучшает генерализацию сетей, делает точнее эстимейт градиента на батчах и уменьшает вероятность застревания SGD в локальных минимумах. Здесь можно посмотреть...
 

A veces es útil superponer el gráfico de saldos (azul) al gráfico de precios (naranja)

En este caso se ve claramente, por ejemplo, que el modelo lleva 10 años ganando sólo en un mercado bajista.

El modelo más refinado también aprende a ganar sobre todo en las caídas, pero gana menos en las subidas y las consolidaciones. Como el mercado ha estado cayendo durante los 10 años, la muestra de entrenamiento está sesgada.