Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 2800

 
Sólo los NS necesitan equilibrado. Los modelos de madera no necesitan equilibrado.
 
mytarmailS #:

Te quejabas de los catbusters, y los catbusters no son de madera.

La queja no es sobre el algoritmo, es lo que es, sino sobre el hecho de que es mejor alimentarlo con datos ya masticados.

Antes lo has entendido de alguna manera....

Foro sobre trading, sistemas automatizados de trading y testeo de estrategias de trading.

Aprendizaje automático en trading: teoría, modelos, práctica y algo-trading

mytarmailS, 2016.10.29 11:22 pm.

situación hipotética....

Tenemos 100 predictores potenciales, para simplificar la explicación dejemos que sean indicadores.

Imaginemos que inicialmente sabemos que en todos estos predictores sólo hay una situación rentable, es cuando el RSI cruzó 90 y el estocástico acaba de quedar por debajo de cero (la situación desde el techo, por supuesto), esta situación da una caída del precio con una probabilidad del 90%, todos los demás predictores son ruido completo, todas las demás situaciones en los predictores R SI y estocástico son también ruido completo, y hay cientos y cientos de situaciones diferentes....

así que tenemos alrededor del 0,01% de señal útil frente al 99,9% de ruido.

Supongamos que, por algún milagro, su modus operandi elimina los 98 predictores y deja sólo dos: el RSI y el estocástico.

En RSI hay cientos de situaciones RSI>0, RSI>13, RSI<85, RSI=0, RSI<145, ............. y así cientos y cientos, en estocástico no hay menos situaciones, la situación de trabajo es sólo una, como entrenas a MO para que reconozca todos los movimientos del precio, MO construirá modelos teniendo en cuenta todas las posibles situaciones que existen en RSI y estocástico, y la probabilidad en esas situaciones de que funcionen es casi nula, pero MO está obligado a tenerlas en cuenta y construir algunos modelos sobre ellas, a pesar de que es el ruido real, y esa única situación de trabajo simplemente se perderá entre cientos de otras soluciones, ese es el reentrenamiento.....

¿Cómo lo has conseguido al final?


Justifica qué tienen que ver la representación del modelo y las proporciones del objetivo. Digo que el modelo puede representarse como una hoja modernizada: una regla.

 
elibrarius #:
Sólo los NS necesitan equilibrado. Los modelos de árbol no necesitan equilibrado.

En cualquier caso, los contadores dentro del algoritmo funcionan y toman decisiones sobre el número de objetivos asignados...

 
Aleksey Vyazmikin #:

La peculiaridad aquí es que el modelo CatBoost prefiere asignar a todos los ejemplos una probabilidad inferior a 0,5, por lo que no clasifica el objetivo "1", y lo que está entre 0 y 0,5 tampoco está muy bien distribuido.

Si tenemos 100 ejemplos del objetivo 5 etiquetas ("A") y 95 etiquetas ("B").

entonces el modelo no puede dar una probabilidad para la etiqueta "A" superior a 0,5.

En alguna regla individual sí puede, pero el post dice catbusto, y esto es un modelo (suma de predicciones de reglas), no una regla individual, y la suma no tendrá una probabilidad tan alta.


Aunque el modelo esté seguro de que es la marca "A". la suma de la probabilidad de las reglas de la marca "A" será anulada por la suma de las reglas de "B" porque las reglas de "B" serán mucho mayores.

 
elibrarius #:
Sólo los NS necesitan equilibrado. Los modelos de madera no necesitan equilibrado.

https://stats.stackexchange.com/questions/340854/random-forest-for-imbalanced-data

random forest for imbalanced data?
random forest for imbalanced data?
  • 2018.04.16
  • MSilvy MSilvy 139 1 1 silver badge 8 8 bronze badges
  • stats.stackexchange.com
I have a dataset where yes=77 and no=16000, a highly imbalanced dataset. My plan was to identify the most important variables influencing the response variable using random forest and then develop a logistic regression model using the selected variable. I am planning to use...
 
mytarmailS #:

si tenemos 5 puntos ("A") y 95 puntos ("B") por cada 100 ejemplos del objetivo

entonces el modelo no puede dar una probabilidad para la etiqueta "A" superior a 0,5

En alguna regla individual sí puede, pero el post dice catbusto, y esto es un modelo (suma de predicciones de reglas), no una regla individual, y la suma no tendrá una probabilidad tan alta.


Aunque el modelo esté seguro de que es la marca "A". la suma de la probabilidad de las reglas de la marca "A" será sobrepredicha por la suma de las reglas de "B" porque las reglas de "B" serán mucho mayores.

Todo depende de los predictores y del número de árboles del modelo.

No insisto en el modelo CatBoost para el entrenamiento.

 

https://www.mql5.com/ru/blogs/post/723619

77 de 16000 es demasiado poco. 77 ejemplos son difícilmente representativos.
La única opción es estudiar el árbol muy a fondo.

Нужна ли деревьям и лесам балансировка по классам?
Нужна ли деревьям и лесам балансировка по классам?
  • www.mql5.com
Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015 там есть несколько страниц посвященных этой теме. Вот итоговая: Отмеченный
 
elibrarius #:

https://www.mql5.com/ru/blogs/post/723619

77 de 16000 es demasiado poco. 77 ejemplos son difícilmente representativos.
La única opción es estudiar el árbol muy a fondo.

¿Qué tal el libro?
 
mytarmailS #:
¿Qué tal el libro?
Lo leí hace 4 años. La verdad es que ya no puedo decir nada sobre él. Copié una página en mi blog ya que era nuevo para mí y decidí que debía guardarlo como recuerdo. )
 

Por cierto, ¿alguien sabe cómo calcular la raíz del índice de Gini (entiendo cómo calcular la raíz, pero el índice de Gini en sí)? Preferiría un ejemplo en código. Sería interesante experimentar con él.
Como ya señalé en su momento "el índice de Giniy el coeficiente de Gini son cosas diferentes - no losconfundas ".
Para el coeficiente de Gini utilizamos un GSC, es decir, añadimos ruido. He adjuntado al artículo el código encontrado para calcular R y PY.
El índice es otra cosa.

Razón de la queja: