Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 2647

 
Está bien... canal normal con curvas e inclusiones extrañas, pero el canal es estable))))
 
Valeriy Yastremskiy #:
Está bien... canal normal con curvas e inclusiones extrañas, pero el canal es estable)))).
Esta es la discusión más útil y profesional en runet, se puede hacer un catecismo a la misma.
 
Aleksey Nikolayev #:

Me parece bastante normal que un algoritmo sencillo sólo funcione con una parte limitada del conjunto de predictores.

Se podría hacer una eliminación paso a paso de la muestra de lo que entra en las casillas "buenas" y aplicar el algoritmo al resto. En esencia, sería similar al bousting. Probablemente, se puede hacer de forma similar a randomforest - tomar un gran conjunto de predictores y para cada subconjunto encontrar varias cajas.

Si lo he entendido bien, el objetivo de combinar predictores es ordenar las casillas identificadas de forma que no se solapen entre sí y, si lo hacen, no empeoren significativamente el resultado, ¿no?

 
Maxim Dmitrievsky #:
Sólo te estoy tomando el pelo. Estoy diciendo las cosas como son.

Simplemente no has visto lo que hay detrás de las cámaras.

;)

 
Renat Akhtyamov #:

no has visto lo que hay detrás de las cámaras.

;)

Claro que sí, no hace mucho nos reíamos de tu mono.
 
Aleksey Vyazmikin #:

Si lo he entendido bien, el objetivo de combinar predictores es ordenar las casillas identificadas de forma que no se solapen entre sí y, si lo hacen, no empeoren significativamente el resultado, ¿verdad?

Creo que la cuestión de qué hacer con las casillas detectadas es compleja y difícilmente tiene reglas claras e inequívocas para todos los casos posibles. Un algoritmo bueno y bien pensado es probablemente un "know-how" bastante secreto)

Si los casos se obtienen con el mismo conjunto de predictores, su no intersección es probablemente suficiente. Si hay una intersección, puede asignarse a una casilla separada, y sus complementos pueden dividirse en varias casillas. Sin embargo, un número demasiado elevado de casillas fragmentará demasiado la muestra. Por lo tanto, podemos generalizar la noción de caja - en el lenguaje de las reglas, esto significa añadir negaciones y OR a AND.

Si las cajas se obtienen con predictores completamente distintos (por ejemplo, mediante el método randomforest), entonces sólo pueden solaparse en el sentido de las partes de la muestra que caen dentro de ellas. Es probable que en este caso se necesiten algunas ideas cercanas a la cartera.

Si los conjuntos de predictores se solapan parcialmente, entonces probablemente sea alguna mezcla de enfoques, es difícil decirlo con seguridad.

No tengo claro cómo se puede poner esto en un esquema unificado. La forma estándar de construir árboles de decisión de forma sencilla y "agradable" sortea estos problemas, lo que hace que no sea del todo adecuada para nuestros fines. Puede que sea posible mejorarlo seleccionando un algoritmo de poda, pero en mi opinión es mejor reelaborar creativamente el algoritmo de construcción de reglas.

 
Maxim Dmitrievsky #:
Lo he visto. Nos reíamos de tu mono no hace mucho.

Tiene sentido, incluso un teatro de marionetas tiene un backstage).

 
Aleksey Nikolayev #:

Tiene sentido, incluso el teatro de marionetas tiene un backstage)

:D

 
Aleksey Nikolayev #:

Creo que la cuestión de qué hacer con las casillas identificadas es compleja y difícilmente tiene reglas claras e inequívocas para todos los casos posibles. Un algoritmo bueno y bien pensado es probablemente un "saber hacer" bastante secreto).

Si los casos se obtienen con el mismo conjunto de predictores, su no intersección es probablemente suficiente. Si hay una intersección, puede asignarse a una casilla separada, y sus complementos pueden dividirse en varias casillas. Sin embargo, un número demasiado grande de casillas fragmentará demasiado la muestra. Por lo tanto, podemos generalizar la noción de caja; en el lenguaje de las reglas, esto significa añadir negaciones y OR a AND.

Si las cajas se obtienen con predictores completamente distintos (por ejemplo, mediante el método randomforest), entonces sólo pueden solaparse en el sentido de las partes de la muestra que caen dentro de ellas. Probablemente se necesiten aquí algunas ideas cercanas a la cartera.

Si los conjuntos de predictores se solapan parcialmente, entonces debe haber alguna mezcla de enfoques, es difícil decirlo con seguridad.

No tengo claro cómo se puede poner esto en un esquema unificado. La forma estándar de construir árboles de decisión sortea estos problemas de forma sencilla y "agradable", lo que hace que no sea del todo adecuada para nuestros fines. Puede que sea posible mejorarlo seleccionando un algoritmo de poda, pero en mi opinión es mejor reelaborar creativamente el algoritmo de construcción de reglas.

Conclusiones más inteligentes...

Los algoritmos out-of-the-box sólo tienen reglas aproximadas, es decir, tontas como el demonio, como:

X[1]>0.5 && X[3]> -0.2 &...

Sólo tienen variables (columnas de la matriz o marco X1.....X10) y límites abstractos (dígitos X[1]>0, 5 ), que él mismo inventa en el proceso de aprender a crear límites en las clases.

¿Qué pasa con el trivial X1 > X2

o la negación de X1 !> X2.

¿Y X1 > (X2*X3)?

¿Y la vinculación a índices, que no funciona en un mercado no estacionario?


Me refiero a la expresión: si había "A" pero no "B", entonces "C".

Simplemente no es para los algoritmos fuera de la caja.

El algoritmo es el mismo forrest sólo crea cientos de reglas y mira a su suma de probabilidad de clase. En el mercado nos preocupamos por eventos raros, así que tenemos que pasar a la cantidad de reglas, no el número de reglas.

 

Me pregunto cómo ve el algoritmo de reducción de la dimensionalidad las muestras con distintos tipos de datos con y sin normalización.

Por ejemplo, hay tipos de datos, cadena y dígitos.

q1           q2
1    c -1.630015623
2    c  1.781979246
3    b -0.598134088
4    a -0.611477494
5    b -0.347432530
6    b -0.474427356
7    e -1.048827859
.....

Primero convierto q1 en dígitos.

q1           q2
1    3 -1.630015623
2    3  1.781979246
3    2 -0.598134088
4    1 -0.611477494
5    2 -0.347432530
6    2 -0.474427356
7    5 -1.048827859

.... 

hecho

Ahora lo enviamos al algoritmo UMAP y obtenemos los vectores propios.

                  [,1]         [,2]
    [1,]   6.762433406   9.08787260
    [2,] -21.488330368  10.67183802
    [3,]   6.810413818   9.35273386
    [4,] -20.950310976  15.20258097
    [5,]  32.100723691  -9.74704393
    [6,]   6.892939805  16.84639975
    [7,] -17.096480607  -6.63144430

visualizar los puntos

Bonitos gusanos tenemos ))

Intentemos colorear los puntos con la variable q1.


Como podemos ver la variable q1 crea la estructura de estos gusanos, como que tira de la importancia sobre sí misma, reduciendo la contribución de la variable q2.

Esto se debe a que la variable q1 tiene valores grandes y los datos no están normalizados.

Si normalizamos los datos, cada variable hará la misma contribución y obtendremos

Entiendo que para algunos participantes esto es algo obvio, necesitamos normalizar bla bla bla,

pero ¿has pensado alguna vez que aumentando o disminuyendo la contribución de las variables puedes controlar la agrupación?

Razón de la queja: