Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 364

 
Vladimir Perervenko:

Mira aquí.

A la hora de evaluar la importancia de los predictores, es importante recordar que se trata de una cantidad compleja, que no está determinada únicamente por criterios de información. y


A mi modo de ver, la importancia de los predictores determinada tanto por medios integrados en el algoritmo básico como por medios separados, no resuelve el problema, porque esta importancia es en realidad la frecuencia de uso del predictor durante la clasificación. Si los predictores incluyen los anillos de Saturno, los posos del café, el algoritmo utilizará también estos predictores.


He escrito muchas veces en este hilo y en otros hilos que los predictores deben "relacionarse" con la variable objetivo.

Le daré un ejemplo de nuevo.

La variable objetivo es hombre/mujer

Predictor: ropa.

En el caso de los países con costumbres estrictas, si el predictor consta de pantalones y faldas, se divide en dos subconjuntos no superpuestos, cada uno de los cuales identifica de forma exclusiva la variable objetivo, es decir, el error de clasificación es cero.

Si empezamos a incluir la ropa unisex o de estilo escocés en el predictor, se produce un solapamiento, que determinará el error de clasificación. En principio, no hay forma de eliminar este error.


No son sólo mis pensamientos, sino que en este hilo he dado enlaces a publicaciones con pensamientos similares.

 
SanSanych Fomenko:


En mi opinión, la importancia de los predictores, determinada por medios incorporados al algoritmo básico o por medios separados, no resuelve el problema, porque esta importancia es en realidad la frecuencia de uso de un predictor en la clasificación. Si los predictores incluyen los anillos de Saturno, los posos del café, el algoritmo utilizará también esos predictores.


He escrito muchas veces en este hilo y en otros hilos que los predictores deben "relacionarse" con la variable objetivo.

Le daré un ejemplo de nuevo.

La variable objetivo es hombre/mujer

Predictor: ropa.

En el caso de los países con costumbres estrictas, si el predictor consta de pantalones y faldas, se divide en dos subconjuntos no superpuestos, cada uno de los cuales identifica de forma exclusiva la variable objetivo, es decir, el error de clasificación es cero.

Si empezamos a incluir en el predictor la ropa unisex, o de estilo escocés, se produce un solapamiento, que determinará el error de clasificación. En principio, no hay forma de eliminar este error.


No son sólo mis pensamientos, sino que en este hilo he proporcionado enlaces a publicaciones con pensamientos similares.

La verdad es una, hay un millón de caminos hacia ella.

Todo el mundo tiene derecho a su propio camino. Lo más importante es que no se llegue a un callejón sin salida.

Buena suerte

 
Maxim Dmitrievsky:


Pero creo que es posible hacer un buen dispositivo de auto-optimización que no funcione perfectamente para siempre, pero que ocasionalmente dé

Pero está claro que no va a ser en indicadores estándar y una salida en zigzag :) A mí me parece incluso un juego de niños, aunque sea como ejemplo.

Yo también lo espero, pero estoy lejos de las ilusiones, que tenía hace 3 años, de que se pueda hacer configurando una docena de parámetros, clasificadores de bibliotecas populares. Resultó ser muy poco trivial y lento, sobre todo por las noches después del trabajo(((

ZZ es un mal objetivo, estoy completamente de acuerdo.

 
Vladimir Perervenko:

Al evaluar la importancia de los predictores, es importante recordar...

... la importancia de los predictores puede determinarse por sus pesos en la primera capa

elibrarius:

el algoritmo de cálculo de la importancia en esta función

Lo hago en dos pasos, primero trato con características PCA correlacionadas linealmente, por ejemplo, y luego construyo un modelo rico no lineal, por ejemplo, bosque o XGB, recorro las características (PCA comprimido) y choco aquellas sin las cuales el indicador disminuye menos
 

Instalado Open R, instalado todos los paquetes, VS 2017 todavía se cuelga al crear un proyecto R

Los proyectos de Python funcionan bien

Quité R Studio y R 3.4, dejando sólo Open R, y funciona ) Aparentemente, son conflictivos.

Y no tiene sentido R Studio, es lo mismo


 
¿Tendría sentido construir una correlación de las variables de entrada con el objetivo antes del entrenamiento? ¿Y eliminar las más descorrelacionadas, para acelerar el cálculo y aumentar el grado de aprendizaje?
 
elibrarius:
¿Tiene sentido construir una correlación de las variables de entrada con el objetivo antes del entrenamiento? ¿Y eliminar las más descorrelacionadas, para acelerar el cálculo y aumentar el grado de aprendizaje?
En realidad, deberías eliminar las entradas correlacionadas :) Si tienes entradas correlacionadas con el objetivo, entonces es un grial y no necesitas NS))
 
Hay un software interesante en Internet. Usted adivina mentalmente un personaje o personalidad popular y el ordenador, haciéndole preguntas específicas, puede predecir su pensamiento con alta probabilidad. Así es como se supone que funciona una red neuronal. El interrogatorio correcto. Ahí es donde reside el misterio.
 
elibrarius:
¿Tiene sentido construir una correlación de las variables de entrada con el objetivo antes del entrenamiento? ¿Y eliminar las más descorrelacionadas, para acelerar el cálculo y aumentar el grado de aprendizaje?

No es la correlación de las variables con el objetivo lo que debe comprobarse (debería), sino la falta de correlación entre las variables: no debería haber correlación (multicolinealidad).
 
Dmitry:

No debemos comprobar la correlación de las variables con el objetivo (debería haberla), sino que debemos comprobar que no hay correlación entre las variables: no debería haberla (multicolinealidad).

Ya he hecho la eliminación de las entradas correlacionadas, sólo me pregunto cómo más mejorar las entradas.

Entonces, estoy de acuerdo contigo en que debe haber correlación con el objetivo, por eso quiero eliminar adicionalmente las entradas más descorrelacionadas con el objetivo, por ejemplo con Kcorr<0,5 o 0,3. Esto debería acelerar el proceso de aprendizaje sin afectar demasiado a la calidad. Pero se supone que tendré que eliminar todas las entradas )))

En las entradas utilizadas (tomadas al azar de los indicadores tecnológicos), hasta ahora no he encontrado ninguna correlación con el objetivo, error de aprendizaje = 0,44, es decir, casi una moneda. Bueno, el balance está bajando.

Razón de la queja: