Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 29

 
Dr.Trader:

He dibujado un gráfico de R^2 y del porcentaje de casos ganadores en función del número de componentes utilizados. El mejor resultado en la prueba frontal fue con 41 componentes (ganancia de alrededor del 70%, muy buena). Pero eso no se nota en los gráficos de backtest, simplemente siguen subiendo todo el tiempo. Si nos basamos en la importancia de los componentes, deberíamos haber tomado 73, que no es el mejor resultado en el fronttest.

R^2 de fronttest puede ser negativo incluso con >50% de ganancia, debido a los resultados requeridos desequilibrados, el número de clases "0" es diferente de "1", por lo que su promedio no es 0,5, y R^2 es un poco peor de eso.

Utilice la validación cruzada para recoger el número de componentes. El mejor valor en la validación cruzada se comprueba entonces en el conjunto de validación.
 

Si es el caso, adjunto mi conjunto de datos (clasificación binaria).

Hay nueve parámetros de entrada (al principio), todos ellos informativos, y un parámetro de salida (en la columna de la derecha).

Si la salida es 1 entonces la diferencia de precio de apertura de la siguiente barra es positiva, si es 0 entonces es negativa.

La cuestión de interés es, ¿cuál tendrá mejor capacidad de generalización que mi algoritmo?

Archivos adjuntos:
datasets.zip  21 kb
 
Yury Reshetov:

Como es la primera vez, adjunto mi conjunto de datos.

Hay nueve parámetros de entrada (al principio), todos ellos informativos, y un parámetro de salida (en la columna de la derecha).

Si la salida es 1, entonces la diferencia de precio de apertura de la siguiente barra es positiva, si es 0, entonces es negativa.

Me interesa la pregunta, ¿quién tiene mejor capacidad de generalización que mi algoritmo?

1. ¿Cómo se demuestra la "informatividad de los predictores"?

2. ¿Qué es la "generalizabilidad"?

 
SanSanych Fomenko:

1. ¿Cómo se demuestra la "informatividad del predictor"?

2. ¿Qué es la "generalizabilidad"?

1. Un marcado deterioro de la generalizabilidad si se elimina al menos un predictor informativo de la muestra

2. Ver vídeo:


 
Yury Reshetov:

1. Deterioro marcado de la generalizabilidad si se elimina al menos un predictor informativo de la muestra

2. Ver vídeo:


Yury, hola. Intentaré ver sus datos.
 
Alexey Burnakov:
Yuri, hola. Intentaré revisar sus datos.

Saludos.

Si te interesan los datos, puedo diseñar un script que recoja la información de los gráficos y la escriba en un archivo.

 
Yury Reshetov:

1. Deterioro marcado de la generalizabilidad si se elimina al menos un predictor informativo de la muestra

2. Ver vídeo:


2. Ver vídeo:

Lo siento, pero la tontería habitual de un inculto estudiante de doctorado al que todavía no se le ha explicado que hay mucha otra gente además de su amado que no sólo lo sabe todo, no sólo ha avanzado mucho más, sino que lo ha implementado en algoritmos que usan millones de personas (si se incluyen aquí los estudiantes)

1. Un notable deterioro de la generalizabilidad si se elimina al menos un predictor informativo de la muestra

Créame, desgraciadamente esto no demuestra nada. Además, si el conjunto de predictores es malo (mucho ruido), este efecto será más fuerte cuanto más ruido haya. Esto se explica de forma muy sencilla: cuanto más ruido, más fácil es para el algoritmo encontrar un valor "conveniente".

En cuanto al problema en general.

Hay un número bastante grande de algoritmos que determinan la importancia de los predictores para una determinada variable objetivo. Estos algoritmos pueden dividirse en dos grupos: los que están integrados en el algoritmo de construcción del modelo y los que existen de forma autónoma. En mi opinión y en la de la gente de la rama y del enlace que he citado aquí, todos estos algoritmos adolecen de un fallo común: si hay un cierto número crítico de predictores ruidosos entre los predictores, el algoritmo deja de funcionar y además empieza a descartar predictores que son relevantes para la variable objetivo.

Por eso, en la sucursal tratamos de limpiar preliminarmente el conjunto inicial de predictores, y luego trabajamos con el resto de los predictores utilizando métodos estándar.

En cuanto a su expediente.

1. No he podido construir 6 modelos de clasificación con sus datos: errores superiores al 50%. Si quieres puedo publicar los resultados aquí

2. La razón de este resultado es que tiene un conjunto muy pobre de predictores - ruido, es decir, predictores no relevantes para la variable objetivo. Los predictores 6, 7 y 8 tienen cierto poder predictivo, pero muy poco. No trabajo con esos predictores. Los otros son sólo ruido.

PS.

Si realmente te interesa el tema, caret. Una vez que lo domines, le enseñarás al tipo inteligente del video. Caret tiene casi 200 modelos + funciones de preparación muy útiles + dos algoritmos de selección de predictores muy buenos.

PPSS.

Una vez en un foro publiqué mi visión de lo que significa "el predictor es relevante para la variable objetivo"

Así que.

Tomemos la variable objetivo: hombre/mujer.

Predictor: ropa.

Si el predictor (ropa) sólo contiene faldas y pantalones, entonces para la población de una serie de países este predictor será 100% relevante para la variable objetivo - interambigua. Pero la ropa tiene diferentes variedades y de mayor variedad. Por lo tanto, no el 100%, sino menos. Es decir, obtenemos que un conjunto de prendas puede tener una relación con la variable objetivo, y otro conjunto puede, en principio, no tener ninguna relación. Es decir, el ruido. Por lo tanto, el problema es cómo encontrar esos predictores NO ruidosos que serán ruido en una ventana y no en otra. ¿Y cuál es la medida de este "ruido"?

 
Yury Reshetov:

Saludos.

Si te interesan los datos, puedo publicar un script que recoge la información de los gráficos y la escribe en un archivo.

Yo también tengo una pregunta. ¿Es necesario construir un predictor en un tren y medir el error en una prueba? Y podemos compararlo con su resultado, ¿verdad?
 
Alexey Burnakov:
Yo también tengo una pregunta. ¿Debo construir un predictor en el tren y medir el error en la prueba? Y podemos compararlo con su resultado, ¿verdad?
Mm-hmm.
 

Colegas, si tienen tiempo, ¿pueden hacerme preguntas en el artículo?https://habrahabr.ru/company/aligntechnology/blog/303750/

¡Habr no dice nada!

Методические заметки об отборе информативных признаков (feature selection)
Методические заметки об отборе информативных признаков (feature selection)
  • habrahabr.ru
Всем привет! Меня зовут Алексей Бурнаков. Я Data Scientist в компании Align Technology. В этом материале я расскажу вам о подходах к feature selection, которые мы практикуем в ходе экспериментов по анализу данных. В нашей компании статистики и инженеры machine learning анализируют большие объемы клинической информации, связанные с лечением...
Razón de la queja: