Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 29
Está perdiendo oportunidades comerciales:
- Aplicaciones de trading gratuitas
- 8 000+ señales para copiar
- Noticias económicas para analizar los mercados financieros
Registro
Entrada
Usted acepta la política del sitio web y las condiciones de uso
Si no tiene cuenta de usuario, regístrese
He dibujado un gráfico de R^2 y del porcentaje de casos ganadores en función del número de componentes utilizados. El mejor resultado en la prueba frontal fue con 41 componentes (ganancia de alrededor del 70%, muy buena). Pero eso no se nota en los gráficos de backtest, simplemente siguen subiendo todo el tiempo. Si nos basamos en la importancia de los componentes, deberíamos haber tomado 73, que no es el mejor resultado en el fronttest.
R^2 de fronttest puede ser negativo incluso con >50% de ganancia, debido a los resultados requeridos desequilibrados, el número de clases "0" es diferente de "1", por lo que su promedio no es 0,5, y R^2 es un poco peor de eso.
Si es el caso, adjunto mi conjunto de datos (clasificación binaria).
Hay nueve parámetros de entrada (al principio), todos ellos informativos, y un parámetro de salida (en la columna de la derecha).
Si la salida es 1 entonces la diferencia de precio de apertura de la siguiente barra es positiva, si es 0 entonces es negativa.
La cuestión de interés es, ¿cuál tendrá mejor capacidad de generalización que mi algoritmo?
Como es la primera vez, adjunto mi conjunto de datos.
Hay nueve parámetros de entrada (al principio), todos ellos informativos, y un parámetro de salida (en la columna de la derecha).
Si la salida es 1, entonces la diferencia de precio de apertura de la siguiente barra es positiva, si es 0, entonces es negativa.
Me interesa la pregunta, ¿quién tiene mejor capacidad de generalización que mi algoritmo?
1. ¿Cómo se demuestra la "informatividad de los predictores"?
2. ¿Qué es la "generalizabilidad"?
1. ¿Cómo se demuestra la "informatividad del predictor"?
2. ¿Qué es la "generalizabilidad"?
1. Un marcado deterioro de la generalizabilidad si se elimina al menos un predictor informativo de la muestra
2. Ver vídeo:
1. Deterioro marcado de la generalizabilidad si se elimina al menos un predictor informativo de la muestra
2. Ver vídeo:
Yuri, hola. Intentaré revisar sus datos.
Saludos.
Si te interesan los datos, puedo diseñar un script que recoja la información de los gráficos y la escriba en un archivo.
1. Deterioro marcado de la generalizabilidad si se elimina al menos un predictor informativo de la muestra
2. Ver vídeo:
2. Ver vídeo:
Lo siento, pero la tontería habitual de un inculto estudiante de doctorado al que todavía no se le ha explicado que hay mucha otra gente además de su amado que no sólo lo sabe todo, no sólo ha avanzado mucho más, sino que lo ha implementado en algoritmos que usan millones de personas (si se incluyen aquí los estudiantes)
1. Un notable deterioro de la generalizabilidad si se elimina al menos un predictor informativo de la muestra
Créame, desgraciadamente esto no demuestra nada. Además, si el conjunto de predictores es malo (mucho ruido), este efecto será más fuerte cuanto más ruido haya. Esto se explica de forma muy sencilla: cuanto más ruido, más fácil es para el algoritmo encontrar un valor "conveniente".
En cuanto al problema en general.
Hay un número bastante grande de algoritmos que determinan la importancia de los predictores para una determinada variable objetivo. Estos algoritmos pueden dividirse en dos grupos: los que están integrados en el algoritmo de construcción del modelo y los que existen de forma autónoma. En mi opinión y en la de la gente de la rama y del enlace que he citado aquí, todos estos algoritmos adolecen de un fallo común: si hay un cierto número crítico de predictores ruidosos entre los predictores, el algoritmo deja de funcionar y además empieza a descartar predictores que son relevantes para la variable objetivo.
Por eso, en la sucursal tratamos de limpiar preliminarmente el conjunto inicial de predictores, y luego trabajamos con el resto de los predictores utilizando métodos estándar.
En cuanto a su expediente.
1. No he podido construir 6 modelos de clasificación con sus datos: errores superiores al 50%. Si quieres puedo publicar los resultados aquí
2. La razón de este resultado es que tiene un conjunto muy pobre de predictores - ruido, es decir, predictores no relevantes para la variable objetivo. Los predictores 6, 7 y 8 tienen cierto poder predictivo, pero muy poco. No trabajo con esos predictores. Los otros son sólo ruido.
PS.
Si realmente te interesa el tema, caret. Una vez que lo domines, le enseñarás al tipo inteligente del video. Caret tiene casi 200 modelos + funciones de preparación muy útiles + dos algoritmos de selección de predictores muy buenos.
PPSS.
Una vez en un foro publiqué mi visión de lo que significa "el predictor es relevante para la variable objetivo"
Así que.
Tomemos la variable objetivo: hombre/mujer.
Predictor: ropa.
Si el predictor (ropa) sólo contiene faldas y pantalones, entonces para la población de una serie de países este predictor será 100% relevante para la variable objetivo - interambigua. Pero la ropa tiene diferentes variedades y de mayor variedad. Por lo tanto, no el 100%, sino menos. Es decir, obtenemos que un conjunto de prendas puede tener una relación con la variable objetivo, y otro conjunto puede, en principio, no tener ninguna relación. Es decir, el ruido. Por lo tanto, el problema es cómo encontrar esos predictores NO ruidosos que serán ruido en una ventana y no en otra. ¿Y cuál es la medida de este "ruido"?
Saludos.
Si te interesan los datos, puedo publicar un script que recoge la información de los gráficos y la escribe en un archivo.
Yo también tengo una pregunta. ¿Debo construir un predictor en el tren y medir el error en la prueba? Y podemos compararlo con su resultado, ¿verdad?
Colegas, si tienen tiempo, ¿pueden hacerme preguntas en el artículo?https://habrahabr.ru/company/aligntechnology/blog/303750/
¡Habr no dice nada!