Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 87

 
SanSanych Fomenko:

Todos los paquetes (modelos) pueden dividirse en dos categorías:

  • básicamente bueno
  • no encajan en principio.

El rendimiento de los paquetes que son "básicamente buenos" es más o menos el mismo, las diferencias no son significativas.

El problema no está en el modelo, sino en el conjunto de predictores y su precondición. Si tomamos algún conjunto de predictores, la posibilidad de construir un modelo NO sobreentrenado, así como la magnitud del error depende poco del cambio en el modelo. Por lo tanto, hay que tomar el modelo más sencillo y rápido de los que "en principio encajan".

PS.

Por mi propia experiencia. En mi caso, más del 75% de la mano de obra en la construcción de TS - es la selección de predictores, si es que se consigue recoger un conjunto de este tipo para una variable objetivo en particular.

San Sanych, hola.

Y si por su método para 3 intervalos de datos no intersecados obtenemos valores predictores diferentes, entonces son no estacionarios (ruido, etc.) ¿debemos seguir?

 
SanSanych Fomenko:

Todos los paquetes (modelos) pueden dividirse en dos categorías:

  • básicamente bueno
  • no encajan en principio.

El rendimiento de los paquetes que son "básicamente buenos" es más o menos el mismo, las diferencias no son significativas.

El problema no está en el modelo, sino en el conjunto de predictores y su precondición. Si tomamos algún conjunto de predictores, la posibilidad de construir un modelo NO sobreentrenado, así como la magnitud del error depende poco del cambio en el modelo. Por lo tanto, hay que tomar el modelo más sencillo y rápido de los que "en principio encajan".

PS.

Por mi propia experiencia. En mi opinión, más del 75% de la mano de obra en la construcción de CT es la selección de predictores, si es que es posible elegir un conjunto de este tipo para una variable objetivo concreta.

Qué modelos, de qué estás hablando... es como si una persona preguntara "¿qué hora es?" y la respuesta es "¿qué quieres que baile?":)

Nunca, por favor, nunca más, es más fácil escribir 10 líneas de texto que leer dos líneas de preguntas

 
mytarmailS:

Quizás a alguien le interese, he encontrado un paquete que puede simular el trading y construir sistemas de trading llamado quantstrat

http://www.rinfinance.com/agenda/2013/workshop/Humme+Peterson.pdf

repost
 
Alexey Burnakov:

San Sanych, hola.

Pero si por su metodología obtenemos diferentes valores de predicción en 3 segmentos de datos no intersecados en el entrenamiento, entonces son no estacionarios (ruido, etc.) ¿debemos seguir?

La significación de los predictores se obtiene sólo una vez, cuando se entrena el modelo. Entonces este modelo es APLICABLE, no entrenable.
 
SanSanych Fomenko:
La relevancia del predictor sólo se obtiene una vez, cuando se entrena el modelo. Entonces ese modelo es APLICABLE, no enseñado.
Hay que enseñarlo varias veces allí, si no recuerdo mal.
 
Alexey Burnakov:
Hay que enseñarlo varias veces, según recuerdo.

¡No puede ser!

Una vez más.

1. tomamos una gran cantidad de predictores de series temporales, por ejemplo 10 000 observaciones (líneas).

2. Lo dividimos en dos partes, estrictamente mecánicas: 7000 primera parte y 3000 segunda parte.

3. Dividimos la primera parte en tres partes al azar: para el entrenamiento, la prueba y la validación

4. Enseñamos (fit - ajuste) el modelo en la muestra de entrenamiento.

5. Aplicar el modelo entrenado a las muestras de prueba y validación.

6. Si en las tres muestras -entrenamiento, prueba y validación- el error es aproximadamente igual, entonces la cláusula 7.

7. Aplique el modelo en la segunda parte, que es una serie temporal ininterrumpida en su secuencia temporal.

8. Si el error en esta parte también es aproximadamente igual a los tres anteriores, entonces:

  • este conjunto de predictores no conduce a un reentrenamiento del modelo
  • el error que se obtuvo en los CUATRO conjuntos (tres aleatorios y uno secuencial) y es un error muy difícil de reducir mediante el ajuste del modelo.
El rendimiento del error de mi modelo es el siguiente: ada, randomforest, SVM y sus muchas variedades. nnet es mucho peor.

 
SanSanych Fomenko:

¡No puede ser!

Una vez más.

1. tomar un gran número de predictores de series temporales, por ejemplo, 10.000 observaciones (líneas)

2. Lo dividimos en dos partes, estrictamente mecánicas: 7000 primera parte y 3000 segunda parte.

3. Dividimos la primera parte en tres partes al azar: para el entrenamiento, la prueba y la validación

4. Enseñamos (fit - ajuste) el modelo en la muestra de entrenamiento.

5. Aplicar el modelo entrenado a las muestras de prueba y validación.

6. Si en las tres muestras -entrenamiento, prueba y validación- el error es aproximadamente igual, entonces la cláusula 7.

7. Aplique el modelo sobre la segunda parte, que es una serie temporal ininterrumpida en su secuencia temporal.

8. Si el error en esta parte también es aproximadamente igual a los tres anteriores, entonces:

  • este conjunto de predictores no conduce a un reentrenamiento del modelo
  • el error que se obtuvo en los CUATRO conjuntos (tres aleatorios y uno secuencial) y es un error que es muy difícil de reducir mediante el ajuste del modelo.
El rendimiento del error de mi modelo es el siguiente: ada, randomforest, SVM y sus muchas variedades. nnet es mucho peor.

Aquí tienes. Gracias.

Tengo resultados mucho mejores en el entrenamiento que en otras muestras. Y en la validación cruzada el resultado es mucho más cercano al final fuera de la muestra.

Creo que tu tesis de la igualdad de errores en todas las muestras habla del modelo underfit. Es decir, es lo mismo en todas partes.
 
Alexey Burnakov:
.... Es decir, en todas partes es igual de malo.

Lo de "más o menos" es sólo una falta de cerebro y de tiempo.

Hay que empezar con la variable objetivo y luego seleccionar los predictores para ella, y luego volver a comprobar con las matemáticas, más o menos. De todos modos, el proceso es lento y no puedo formalizarlo.

 
SanSanych Fomenko:

Más o menos - no hay suficiente cerebro y tiempo.

Hay que empezar con la variable objetivo, y luego hay que emparejarla con los predictores, y luego volver a comprobarlos con las matemáticas, por así decirlo. En cualquier caso, el proceso es doloroso y no es formalizable para mí.

Especialmente en términos de significado es tortuoso. No me refiero a eso.

Si eres igual de bueno en todas partes, es un logro. Pero la mayoría de las veces será igual de malo, lo que le permite un modelo débil.
 
el hilo parece estar muerto....
Razón de la queja: