Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 91

 
ForeCA: Forecastable Component Analysis
  • 2012.05.22
  • Georg
  • www.gmge.org
Forecastable component analysis (ForeCA) is a novel dimension reduction (DR) technique to find optimally forecastable signals from multivariate time series (published at JMLR). ForeCA works similar to PCA or ICA, but instead of finding high-variance or statistically independent components, it finds forecastable linear combinations. ForeCA is...
 
Vizard_:
Y todos los que vengan. En el archivo z1 hay dos archivos, el de entrenamiento y el de prueba. Para el objetivo, construya el modelo en el entrenamiento, aplíquelo a la prueba, publique los resultados en % (predicción exitosa)
de casos) para ambas muestras (tren = xx%, prueba = xx%). No es necesario anunciar los métodos y los modelos, sólo los números. Se permite cualquier manipulación de datos
y métodos de extracción.

1. Todos sus predictores no tienen poder de predicción - todos sin excepción son ruido

2. Se construyeron tres modelos: rf, ada, SVM. Estos son los resultados

rf

Llama:

randomForest(fórmula = TFC_Target ~ ,

data = crs$dataset[crs$sample, c(crs$input, crs$target)],

ntree = 500, mtry = 3, importance = TRUE, replace = FALSE, na.action = randomForest::na.roughfix)


Tipo de bosque aleatorio: clasificación

Número de árboles: 500

Número de variables probadas en cada división: 3


Estimación de la tasa de error OOB: 49,71%.

Matriz de confusión:

[0, 0] (0, 1] class.error

[0, 0] 197 163 0.4527778

(0, 1] 185 155 0.5441176

ada

Llama:

ada(TFC_Target ~ ., data = crs$dataset[crs$train, c(crs$input,

crs$target)], control = rpart::rpart.control(maxdepth = 30,

cp = 0,01, minsplit = 20, xval = 10), iter = 50)


Pérdida: exponencial Método: discreto Iteración: 50


Matriz de confusión final para los datos:

Predicción final

Valor real (0,1] [0,0]

(0,1] 303 37

[0,0] 29 331


Error del tren: 0,094


Error fuera de bolsa: 0,157 iteración= 50

SVM

Resumen del modelo SVM (construido con ksvm):


Objeto de la máquina de vectores de apoyo de la clase "ksvm"


Tipo de SV: C-svc (clasificación)

parámetro : coste C = 1


Función de núcleo de base radial gaussiana.

Hiperparámetro : sigma = 0,12775132444179


Número de vectores de apoyo : 662


Valor de la función objetivo : -584,3646

Error de formación : 0,358571

Modelo de probabilidad incluido.


Tiempo empleado: 0,17 segundos.

En el juego de prueba (me refiero a la matraca, no a la tuya)

Matriz de errores del modelo Ada Boost en test.csv [validar] (recuentos):


Predicción

Real (0,1] [0,0]

[0,0] 33 40

(0,1] 35 42


Matriz de errores del modelo Ada Boost en test.csv [validar] (proporciones):


Predicción

Real (0,1] [0,0] Error

[0,0] 0.22 0.27 0.55

(0,1] 0.23 0.28 0.45


Error global: 50%, Error medio de clase: 50%.


Rattle timestamp: 2016-08-08 15:48:15 user

======================================================================

Matriz de error para el modelo Random Forest en test.csv [validar] (recuentos):


Predicción

Actual [0,0] (0,1]

[0,0] 44 29

(0,1] 44 33


Matriz de errores del modelo Random Forest en test.csv [validar] (proporciones):


Predicción

Real [0,0] (0,1] Error

[0,0] 0.29 0.19 0.40

(0,1] 0.29 0.22 0.57


Error global: 49%, Error medio de clase: 48%.


Rattle timestamp: 2016-08-08 15:48:15 user

======================================================================

Matriz de error del modelo SVM en test.csv [validar] (recuentos):


Predicción

Actual [0,0] (0,1]

[0,0] 41 32

(0,1] 45 32


Matriz de error del modelo SVM en test.csv [validar] (proporciones):


Predicción

Real [0,0] (0,1] Error

[0,0] 0.27 0.21 0.44

(0,1] 0.30 0.21 0.58


Error global: 51%, Error medio de clase: 51%.


Rattle timestamp: 2016-08-08 15:48:15 user

Análisis ROC para randomforest

Confirma lo anterior.

Conclusión.

Su conjunto de predictores no tiene remedio.

 
Alexey Burnakov:Así que nos entrenamos hasta la saciedad con el mejor modelo de tren. Quizás dos o tres modelos. Entonces su prueba única.
Sí, eso es exactamente lo que dice en las condiciones (construir un modelo en el tren, aplicarlo en la prueba).
 
mytarmailS:

un paquete que puede seleccionar los BPs que se pueden predecir y los que no, si he entendido bien

Lo he leído, por la descripción es un muy buen paquete (ForeCA, incluso está en el repositorio de R, no hace falta descargar nada de githab). La característica principal es que califica la "previsibilidad" de los datos.
Y además esto, que también es importante, se puede aplicar para reducir la dimensionalidad de los datos. Es decir, a partir de los predictores existentes, este paquete creará dos nuevos, con una previsibilidad sorprendentemente buena. Al mismo tiempo, eliminará la basura, etc. Me recuerda al método de componentes principales, pero en lugar de componentes hará algo propio.

Muy sencillo: dé a este paquete una tabla con muchos predictores (precios, indicadores, deltas, basura, etc.). ForeCA dará una nueva tabla en lugar de la original. Esta nueva tabla se utiliza para entrenar el modelo predictivo (gbm, rf, nnet, etc.).
En una nota un poco más compleja, este es otro paquete de conversión de datos nucleares, con un sesgo bursátil.

Todo suena muy bien, sencillo, incluso demasiado bien, tendré que comprobarlo.

 
mytarmailS:

un paquete que selecciona los BPs que se pueden predecir y los que no, si entiendo bien

http://www.gmge.org/2012/05/foreca-forecastable-component-analysis/

http://www.gmge.org/2015/01/may-the-forec-be-with-you-r-package-foreca-v0-2-0/

Muy curioso.

El paquete está instalado, la documentación está disponible.

¿Quizás alguien lo pruebe y publique el resultado?

 
Dr.Trader:

Lo he leído, por la descripción es un muy buen paquete (ForeCA, incluso está en el repositorio de R, no hace falta descargar algo de githab). La principal característica es que califica la "previsibilidad" de los datos.
Y además esto, que también es importante, se puede aplicar para reducir la dimensionalidad de los datos. Es decir, a partir de los predictores existentes, este paquete creará dos nuevos, con una previsibilidad sorprendentemente buena. Al mismo tiempo, eliminará la basura, etc. Me recuerda al método de componentes principales, pero en lugar de componentes hará algo propio.

Muy sencillo: dé a este paquete una tabla con muchos predictores (precios, indicadores, deltas, basura, etc.). ForeCA dará una nueva tabla en lugar de la original. Esta nueva tabla se utiliza para entrenar el modelo predictivo (gbm, rf, nnet, etc.).
Si bien es un poco más complicado, se trata de otro paquete para la transformación nuclear de datos, con un sesgo hacia el mercado de valores.

Todo suena muy bien, sencillo, incluso demasiado bien, tendré que comprobarlo.

¿No se necesitaría una preselección?

¡Chicos, seguid con ello!

 
SanSanych Fomenko:

Conclusión.

Su conjunto de predictores no tiene remedio.

OK)))) pero lee las condiciones cuidadosamente -
" resultados posteriores en % (casos predichos con éxito) para ambas muestras(tren = xx%, prueba = xx%). No es necesario especificar métodos y modelos, sólo números".
Estamos esperando más resultados. Me pregunto qué conclusiones sacará Mihail Marchukajtes.
 
Vizard_:
OK)))) pero lee las condiciones cuidadosamente -
" resultados posteriores en % (casos predichos con éxito) para ambas muestras(tren = xx%, prueba = xx%). No es necesario especificar métodos y modelos, sólo números".
Estamos esperando más resultados. Me pregunto qué conclusiones sacará Mihail Marchukajtes.

¡la prueba es innecesaria!

El modelo no puede ser entrenado. No se puede probar un espacio vacío.

 
Permíteme intentar..... Sólo vi....
 
Dr.Trader:

He leído la descripción y parece un paquete muy bueno (ForeCA, ..............

No entiendo cómo se calcula esta "previsibilidad" y si tiene algún sentido si no se tiene en cuenta el objetivo
Razón de la queja: