Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 91
un paquete que selecciona las BPs que se pueden predecir y las que no, si he entendido bien
http://www.gmge.org/2012/05/foreca-forecastable-component-analysis/
http://www.gmge.org/2015/01/may-the-forec-be-with-you-r-package-foreca-v0-2-0/
Y todos los que vengan. En el archivo z1 hay dos archivos, el de entrenamiento y el de prueba. Para el objetivo, construya el modelo en el entrenamiento, aplíquelo a la prueba, publique los resultados en % (predicción exitosa)
de casos) para ambas muestras (tren = xx%, prueba = xx%). No es necesario anunciar los métodos y los modelos, sólo los números. Se permite cualquier manipulación de datos
y métodos de extracción.
1. Todos sus predictores no tienen poder de predicción - todos sin excepción son ruido
2. Se construyeron tres modelos: rf, ada, SVM. Estos son los resultados
rf
Llama:
randomForest(fórmula = TFC_Target ~ ,
data = crs$dataset[crs$sample, c(crs$input, crs$target)],
ntree = 500, mtry = 3, importance = TRUE, replace = FALSE, na.action = randomForest::na.roughfix)
Tipo de bosque aleatorio: clasificación
Número de árboles: 500
Número de variables probadas en cada división: 3
Estimación de la tasa de error OOB: 49,71%.
Matriz de confusión:
[0, 0] (0, 1] class.error
[0, 0] 197 163 0.4527778
(0, 1] 185 155 0.5441176
ada
Llama:
ada(TFC_Target ~ ., data = crs$dataset[crs$train, c(crs$input,
crs$target)], control = rpart::rpart.control(maxdepth = 30,
cp = 0,01, minsplit = 20, xval = 10), iter = 50)
Pérdida: exponencial Método: discreto Iteración: 50
Matriz de confusión final para los datos:
Predicción final
Valor real (0,1] [0,0]
(0,1] 303 37
[0,0] 29 331
Error del tren: 0,094
Error fuera de bolsa: 0,157 iteración= 50
SVM
Resumen del modelo SVM (construido con ksvm):
Objeto de la máquina de vectores de apoyo de la clase "ksvm"
Tipo de SV: C-svc (clasificación)
parámetro : coste C = 1
Función de núcleo de base radial gaussiana.
Hiperparámetro : sigma = 0,12775132444179
Número de vectores de apoyo : 662
Valor de la función objetivo : -584,3646
Error de formación : 0,358571
Modelo de probabilidad incluido.
Tiempo empleado: 0,17 segundos.
En el juego de prueba (me refiero a la matraca, no a la tuya)
Matriz de errores del modelo Ada Boost en test.csv [validar] (recuentos):
Predicción
Real (0,1] [0,0]
[0,0] 33 40
(0,1] 35 42
Matriz de errores del modelo Ada Boost en test.csv [validar] (proporciones):
Predicción
Real (0,1] [0,0] Error
[0,0] 0.22 0.27 0.55
(0,1] 0.23 0.28 0.45
Error global: 50%, Error medio de clase: 50%.
Rattle timestamp: 2016-08-08 15:48:15 user
======================================================================
Matriz de error para el modelo Random Forest en test.csv [validar] (recuentos):
Predicción
Actual [0,0] (0,1]
[0,0] 44 29
(0,1] 44 33
Matriz de errores del modelo Random Forest en test.csv [validar] (proporciones):
Predicción
Real [0,0] (0,1] Error
[0,0] 0.29 0.19 0.40
(0,1] 0.29 0.22 0.57
Error global: 49%, Error medio de clase: 48%.
Rattle timestamp: 2016-08-08 15:48:15 user
======================================================================
Matriz de error del modelo SVM en test.csv [validar] (recuentos):
Predicción
Actual [0,0] (0,1]
[0,0] 41 32
(0,1] 45 32
Matriz de error del modelo SVM en test.csv [validar] (proporciones):
Predicción
Real [0,0] (0,1] Error
[0,0] 0.27 0.21 0.44
(0,1] 0.30 0.21 0.58
Error global: 51%, Error medio de clase: 51%.
Rattle timestamp: 2016-08-08 15:48:15 user
Análisis ROC para randomforest
Confirma lo anterior.
Conclusión.
Su conjunto de predictores no tiene remedio.
Lo he leído, por la descripción es un muy buen paquete (ForeCA, incluso está en el repositorio de R, no hace falta descargar nada de githab). La característica principal es que califica la "previsibilidad" de los datos.
Y además esto, que también es importante, se puede aplicar para reducir la dimensionalidad de los datos. Es decir, a partir de los predictores existentes, este paquete creará dos nuevos, con una previsibilidad sorprendentemente buena. Al mismo tiempo, eliminará la basura, etc. Me recuerda al método de componentes principales, pero en lugar de componentes hará algo propio.
Muy sencillo: dé a este paquete una tabla con muchos predictores (precios, indicadores, deltas, basura, etc.). ForeCA dará una nueva tabla en lugar de la original. Esta nueva tabla se utiliza para entrenar el modelo predictivo (gbm, rf, nnet, etc.).
En una nota un poco más compleja, este es otro paquete de conversión de datos nucleares, con un sesgo bursátil.
Todo suena muy bien, sencillo, incluso demasiado bien, tendré que comprobarlo.
Muy curioso.
El paquete está instalado, la documentación está disponible.
¿Quizás alguien lo pruebe y publique el resultado?
¿No se necesitaría una preselección?
¡Chicos, seguid con ello!
Conclusión.
Su conjunto de predictores no tiene remedio.
Estamos esperando más resultados. Me pregunto qué conclusiones sacará Mihail Marchukajtes.
OK)))) pero lee las condiciones cuidadosamente -
Estamos esperando más resultados. Me pregunto qué conclusiones sacará Mihail Marchukajtes.
¡la prueba es innecesaria!
El modelo no puede ser entrenado. No se puede probar un espacio vacío.
He leído la descripción y parece un paquete muy bueno (ForeCA, ..............