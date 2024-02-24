L'Apprentissage Automatique dans le trading : théorie, modèles, pratique et trading algo - page 91
un paquet qui sélectionne les BP qui peuvent être prédites et celles qui ne le peuvent pas, si j'ai bien compris
http://www.gmge.org/2012/05/foreca-forecastable-component-analysis/
http://www.gmge.org/2015/01/may-the-forec-be-with-you-r-package-foreca-v0-2-0/
Et tous ceux qui viennent. Dans l'archive z1 il y a deux fichiers train et test. Pour la cible, construire un modèle sur le train, l'appliquer au test, afficher les résultats en % (prédiction réussie).
des cas) pour les deux échantillons (train = xx%, test = xx%). Les méthodes et les modèles ne doivent pas être annoncés, mais seulement les chiffres. Toute manipulation de données est autorisée
et les méthodes d'exploitation minière.
1. Tous vos prédicteurs n'ont aucun pouvoir prédictif - tous, sans exception, sont du bruit.
2. Trois modèles ont été construits : rf, ada, SVM. Voici les résultats
rf
Appelez :
randomForest(formula = TFC_Target ~ ,
data = crs$dataset[crs$sample, c(crs$input, crs$target)],
ntree = 500, mtry = 3, importance = TRUE, replace = FALSE, na.action = randomForest::na.roughfix)
Type de forêt aléatoire : classification
Nombre d'arbres : 500
Nombre de variables essayées à chaque fractionnement : 3
Estimation par l'OOB du taux d'erreur : 49,71%.
Matrice de confusion :
[0, 0] (0, 1] class.error
[0, 0] 197 163 0.4527778
(0, 1] 185 155 0.5441176
ada
Appelez :
ada(TFC_Target ~ ., data = crs$dataset[crs$train, c(crs$input,
crs$target)], control = rpart::rpart.control(maxdepth = 30,
cp = 0,01, minsplit = 20, xval = 10), iter = 50)
Perte : exponentielle Méthode : discrète Itération : 50
Matrice de confusion finale pour les données :
Prédiction finale
Valeur réelle (0,1] [0,0]
(0,1] 303 37
[0,0] 29 331
Erreur du train : 0.094
Erreur de sortie de sac : 0.157 itération= 50
SVM
Résumé du modèle SVM (construit avec ksvm) :
Objet Support Vector Machine de la classe "ksvm".
Type de SV : C-svc (classification)
paramètre : coût C = 1
Fonction de noyau à base radiale gaussienne.
Hyperparamètre : sigma = 0.12775132444179
Nombre de vecteurs de soutien : 662
Valeur de la fonction objective : -584.3646
Erreur de formation : 0.358571
Modèle de probabilité inclus.
Durée : 0,17 seconde.
Sur le banc d'essai (je veux dire le hochet, pas le vôtre)
Matrice d'erreurs pour le modèle Ada Boost sur test.csv [valider] (comptes) :
Prédiction :
Réel (0,1) [0,0]
[0,0] 33 40
(0,1] 35 42
Matrice d'erreurs pour le modèle Ada Boost sur test.csv [valider] (proportions) :
Prévu
Réel (0,1) [0,0] Erreur
[0,0] 0.22 0.27 0.55
(0,1] 0.23 0.28 0.45
Erreur globale : 50%, erreur moyenne de classe : 50%.
Horodatage du hochet : 2016-08-08 15:48:15 utilisateur
======================================================================
Matrice d'erreurs pour le modèle Random Forest sur test.csv [valider] (comptes) :
Prévu
Réel [0,0] (0,1)
[0,0] 44 29
(0,1] 44 33
Matrice d'erreurs pour le modèle Random Forest sur test.csv [valider] (proportions) :
Prévu
Réel [0,0] (0,1) Erreur
[0,0] 0.29 0.19 0.40
(0,1] 0.29 0.22 0.57
Erreur globale : 49%, erreur moyenne de la classe : 48%.
Horodatage du hochet : 2016-08-08 15:48:15 utilisateur
======================================================================
Matrice d'erreur pour le modèle SVM sur test.csv [valider] (comptes) :
Prévu
Réel [0,0] (0,1)
[0,0] 41 32
(0,1] 45 32
Matrice d'erreurs pour le modèle SVM sur test.csv [valider] (proportions) :
Prévu
Réel [0,0] (0,1) Erreur
[0,0] 0.27 0.21 0.44
(0,1] 0.30 0.21 0.58
Erreur globale : 51%, erreur moyenne de la classe : 51%.
Horodatage du hochet : 2016-08-08 15:48:15 utilisateur
Analyse ROC pour randomforest
Confirme ce qui précède.
Conclusion.
Votre jeu de prédicteurs est sans espoir.
Je l'ai lu, d'après la description, c'est un très bon paquet (ForeCA, il est même dans le dépôt R, pas besoin de télécharger quoi que ce soit de githab). La principale caractéristique est qu'il évalue la "prévisibilité" des données.
Et en plus, ce qui est également important, peut être appliqué pour réduire la dimensionnalité des données. C'est-à-dire qu'à partir des prédicteurs existants, ce paquet en créera deux nouveaux, avec une prédictibilité étonnamment bonne. En même temps, il éliminera les déchets, etc. Cela me rappelle la méthode des composantes principales, mais au lieu de composantes, elle va créer quelque chose qui lui est propre.
Très simplement - donnez à ce paquet un tableau avec beaucoup de prédicteurs (prix, indicateurs, deltas, déchets, etc.). ForeCA donnera un nouveau tableau à la place du tableau original. Cette nouvelle table est utilisée pour entraîner les modèles prédictifs (gbm, rf, nnet, etc.).
Sur une note un peu plus compliquée, il s'agit d'un autre paquet de conversion de données nucléaires, avec un penchant pour le marché boursier.
Tout ça a l'air génial, direct, voire trop, je vais devoir vérifier.
Extrêmement curieux.
Le paquet est installé, la documentation est disponible.
Peut-être que quelqu'un va l'essayer et poster le résultat ?
Cela ne nécessiterait-il pas une présélection ?
Les gars, allez-y !
Conclusion.
Votre jeu de prédicteurs est sans espoir.
Nous attendons d'autres résultats. Je me demande quelles conclusions Mihail Marchukajtes va tirer.
OK)))) mais lisez bien les conditions -
Nous attendons d'autres résultats. Je me demande quelles conclusions Mihail Marchukajtes va tirer.
Le test est inutile !
Le modèle ne peut pas être entraîné ! Vous ne pouvez pas tester un espace vide.
