L'Apprentissage Automatique dans le trading : théorie, modèles, pratique et trading algo - page 37
Vous manquez des opportunités de trading :
- Applications de trading gratuites
- Plus de 8 000 signaux à copier
- Actualités économiques pour explorer les marchés financiers
Inscription
Se connecter
Vous acceptez la politique du site Web et les conditions d'utilisation
Si vous n'avez pas de compte, veuillez vous inscrire
Ne serait-il pas préférable de l'intégrer dans R ?
Et plus de gens pourront travailler et les ponts mt5 avec R semblent être disponibles.
Je n'ai jamais essayé, mais techniquement vous pourriez aussi traiter la variable cible comme un prédicteur en l'incluant dans le modèle pca. Ensuite, dans les nouvelles données, sa valeur sera inconnue, par conséquent pca peut remplir ces valeurs manquantes.
J'ai essayé de prédire les composants de la tête et je n'ai rien obtenu d'intéressant...
Vous pouvez aussi l'essayer, il existe un très bon paquetage bien documenté pour cela "Rssa".
Non, c'est bon. Puisque les prédicteurs utilisés pour chacune des composantes principales sont connus, nous pouvons éliminer sans risque les prédicteurs qui ne sont pas utilisés dans les composantes principales.
Comment ça, ils ne sont pas utilisés ? L'ACP est une transformation linéaire. Les dimensions qui peuvent être éliminées sont celles qui peuvent être obtenues par une combinaison linéaire des autres. Cela signifie que tout prédicteur peut être obtenu par une combinaison linéaire des composantes principales. Si vous prenez un intervalle de 95%, il y a de fortes chances de perdre bêtement un bon prédicteur à cause de l'échelle, un intervalle inférieur à 100% n'est utilisé que dans la compression de données avec perte, sinon seules les composantes nulles sont toujours coupées.
Bon sang, je me doutais bien que ce n'était pas un hasard si ces images "NA" se retrouvaient dans la date, mais j'ai lu le manuel, il est clairement question d'ACP avec un réseau neuronal, mais alors on ne sait toujours pas comment ce type du site a pu obtenir cette belle image avec une bonne séparation par classes.
Les images ont un point différent là... L'article lui-même ne porte pas sur la classification, mais sur le clustering. Vous avez des données, vous devez les diviser en groupes d'une manière ou d'une autre. Vous ne savez même pas combien de groupes vous avez - deux, trois, dix... L'auteur utilise un graphique des deux premières composantes de l'ACP où l'important est la proximité des points d'un groupe entre eux. Les couleurs sont déjà une analyse comparative, et sont attribuées à partir de variables cibles déjà connues, qui ne sont pas calculées, mais simplement extraites du tableau. Si les groupes de points sont correctement répartis par couleur, alors tout est OK, la méthode semble fonctionner et nous pouvons l'essayer sur d'autres données. Mais il n'y a vraiment aucune prédiction dans l'article, seulement un regroupement et une comparaison avec une classification connue.
Vous pouvez dessiner un graphique similaire dans l'article de mon précédent post. Le résultat sera un graphique comme celui-ci : http://i0.wp.com/www.win-vector.com/dfiles/YAwarePCA_files/figure-html/scaledplotest-1.png. Pas de regroupement intéressant ici, les données d'entrée sont différentes. Mais si vous utilisez l'iris de table comme données d'entrée, vous obtiendrez quelque chose de similaire aux graphiques de l'article que vous avez donné.
L'ACP était à l'origine destinée à réduire la dimensionnalité des séries originales. C'est tout. L'utiliser pour sélectionner des prédicteurs relève du délire.
Ne serait-il pas préférable de l'intégrer dans R ?
Et plus de personnes pourront travailler et les ponts mt5 avec R semblent être disponibles.
Trader s'est déjà planté en essayant de porter l'ancienne libVMR vers R et n'avait pas assez de mémoire pour une grosse machine nucléaire et toutes les performances pour une petite (réduction du nombre de cycles par 100 fois), alors qui veut marcher sur le même râteau est peu probable ?
Il est donc préférable de ne pas commencer à parler du portage vers R pour de telles tâches - ce problème ne va pas s'arranger.
Si l'on en juge par le fait que Dr. Trader a déjà planté en essayant de porter l'ancienne libVMR vers R et qu'il n'avait pas assez de mémoire pour une grande machine nucléaire, ainsi que des performances complètes pour une petite (le nombre de cycles a été réduit de 100 fois), il est peu probable que des personnes soient prêtes à marcher sur le même râteau ?
Il vaut donc mieux ne pas souffler mot du portage sur R comme celui-ci - cet engin est trop lent.
Je voulais créer un paquet pour "R" .
"R" est constitué à 70% de paquets écrits dans d'autres langages (C++, C, fortran, java...) donc la vitesse de traitement ne devrait pas en souffrir, ou bien je rate quelque chose ?
le célèbre paquet "h2o" est entièrement écrit en java
Je voulais créer un paquet pour "R".
"R" est constitué d'environ 70% de paquets écrits dans des langages "étrangers" (C++, C, fortran, java...) donc la vitesse de traitement ne devrait pas en souffrir, ou bien je rate quelque chose ?
le célèbre paquet "h2o" est entièrement écrit en java
Plus précisément dans le fichier de rapport :
/**
* La qualité de la modélisation hors échantillon :
*
* VraisPositifs : 182
* VraisNégatifs : 181
* FauxPositifs : 1
* FauxNégatifs : 1
* Total des modèles hors échantillon avec statistiques : 365
* Total des erreurs hors échantillon : 2
* Sensibilité de la capacité de généralisation : 99.4535519125683%
* Spécificité de la capacité de généralisation : 99,45054945054946%
* Capacité de généralisation : 98,90410136311776%
* Indicateur de Reshetov : 8,852456238401455
*/
Désolé, je n'y crois pas, c'est trop graphique. Pouvez-vous répéter l'expérience s'il vous plaît ? J'ai joint une autre archive, où les données portent sur une période différente. La formation du modèle doit être sur train.csv, le test sur test_notarget.csv. Je suis intéressé par les résultats prédits pour le fichier test_notarget.csv. Le fichier pour le test ne contient pas de variable cible, pour être juste. Mais il y a une autre archive protégée par un mot de passe avec les résultats du test test.csv, je vais donner le mot de passe pour la comparaison en échange des résultats prédits.
Comment ça, ils ne sont pas utilisés ? L'ACP est une transformation linéaire. Les dimensions amovibles : celles qui peuvent être obtenues par une combinaison linéaire des autres. Cela signifie que tout prédicteur peut être obtenu par une combinaison linéaire des composantes principales. Si l'on prend un intervalle de 95%, il y a de fortes chances de perdre un bon prédicteur bêtement à cause de l'échelle, un intervalle inférieur à 100% n'est utilisé que dans la compression de données avec perte, sinon seules les composantes qui sont nulles sont toujours coupées.