Discussion de l'article "Les forêts aléatoires prédisent les tendances" - page 13

 
MetaQuotes Software Corp.:

Un nouvel article Predicting Trends with Random Forests a été publié :

Par СанСаныч Фоменко


Ce modèle est très facile à prédire, mais il pose de nombreux problèmes dans la pratique.

1. parce que le signal de zigzag est choisi comme cible, l'une des variables les plus simples peut être prédite à partir de lui, par exemple, le tri des PRIX pour les 20 derniers cycles, évidemment à partir de la conception de la cible, le signal de zigzag est vers le haut lorsque moverank_price_20 =1, et moverank_price_20 >1 lorsque le signal de zigzag est vers le haut lorsque moverank_price_20 =1, et moverank_price_20 >1 lorsque le signal de zigzag est vers le bas. Il y a plus de 90 % de probabilité que le signal de zigzag soit descendant ; de nombreuses variables de ce type peuvent être construites à partir de ce signal, de sorte qu'il est facile de réussir à prédire un modèle ; mais une condition a priori ici est que vous devez savoir que ce point est le point de zigzag. S'il s'agit d'autres points dans le temps, mais pas du point de zigzag, les variables susmentionnées n'existent pas dans la capacité de prédiction.

2) Il y aura donc un gros problème lors de l'application, parce que vous ne savez pas quel est le point de départ du zigzag, vous devez donc calculer toutes les données, cette fois lorsque le moverank_price_20 = 1, vous ne pensez pas que c'est le point de départ du zigzag, et par conséquent vous ne pouvez pas prédire que le changement de point derrière la tendance est à la hausse.

3) La méthode de fixation des objectifs en zigzag est donc difficile à mettre en œuvre.

 
Pourriez-vous me dire ce qu'il faut y mettre sous Windows ? En russe, si vous le pouvez, parce qu'il y a quelque chose qui cloche ici https://rattle.togaware.com/rattle-install-mswindows.html.
 

Il y a un tableau dans l'article



01Diminution moyenne de la précision MoyenneDiminutionGini
MA_eur.5.dif142.9741.8554.86 321,86
EUR.dif337.2146.3851.80177.34
RSI_eur.1437.7040.1150.75254.61
EUR.dif2 24.6631.6438.24110.83
MA_eur.10.dif122.9425.3931.48193.08
CHF.dif3 22.9123.4230.1573.36
MA_chf.5.dif1 21.8123.2429.56135.34


Mais rien n'est dit sur la signification des chiffres en eux-mêmes, leur relation avec d'autres chiffres est compréhensible - meilleur - meilleur, mais les valeurs elles-mêmes, que devraient-elles être et de quoi dépendent-elles ? Ici, dans l'article, la valeur maximale de MeanDecreaseGini est de 321,86, et j'en ai 1876 - cela dépend-il du nombre de prédicteurs ou de quoi ? Et j'ai une MeanDecreaseAccuracy de 140,22 - comment dois-je l'interpréter ? Peut-être devrais-je simplement convertir toutes les valeurs en pourcentage de la plus grande valeur ?

 
Aleksey Vyazmikin:

Il y a un tableau dans l'article



01Précision moyenne Moyenne de la diminutionGini
MA_eur.5.dif142.9741.8554.86 321,86
EUR.dif337.2146.3851.80177.34
RSI_eur.1437.7040.1150.75254.61
EUR.dif2 24.6631.6438.24110.83
MA_eur.10.dif122.9425.3931.48193.08
CHF.dif3 22.9123.4230.1573.36
MA_chf.5.dif1 21.8123.2429.56135.34


Mais rien n'est dit sur la signification des chiffres en eux-mêmes, leur relation avec d'autres chiffres est compréhensible - mieux c'est mieux, mais les valeurs elles-mêmes devraient être ce qu'elles sont et de quoi dépendent-elles ? Ici, dans l'article, la valeur maximale de MeanDecreaseGini est de 321,86, et j'en ai 1876 - cela dépend-il du nombre de prédicteurs ou de quoi ? Et j'ai une MeanDecreaseAccuracy de 140,22 - comment dois-je l'interpréter ? Peut-être devrais-je simplement convertir toutes les valeurs en pourcentage de la valeur la plus élevée ?

Il s'agit de la statistique interne de l'utilisation de prédicteurs lors de la construction d'un ensemble d'arbres, tous ensemble appelés randoForest. La comparaison de différents modèles n'a aucun sens. Je n'ai pas été en mesure de faire des comparaisons au sein d'un même modèle. Si vous voulez sélectionner des prédicteurs, vous devez utiliser d'autres outils. J'ai écrit de nombreuses fois sur le fil de discussion relatif à l'apprentissage automatique et je ne suis pas le seul.

 
СанСаныч Фоменко:

Il s'agit des statistiques internes relatives à l'utilisation de prédicteurs lors de la construction d'un ensemble d'arbres, tous appelés randoForest. La comparaison de différents modèles n'a aucun sens. Je n'ai pas été en mesure de faire des comparaisons au sein d'un même modèle. Si vous voulez sélectionner des prédicteurs, vous devez utiliser d'autres outils. J'ai écrit à de nombreuses reprises sur le fil de discussion relatif à l'apprentissage automatique et je ne suis pas le seul.

Je vois, c'est-à-dire qu'il s'agit d'un estimateur au sein d'un modèle, mais pas absolu....

Peut-être, bien sûr, et j'ai écrit sur le forum, mais ce volume pour faire face à.... - J'ai lu la moitié du forum grâce à mon lecteur. Si vous pouvez m'orienter dans la bonne direction, je vous en serais reconnaissant.

 
Aleksey Vyazmikin:

Je vois, c'est-à-dire qu'il s'agit d'un estimateur au sein du modèle, mais pas d'un estimateur absolu....

Peut-être, bien sûr, et j'ai écrit sur le forum, mais ce volume pour faire face... - Je lis la moitié du forum grâce à mon lecteur. Si vous mettez votre nez, je vous en serais reconnaissant.

1. Je n'ai pas de réponse courte, car il s'agit de toute une industrie, appelée datamining, qui est comparable à la modélisation.

2. Le schéma standard pour les modèles de classification par datamining est le suivant :

  • définir une variable cible
  • rechercher des prédicteurs pour cette variable cible
  • Déterminer le pouvoir prédictif des prédicteurs, c'est-à-dire qu'une partie du prédicteur doit prédire une classe, l'autre partie doit prédire une autre classe, plus le chevauchement est faible, meilleurs sont les prédicteurs.
  • nous prenons les paquets pour déterminer l'importance des prédicteurs. Il y en a beaucoup, j'enchaîne le fichier avec une vue d'ensemble

3. Ajuster le modèle sur la première moitié du fichier, de préférence avec une validation croisée.

4. Vérifier sur la seconde moitié du fichier. Les résultats doivent correspondre


Pour tout cela, vous avez besoin d'un grand nombre d'outils DONE. Le meilleur est caret. Il contient tout ce dont vous avez besoin. Mais pas assez.


PS.

C'est R. En dehors de cela, vous ne pouvez pas aller plus loin que le babillage inarticulé d'un bébé.

Dossiers :
 
СанСаныч Фоменко:

1. Je n'ai pas de réponse courte, car il existe tout un secteur appelé datamining, qui est comparable à la modélisation.

2. Le schéma standard des modèles de classification pour l'exploration des données est le suivant :

  • définir une variable cible
  • trouver des prédicteurs pour cette variable cible
  • Déterminer le pouvoir prédictif des prédicteurs, c'est-à-dire qu'une partie du prédicteur doit prédire une classe, l'autre partie doit prédire une autre classe, plus le chevauchement est faible, meilleurs sont les prédicteurs.
  • nous prenons les paquets pour déterminer l'importance des prédicteurs. Il en existe de nombreux, je joins un fichier avec une vue d'ensemble.

3. Ajuster le modèle sur la première moitié du fichier, de préférence avec une validation croisée.

4. Vérification sur la seconde moitié du fichier. Les résultats doivent correspondre


Pour tout cela, vous avez besoin d'un grand nombre d'outils DONE. Le meilleur est caret. Il contient tout ce qui est nécessaire. Mais pas assez.


PS.

C'est R. En dehors de cela, vous ne pouvez pas aller plus loin que le babillage inarticulé d'un bébé.

Merci, je vais continuer à chercher !

 
J'ai installé RStudio, téléchargé le paquet Boruta, mais comment l'activer, comment travailler avec ?
 
Aleksey Vyazmikin:
J'ai installé RStudio, téléchargé le paquet Boruta, mais comment l'activer, comment travailler avec ?

Lisez la documentation, toujours pour tous les paquets. Dans RStudio, ouvrez l'onglet Packages, tapez le nom du package dans la recherche et cliquez sur le nom du package qui apparaît, l'aide s'ouvrira. Ou mieux encore, cliquez ici sur le nom du paquet, il peut y avoir des liens vers des documents connexes.

Si vous êtes intéressé par l'idéologie, vous trouverez un lien vers un article théorique dans les fonctions incluses dans le paquet.

CRAN Packages By Name
  • cran.r-project.org
The package will formally test two curves represented by discrete data sets to be statistically equal or not when the errors of the two curves were assumed either equal or not using the tube formula to calculate the tail probabilities
 
СанСаныч Фоменко:

Lisez la documentation, toujours pour tous les paquets. Dans RStudio, ouvrez l'onglet Packages, tapez le nom du package dans la recherche et cliquez sur le nom du package qui apparaît, l'aide s'ouvrira. Ou mieux, cliquez ici sur le nom du paquet, il peut y avoir des liens vers des documents connexes.

Si l'idéologie est intéressante, il y aura un lien vers l'article théorique dans les fonctions qui sont incluses dans le paquet.

Merci !

J'ai donc ouvert le pdf avec la description et ici les paramètres sont abasourdis - il y a tellement de choses à faire que je ne sais pas ce que la moitié d'entre elles signifie.

Y a-t-il quelque chose de plus simple, même si moins fiable, et de préférence avec une interface graphique ?

En général, il serait très utile que vous fassiez des articles sur ce sujet, avec des détails sur où et comment !