Discussion de l'article "Les forêts aléatoires prédisent les tendances" - page 9

 
Reshetov:
Maintenant, vous avez tout gâché. Et comment se fait-il que votre IA supérieure n'ait pas immédiatement reconnu une somme insignifiante ?
 
gpwr:

faa1947, veuillez montrer comment votre modèle fonctionne sur l'exemple ci-dessous. La première colonne est la série modélisée, les deuxième et troisième colonnes sont les variables prédictives. Quel est le pouvoir prédictif de ces prédicteurs ?

-0.35742 0.461646 -0.81907
0.431277 0.004545 0.426731
-0.00018 -0.4037 0.403528
-0.08575 0.90851 -0.99426
0.773826 0.008975 0.764852
0.426905 -0.96485 1.391757
0.253233 0.487955 -0.23472
0.20994 0.880554 -0.67061
-0.09929 0.160276 -0.25956
0.332911 -0.08736 0.420268
0.032258 0.360106 -0.32785
0.253027 -0.06859 0.321621
-0.66668 -0.54985 -0.11683
-0.5476 -0.13231 -0.41529
-0.75652 0.536488 -1.29301
-0.66109 -0.87314 0.212052
-0.09993 -0.86293 0.763
0.014625 0.715032 -0.70041
-0.48345 -0.62666 0.143206
-0.03596 0.935653 -0.97161
-0.17023 0.678024 -0.84826
0.293376 0.079529 0.213847
0.002922 0.754594 -0.75167
0.329194 -0.05535 0.384546
0.639423 -0.41358 1.053007
0.431631 -0.60334 1.034973
0.59125 0.497989 0.093262
0.266098 -0.79645 1.062549
-0.02624 0.643164 -0.6694
0.055014 -0.46214 0.517154
0.436132 -0.89992 1.336052
-0.30143 0.628619 -0.93005
-0.12168 0.886467 -1.00814
-0.10851 -0.0507 -0.0578
-0.74573 -0.50921 -0.23653
-0.574 0.244825 -0.81883
-0.87313 0.336188 -1.20932
-0.00344 0.117363 -0.1208
-0.20265 0.424326 -0.62697
0.177873 -0.17967 0.357541

Je ne suis pas un mathématicien généraliste. J'essaie de raisonner de manière très concrète, et dans le cadre du trading, il n'est pas difficile d'obtenir un échantillon de 10000 lignes. Je ne sais pas tirer de conclusions sur 40 lignes et je ne vois pas la nécessité d'apprendre, même si tout ce dont je parle est applicable à de tels échantillons. Pour la médecine, 40 lignes, c'est normal.

1. En général, j'écris sur le surentraînement du modèle à l'origine de la "capacité prédictive".

2. Je m'intéresse à la prédiction de valeurs nominales - "long-short". Il s'agit de modèles de classification. Votre exemple, les modèles de régression, je ne le fais pas.

Je suis prêt à continuer.

J'ai besoin d'une cotation sur laquelle je peux exécuter un ZZ et avoir plusieurs breakouts. À partir de là, j'ai besoin d'un fichier assez volumineux.

En plus du cotir lui-même, plusieurs prédicteurs, voire un seul. Je répondrai à la question : est-ce que ce prédicteur a un pouvoir prédictif de long-short.

Et bien sûr, il faut un fichier - ou suggérez-vous de tout taper à la main ?

 

TheXpert:

Reshetov:

Le secret de la "grande généralisabilité" de votre échantillon est révélé : la valeur de la première colonne est la somme des valeurs des deux autres colonnes.


Maintenant, vous avez tout gâché ) . Et comment se fait-il que votre IA élevée n'ait pas reconnu d'emblée une somme triviale ?

Elle n'est pas conçue pour reconnaître des sommes, car elle construit des modèles pour la classification binaire, et la tâche provient de la section sur la régression multiple.

Bien que le modèle soit destiné à la classification binaire, l'expression :

double x0 = 2.0 * (v0 + 0.96485) / 1.900503 - 1.0;

double x1 = 2.0 * (v1 + 1.00814) / 2.399897 - 1.0;

y = 0.12981203254657206 + 0.8176828303879957 * x0 + 1.0 * x1 -0.005143248786272694 * x0 * x1;

est simplifiée en : y ~ v0 + v1.

Il ne reste plus qu'à tester l'hypothèse dans une feuille de calcul.

 

Bonjour, SanSanych.

En ce qui concerne la question du sous-entraînement et du surentraînement, vous pouvez consulter le projet de livre ici http://www.iro.umontreal.ca/~bengioy/dlbook/.

La section 5.3.3 décrit très bien la situation. En général, l'ensemble du livre est très utile, surtout s'il est écrit par des coryphées.

Bonne chance !

 
vlad1949:

Bonjour, SanSanych.

En ce qui concerne la question du sous-entraînement et du surentraînement, vous pouvez consulter le projet de livre ici http://www.iro.umontreal.ca/~bengioy/dlbook/.

La section 5.3.3 décrit très bien la situation. En général, l'ensemble du livre est très utile, surtout s'il est écrit par des coryphées.

Bonne chance

Bon après-midi !

Merci pour le lien.

Je dispose d'un ensemble complet d'outils et d'une sélection d'ouvrages sur le sujet. Mais cela ne facilite pas l'application pratique.

Si vous le souhaitez, je peux partager avec vous l'espoir de réunir toute cette boîte à outils vers l'automaticité.

 
faa1947:

Bonjour !

Merci pour le lien.

Je dispose d'un ensemble complet d'outils et d'une sélection de documents sur le sujet. Mais cela ne facilite pas l'application pratique.

Si vous le souhaitez, je peux partager l'espoir de réunir toute cette boîte à outils vers l'automatisme.

Je résous ce problème de manière programmatique. Les résultats sont excellents.

Je vous souhaite bonne chance

 
faa1947:

Je ne suis pas un expert universel en mathématiques. J'essaie de raisonner de manière très concrète et, sur la base du trading, il n'est pas difficile d'obtenir un échantillon de 10000 lignes. Je ne sais pas comment tirer des conclusions sur 40 lignes et je ne vois pas la nécessité d'apprendre, bien que tout ce dont je parle soit applicable à de tels échantillons. Pour la médecine, 40 lignes, c'est normal.

1. En général, je parle du surentraînement du modèle à l'origine de la "capacité prédictive".

2. Je m'intéresse à la prédiction de valeurs nominales - "long-short". Il s'agit de modèles de classification. Votre exemple, les modèles de régression, je ne le fais pas.

Je suis prêt à poursuivre.

J'ai besoin d'une cotation sur laquelle je peux exécuter un ZZ et avoir plusieurs breakouts. À partir de là, j'ai besoin d'un fichier assez volumineux.

En plus du cotir lui-même, plusieurs prédicteurs, voire un seul. Je vais répondre à la question : est-ce que ce prédicteur a un pouvoir prédictif de long-short.

Et, bien sûr, il faut un fichier - ou suggérez-vous de tout taper à la main ?

Je vois. Il est assez facile de vérifier si le modèle est surentraîné en comparant son comportement sur l'échantillon d'entraînement et en dehors. Mais la manière de faire en sorte que le modèle ne soit pas surentraîné dépend de notre capacité à déterminer quelles entrées de prédicteurs sont pertinentes pour la série modélisée et lesquelles ne le sont pas, ce qui est beaucoup plus difficile que de déterminer le surentraînement. La capacité d'un modèle à se généraliser dépend de son surentraînement. L'exemple que j'ai donné est très simple. La série y modélisée est une onde sinusoïdale bruitée. Le premier prédicteur x1 est un nombre aléatoire. Le second prédicteur x2 est la différence x2 = y-x1. En d'autres termes, le modèle est décrit avec précision par la somme des prédicteurs y = x1+x2. Le fait que vous ayez refusé d'appliquer votre méthode à cet exemple simple ne fait que renforcer le soupçon que votre méthode n'est pas capable de déterminer la pertinence des données, et la détermination de cette pertinence est précisément l'objectif principal de l'identification et de l'élimination du surentraînement. Les vrais problèmes de modélisation sont beaucoup plus complexes que mon exemple - ils comprennent à la fois des données pertinentes et des données beaucoup plus nombreuses et non pertinentes. Il est incroyablement difficile de séparer les unes des autres. Un réseau neuronal avec toutes les entrées sera entraîné à avoir des connexions avec les entrées pertinentes et non pertinentes et sera donc réentraîné. Puisque vous ne savez apparemment pas comment déterminer la pertinence des données, vos articles et vos livres ne m'intéressent pas. Je vous souhaite bonne chance !
 
gpwr:

Il est assez facile de vérifier si le modèle est surentraîné en comparant son comportement sur l'échantillon d'entraînement et en dehors.

C'est une grande illusion et, si j'ai bien compris, vous ne l'avez pas encore payée. Le modèle présenté dans l'article a d'aussi bons résultats sur trois échantillons en dehors de la formation - mais ce modèle est surentraîné.

Et la manière de faire en sorte que le modèle ne soit pas surentraîné dépend de notre capacité à déterminer quels prédicteurs sont pertinents pour la série modélisée et lesquels ne le sont pas, ce qui est beaucoup plus difficile que de déterminer s'il y a surentraînement.

Tout d'abord, lisez attentivement le document - le tableau 3 indique l'importance des prédicteurs dans la prédiction de la variable cible

Ensuite, apprenez la matrice, par exemple en étudiant les paquets spécialisés pour la sélection des prédicteurs varSerf, Boruta, FSelector. Le logiciel CORElearn propose 35 ( !) algorithmes différents pour sélectionner les prédicteurs qui comptent pour la variable cible.

D'après mon expérience en matière de sélection de prédicteurs importants pour la variable cible, je peux dire ce qui suit

1. nous formons un ensemble assez important de prédicteurs, par exemple 50 pièces avec un nombre de barres de 15 000.

2. À l'aide de l'un des algorithmes susmentionnés, nous sélectionnons des prédicteurs sur ces 15 000 barres - nous obtenons généralement 15 à 20 prédicteurs, qui sont utilisés dans la construction du modèle plus souvent que dans 20 % des cas.

3. Nous prenons ensuite une fenêtre plus petite, par exemple 2000 barres, et commençons à la déplacer une barre à la fois, en sélectionnant des prédicteurs significatifs parmi les 20 prédicteurs sélectionnés précédemment sur 50.

4. La liste spécifique des prédicteurs significatifs change en permanence.

Puisque vous ne savez apparemment pas comment déterminer la pertinence des données, vos articles et vos livres ne m'intéressent pas.

L'efficacité de l'utilisation de ces progiciels entre vos mains augmentera considérablement si vous dépensez une petite somme d'argent pour mon livre, qui explique pourquoi c'est nécessaire et comment le comprendre, ainsi que des exemples réels sur des données réelles.

Et l'effet sera encore plus grand si vous et moi essayons ensemble de créer un modèle non entraîné sur vos prédicteurs. Le succès n'est pas garanti, mais il est certain que vous n'écrirez plus de messages aussi superficiels après avoir communiqué avec moi. En outre, vous serez beaucoup plus prudent sur les comptes réels.

 
faa1947:

1. nous formons un ensemble assez large de prédicteurs, par exemple, 50 pièces avec le nombre de barres 15000.

On comprend maintenant pourquoi vous gagnez de l'argent en vendant votre livre et non en négociant.

 
faa1947:

Il s'agit de grandes illusions et, comme je m'en rends compte, vous n'avez pas encore payé pour cela. Le modèle présenté dans l'article donne d'aussi bons résultats sur trois échantillons hors formation - mais ce modèle est sur-entraîné.

Le surentraînement est un terme bien établi et très spécifique. Non seulement vous le remplacez, mais vous n'expliquez pas ce qu'il signifie selon vous.

Votre façon de parler rappelle beaucoup celle de Sulton.