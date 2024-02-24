L'Apprentissage Automatique dans le trading : théorie, modèles, pratique et trading algo - page 3360
Je ne fais pas du tout campagne. Il y a beaucoup d'approches, la question portait sur la connaissance du MO.
Personnellement, je n'associe pas la réponse du modèle à la probabilité d'abandon d'une classe, je la considère comme la confiance du modèle dans la définition de la classe. La confiance se compte en feuilles, et les feuilles sont comptées par l'échantillon de formation. Ici, une seule feuille indique la probabilité d'abandon d'une classe. Étant donné que chaque feuille n'a pas de réponse à tous les points de l'échantillon, il s'avère que la somme des probabilités est faussée dans la réponse finale du modèle. Il existe peut-être un moyen de corriger à ce niveau - et cela m'intéresse - j'ai essayé d'orienter la discussion dans cette direction.
À mon avis, la solution consiste à regrouper les feuilles en fonction de points de réponse similaires et à poursuivre la transformation des résultats sommaires moyens des groupes (....).
Désolé, mais en l'absence de références à des bibliothèques, des cahiers ou des articles, j'en déduis toujours à peu près ce qui suit
Eh, tout ce dont vous avez besoin, ce sont des paquets...
Après avoir calibré n'importe quel classificateur par la méthode CV, vous pouvez immédiatement voir le potentiel de ce modèle. S'il n'est capable de rien, les probabilités se concentrent autour de 0,5 après cette procédure. Auparavant, il était pourtant trop sûr de lui. Il n'est pas du tout intéressant de continuer à manipuler un tel modèle. Il est impossible de l'améliorer. En d'autres termes, il ne peut même pas être calibré normalement, car il n'y a pas de poisson. C'est très pratique.
Il n'y a pas de "quantum cut", pour reprendre vos termes, pas de plage ou de bac où il donnerait un bénéfice probable.
Ok, enfin, pour clore le sujet. J'ai réussi à exporter la calibration sigmoïde vers metac.
Donné : gradient bousting réentraîné, puis calibré à cet état :
Au seuil 0.5 tout est évident, on peut voir où se trouve l'OOS :
J'exécute le seuil et j'arrête l'optimisation :
J'obtiens toutes sortes de variations, les meilleures aux seuils 0,75-0,85. Même un petit peu sur de nouvelles données est un peu en dehors, bien qu'avec un seuil de 0,5 il n'y ait pas de variantes normales.
C'est un jouet assez amusant.
Si cela vous permet d'automatiser la sélection des modèles, c'est déjà une bonne chose.
J'ai une visualisation du modèle par son indice de probabilité-confiance avec un pas de 0,05 et je peux tout voir en même temps. L'essentiel, c'est la transformation du résultat sur l'échantillon d'entraînement et autres - là, les probabilités sont rampantes, c'est pour cela que je parle de non-représentativité. C'est pourquoi je considère l'étalonnage comme une mesure inefficace dans notre cas. S'il n'y a pas de biais important d'un échantillon à l'autre dans vos modèles, c'est plutôt surprenant.
Par ailleurs, je note qu'un modèle sous-entraîné produira des probabilités dans une fourchette étroite.
C'est pourquoi il est judicieux de définir non pas un seuil de classification, mais une fenêtre - par exemple, de 0,55 à 0,65, considérer la classe retournée comme une unité et ignorer le reste. Aux extrémités, le modèle est fiable, mais il y a souvent très peu d'observations, de sorte que la signification statistique est faible.
Reprendremon algorithme - Discussion générale - MQL5
