L'Apprentissage Automatique dans le trading : théorie, modèles, pratique et trading algo - page 3311
Qui a essayé la méthode du"profil de compacité" ?
L'objectif de cette méthode est d'éliminer les exemples incohérents de l'échantillon, ce qui devrait améliorer l'apprentissage et réduire la taille du modèle si les méthodes d'apprentissage par K plus proche voisin sont utilisées.
Je n'ai pas trouvé d'implémentation en python.....
Le travail est expérimental. Voici une citation de http://www.ccas.ru/frc/papers/students/VoronKoloskov05mmro.pdf
Le travail a été réalisé dans le cadre des projets RFBR 05-01-00877, 05-07-90410 et du programme OMN RAS.
Il est peu probable que chaque expérience ait été créée dans le cadre d'un paquet.
Oui, et l'expérience est artificielle. Du bruit a été ajouté à l'ensemble des données clairement séparées par classes. Et la séparation claire n'est faite que par une seule caractéristique - l'axe des Y. Si nous supprimons le bruit (toutes les données de 0,2 à 0,8), il s'avère que nous ne conservons que les exemples dont la distance avec une autre classe n'est pas inférieure à 0,6. Je parle ici de la troisième option la plus difficile de l'image :
Passer à la vie réelle et ajouter vos 5000 prédicteurs qui seront du bruit à cette unique fiche de travail. Dans le clustering, vous calculez la distance totale entre les points dans cet espace de 5001 dimensions. Une distance de 0,6 ne sera jamais trouvée dans ce chaos.
Je pense que n'importe quel classificateur fera mieux, le même arbre trouvera cette caractéristique unique et la divisera, d'abord par 0,5, puis il atteindra des divisions de 0,2 et 0,8 suivies par des feuilles avec une pureté de 100 %.
Il ne le fera jamais. N'importe quel MO ne le trouvera pas. Il faut se débarrasser des déchets AVANT d'entraîner le modèle. "Garbage in - rubbish out" est la loi de la statistique.
Je parle d'un exemple artificiel spécifique sur lequel des expériences ont été menées. Il ne s'agit pas d'une entrée et d'une sortie de déchets. Ce qui jonche cet exemple est facile à éliminer.
Pour clarifier mon propos.
Tout algorithme de MO tente de réduire l'erreur. La réduction de l'erreur est plus efficace sur les déchets, parce qu'ils sont beaucoup plus susceptibles d'avoir des valeurs "pratiques" pour la réduction de l'erreur. Par conséquent, il est certain que l'"importance" des prédicteurs pour les déchets sera plus élevée que pour les NON déchets. C'est la raison pour laquelle il existe un prétraitement, qui demande beaucoup plus de travail que l'ajustement du modèle lui-même.
Dites-moi, s'il vous plaît, qu'est-ce qui n'est pas un déchet ? Je n'ai jamais vu personne parler de données d'entrée pures. Mais j'entends constamment parler de déchets sur le forum.
De quoi s'agit-il ? Si vous parlez de déchets, c'est que vous n'en avez pas eu, sinon il n'y a rien à quoi les comparer.
Permettez-moi de clarifier mon propos.
Tout algorithme de MO tente de réduire l'erreur. La réduction de l'erreur est plus efficace sur les déchets, car les valeurs "pratiques" pour la réduction de l'erreur sont beaucoup plus courantes dans les déchets. Par conséquent, il est certain que l'"importance" des prédicteurs pour les déchets sera plus élevée que pour les NON-déchets. C'est la raison pour laquelle il existe un prétraitement, qui demande beaucoup plus de travail que l'ajustement du modèle proprement dit.
Personne ne sait ce qui est un déchet et ce qui ne l'est pas, ce sont des concepts hypothétiques.
S'ils savaient exactement ce qui est quoi, il n'y aurait pas un fil de discussion de 3 000 pages.)))
On fait simplement l'hypothèse que dépasser telle ou telle limite est "déchet", ces limites sont également hypothétiques. C'est pourquoi l'expression "rubbish in - rubbish out" n'est rien d'autre qu'une belle phrase, ce qui est rubbish pour un chercheur n'est pas rubbish pour un autre chercheur. C'est comme les vagues d'Eliot.