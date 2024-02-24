L'Apprentissage Automatique dans le trading : théorie, modèles, pratique et trading algo - page 2648
Je pense que la question de savoir ce qu'il faut faire avec les boîtes identifiées est complexe et qu'il n'existe guère de règles claires et sans ambiguïté pour tous les cas possibles. Un bon algorithme bien pensé est probablement un "savoir-faire" assez secret).
Si les cas sont obtenus sur le même ensemble de prédicteurs, leur non-intersection est probablement suffisante. S'il y a une intersection, elle peut être attribuée à une boîte distincte, et ses compléments peuvent être répartis dans plusieurs boîtes. Cependant, un trop grand nombre de boîtes fragmentera trop l'échantillon. Nous pouvons donc généraliser la notion de boîte - dans le langage des règles, cela signifie ajouter les négations et le OU au ET.
Si les boîtes sont obtenues à partir de prédicteurs complètement différents (par exemple, par la méthode randomforest), elles ne peuvent se chevaucher que dans le sens des parties de l'échantillon qui en font partie. Des idées proches du portefeuille sont probablement nécessaires ici.
Si les ensembles de prédicteurs se chevauchent partiellement, il doit y avoir un mélange d'approches, mais il est difficile de l'affirmer avec certitude.
Je ne vois pas très bien comment cela peut être intégré dans un schéma unifié. La méthode standard de construction des arbres de décision contourne simplement et "joliment" ces problèmes, ce qui fait qu'elle ne convient pas tout à fait à nos objectifs. Il est peut-être possible de l'améliorer en sélectionnant un algorithme d'élagage, mais à mon avis, il est préférable de retravailler de manière créative l'algorithme de construction des règles.
Les conclusions les plus intelligentes...
Les algorithmes prêts à l'emploi n'ont que des règles approximatives, c'est-à-dire stupides comme l'enfer, comme :
X[1]>0.5 && X[3]> -0.2 &...
Ils n'ont que des variables (colonnes de la matrice ou du cadre X1.....X10) et des limites abstraites (chiffres X[1]>0,5 ), qu'il invente lui-même en apprenant à créer des limites en classe.
Qu'en est-il du trivial X1 > X2
ou la négation de X1 !> X2.
Qu'en est-il de X1> (X2*X3)?
Et la liaison aux indices, qui ne fonctionne pas sur un marché non stationnaire ?
Je veux parler de l'expression : s'il y avait "A" mais pas "B", alors "C".
Ce n'est tout simplement pas pour les algorithmes prêts à l'emploi.
L'algorithme est le même pour Forrest, qui crée simplement des centaines de règles et examine la somme de leurs probabilités de classe. Sur le marché, nous nous intéressons aux événements rares, et nous devons donc nous intéresser au nombre de règles, et non au nombre de règles.
Je me demande comment l'algorithme de réduction de la dimensionnalité perçoit les échantillons avec différents types de données avec et sans normalisation
Par exemple, il y a deux types de données : les chaînes de caractères et les chiffres.
Je commence par convertir q1 en chiffres.
fait
Maintenant, nous l'envoyons à l'algorithme UMAP et obtenons les vecteurs propres.
Visualiser les points
Jolis vers que nous avons obtenus ))
Essayons de colorer les points avec la variable q1.
Comme nous pouvons le voir, la variable q1 crée la structure de ces vers, elle tire en quelque sorte l'importance sur elle-même, réduisant la contribution de la variable q2.
Cela est dû au fait que la variable q1 a de grandes valeurs et que les données ne sont pas normalisées.
Si nous normalisons les données, chaque variable apportera la même contribution et nous obtiendrons
Je comprends que pour certains participants, il s'agit d'une évidence, nous devons normaliser bla bla bla bla,
mais avez-vous déjà pensé qu'en augmentant ou en diminuant la contribution des variables, vous pouviez contrôler les regroupements ?
visualiser les points
On dirait des parasites :)
avec des prix non stationnaires, je suis en guerre contre les signes depuis longtemps.
Il est préférable de convertir les chaînes de caractères en catégories plutôt qu'en chiffres. Bien sûr, si votre UMAP peut les traiter.
a=1 n'est pas 5 fois différent de e=5. Ils sont simplement différents, comme chaud et doux. Et en les numérisant, vous les avez rendus de plus en plus chauds.
Sans comprendre les détails, il est difficile d'apporter des modifications à la logique.
Personnellement, je n'ai pas compris ce que sont les 2 coordonnées supplémentaires de la boîte (2 - limites quantiques) - j'ai supposé qu'il s'agissait d'un élagage d'échantillon.
Je cherche simplement quelque chose d'utile pour développer ma méthode. J'ai également collé des "boîtes", mais l'algorithme n'est pas parfait.
Si vous parlez spécifiquement de PRIM, mon lien vient de donner un exemple de son fonctionnement pour deux prédicteurs x1 et x2. En conséquence, une boîte de la forme (a1<x1<b1)&(a2<x2<b2) est sélectionnée. Ce qui reste à l'extérieur de la boîte est apparemment considéré comme appartenant à une classe différente de ce qui se trouve à l'intérieur. On a tenté de montrer à l'aide d'un exemple simple l' essence de l' algorithme - couper un petit morceau (peler) de la boîte à chaque étape. Le choix du morceau à couper et du prédicteur à utiliser dépend de la condition d'optimalité de l'étape "trajectoire".
Cet algorithme m'intéressait en tant qu'exemple de la manière dont un algorithme standard de construction de règles (pour un arbre de résolution) peut et doit être modifié pour répondre à des besoins particuliers.
C'est une bonne chose que vous ayez trouvé la solution - je ne l'ai pas comprise au début, merci pour la clarification.
Mais il s'avère que l'algorithme, à la première étape, devrait trouver des paires de prédicteurs qui se sépareront mieux dans des boîtes, puis leur appliquer le "pelage".