L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 2804

 
mytarmailS #:

Quel est donc l'intérêt de cette surenchère ?

Filtrer les traits dont les corrélations sont supérieures à 0,9.

filtrer les traits dont la corrélation est supérieure à 0,8.

filtrer les caractéristiques dont la corrélation est supérieure à 0,7

éliminer les caractéristiques dont la corrélation est supérieure à 0,6

....

..

Je ne vois pas quel est l'intérêt, il suffit de le passer au crible une fois et c'est fini.

Qu'entendez-vous par "une fois pour toutes" ? Il y a beaucoup d'échantillons, une approche systématique est donc nécessaire. Si c'est utile, je le ferai dans MQL5, de sorte que cela fonctionnera dès le départ, et espérons-le, plus rapidement.

mytarmailS #:

========================================

De plus, il est connu que le bois ne se soucie pas des signes corrélés.

Prenez, entraînez le modèle, sélectionnez les caractéristiques importantes du modèle et ne vous inquiétez pas....

vous ne faites pas n'importe quoi, vous ne perdez pas votre temps et celui des autres.

CatBoost choisit aléatoirement le nombre de prédicteurs à chaque itération de la division ou de la construction de l'arbre - cela dépend des paramètres, et cela signifie que les prédicteurs fortement corrélés ont plus de chances d'être pris au hasard, c'est-à-dire pas sur eux, mais sur l'information qu'ils transportent.

Je suis en train de le faire, également pour le fil de discussion du forum, pour voir si cela a du sens pour cet échantillon.

En tout cas, je m'attends à ce que cette approche permette de créer des modèles plus diversifiés, ce qui permettra de décrire (le rappel sera plus important) davantage de situations dans l'échantillon et d'utiliser davantage l'ensemble des modèles.

 
Aleksey Vyazmikin #:

Je suis en train de le faire, y compris pour un fil de discussion du forum afin de voirsi cela a du sens pour cet échantillon.

Ce n'est pas le cas

 
mytarmailS #:

Il n'y a pas de raison

Vous pensez que cet échantillon est sans espoir ?

 
Aleksey Vyazmikin #:

CatBoost choisit aléatoirement le nombre de prédicteurs à chaque itération de la division ou de la construction de l'arbre - cela dépend des paramètres, et cela signifie que les prédicteurs fortement corrélés ont plus de chances d'être pris au hasard, c'est-à-dire pas sur eux, mais sur l'information qu'ils transportent.

Oui, et les créateurs de boosts ne le savent pas...

Ils ne savent pas non plus qu'il est possible de filtrer les signes par corrélation))) comment le sauraient-ils, la méthode n'a que 50 ans))))

Croyez-vous vraiment que vous en savez plus qu'eux ?

Aleksey Vyazmikin #:

Pensez-vous que l'échantillon est sans espoir ?

Bien sûr... Boost prend tout en compte.

Et ne m'en voulez pas, je suis probablement plus jeune que vous).

 
Aleksey Vyazmikin #:

Vous pensez que cet échantillon est sans espoir ?

https://datascience.stackexchange.com/questions/12554/does-xgboost-handle-multicollinearity-by-itself


Les arbres de décision sont intrinsèquement immunisés contre la multicolinéarité,

qui sont corrélées à 99 %, l'arbre ne choisira que l'une d'entre elles lorsqu'il prendra une décision de partition. D'autres modèles, tels que la régression logistique, utiliseront les deux fonctions,

tels que la régression logistique, utiliseront les deux fonctions.

Étant donné que les arbres de partition utilisent des arbres de décision distincts, ils ne sont pas non plus affectés par la multicolinéarité.

========

vous pouvez utiliser cette approche, évaluer l'importance de chaque fonction et ne conserver que les meilleures fonctions pour votre modèle final.


C'est en fait ce que je vous ai dit plus tôt

Does XGBoost handle multicollinearity by itself?
Does XGBoost handle multicollinearity by itself?
  • 2016.07.02
  • ope ope 1,653 3 3 gold badges 16 16 silver badges 27 27 bronze badges
  • datascience.stackexchange.com
I'm currently using XGBoost on a data-set with 21 features (selected from list of some 150 features), then one-hot coded them to obtain ~98 features. A few of these 98 features are somewhat redundant, for example: a variable (feature) $A$ also appears as $\frac{B}{A}$ and $\frac{C}{A}$. My questions are : From what I understand, the model is...
 
mytarmailS #:

Oui, et les créateurs de ces boosts ne le savent pas....

Ils ne savent pas non plus qu'il est possible de filtrer les signes par corrélation)) comment pourraient-ils le savoir, la méthode n'a que 50 ans)))

Croyez-vous vraiment en savoir plus qu'eux ?

J'en sais plus. Boost prend tout en compte.

Et ne me faites pas ce coup-là, je suis probablement plus jeune que vous).

J'analyse les résultats des modèles et je constate qu'ils retiennent des prédicteurs fortement corrélés, par exemple des prédicteurs basés sur le temps - même s'ils ont un petit décalage temporel.

Je pense qu'ils savent parfaitement tout, mais ils ne devraient pas non plus vous parler de platitudes vieilles de plusieurs dizaines d'années....

En ce qui concerne le "vous" ou le "tu", je pense qu'il est préférable pour tout le monde d'appeler l'interlocuteur comme cela lui convient, si cela ne véhicule pas un message offensant et n'empêche pas un dialogue constructif.


mytarmailS #:

https://datascience.stackexchange.com/questions/12554/does-xgboost-handle-multicollinearity-by-itself


Les arbres de décision sont intrinsèquement immunisés contre la multicolinéarité. Par exemple, si vous avez 2 fonctions,

qui sont corrélées à 99 %, l'arbre ne choisira qu'une seule d'entre elles lorsqu'il décidera s'il y a lieu de scinder. Autres modèles,

tels que la régression logistique, utiliseront les deux fonctions.

Étant donné que les arbres de regroupement utilisent des arbres de décision distincts, ils ne sont pas non plus affectés par la multicolinéarité.

========

vous pouvez utiliser cette approche, évaluer l'importance de chaque caractéristique et ne conserver que les meilleures caractéristiques pour votre modèle final.


C'est d'ailleurs ce que je vous disais tout à l'heure

C'est ça le problème, il va choisir - oui un, mais combien de fois ce choix va-t-il se faire à travers....

De plus CatBoost a quelques différences avec xgboost, et il y a des résultats différents sur des échantillons différents, en moyenne CatBoost est plus rapide et même meilleur, mais pas toujours.

 

De plus, j'ai ma propre méthode pour regrouper les prédicteurs similaires et sélectionner la meilleure option parmi eux, et j'ai besoin d'un groupe de contrôle sous la forme d'une corrélation...

 
Le script fonctionne - je suppose que je vais devoir le laisser en place pendant la nuit....
 
Aleksey Vyazmikin #:

CatBoost choisit aléatoirement le nombre de prédicteurs à chaque itération de la division ou de la construction de l'arbre - cela dépend des paramètres, et cela signifie que les prédicteurs fortement corrélés ont plus de chances d'être pris au hasard, c'est-à-dire pas sur eux, mais sur l'information qu'ils transportent.

Êtes-vous sûr que les prédicteurs sont choisis au hasard ? Je ne faisais pas de catbusting, je regardais le code des exemples de bousting de base. Tous les prédicteurs y sont utilisés. C'est-à-dire que le meilleur est choisi. Le prédicteur corrélé sera à côté, mais légèrement moins bon. Mais à d'autres niveaux de fractionnement ou dans les arbres de correction, un autre des prédicteurs corrélés peut être meilleur.

 
Aleksey Vyazmikin regrouper des prédicteurs similaires et sélectionner la meilleure variante parmi eux, et j'ai besoin d'un groupe de contrôle sous la forme d'une corrélation....
Jetez-moi donc quelques formules informatives à essayer.
Raison: