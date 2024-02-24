L'Apprentissage Automatique dans le trading : théorie, modèles, pratique et trading algo - page 3334
Non, il s'agira de la même place relative - le nombre de diviseurs (splits) - fixe pour tous.
Vous avez beaucoup de prédicteurs binaires avec 0 et 1. Ils ne se diviseront pas en 32. Mais si vous les normalisez, vous pourriez obtenir quelque chose avec une quantification uniforme. Si les quanta ne sont pas uniformes, toutes les distances seront faussées par les nombres ; il faut donc absoudre les valeurs après la normalisation.
L'erreur se situera au niveau de la prédiction si vous ne pouvez pas vous débarrasser du bruit comme lors de la formation.
L'analyse est encore plus amusante ici - des feuilles incertaines dans la somme peuvent déplacer la probabilité dans une direction ou une autre - je continue à vouloir faire un graphique pour montrer comment les poids sont distribués en fonction du déplacement de la probabilité, mais je continue à remettre cela à plus tard. Pendant trois jours, l'ordinateur prend en compte la similarité des feuilles du modèle - je pense à optimiser l'algorithme - trop long....
Oui, avec des nombres binaires, c'est plus compliqué. Mais je ne comprends pas en quoi la normalisation peut être utile ici.
En général, je suppose qu'il est nécessaire de réduire la dimensionnalité. Mais ce n'est pas exactement ce que les auteurs voulaient. Jusqu'à présent, je suis loin d'avoir compris.
Il s'agit d'un concept différent - les données sont divisées en deux parties - comme "peut prédire" et "ne peut pas prédire" - un modèle est responsable de cela. Et lorsque de nouvelles données arrivent, elles sont évaluées pour déterminer s'il faut faire une prédiction ou non. Ainsi, les prédictions ne sont faites que sur des données qui étaient "facilement" séparables et étroitement regroupées pendant la formation, c'est-à-dire qui présentaient un signe de validité.
Ce n'est pas du tout la question. Forest et bousting ont une construction d'arbre forcée, c'est-à-dire qu'il n'y a pas d'algorithme pour se débarrasser de l'arbre s'il est mauvais. Dans les deux cas, l'arbre se voit attribuer des poids. Il peut être mauvais en raison d'un caractère aléatoire excessif dans l'algorithme, tant lors de la sélection des caractéristiques que lors de la sélection des exemples (sous-échantillons).
Non, je ne l'ai pas fait. Je verrai ce qu'il en est ce soir.
C'est vrai, c'est un moyen d'isoler les exemples qui nuisent à l'apprentissage - c'est la théorie.
L'idée est d'entraîner 100 modèles et de voir quels exemples en moyenne "empêchent" une classification fiable, puis d'essayer de les détecter avec un autre modèle.
J'ai donc pris le modèle et j'ai regardé le nombre de feuilles. Le modèle est déséquilibré avec seulement 12,2% d'unités. 17k feuilles.
J'ai fait un marquage des feuilles en classes - si l'échantillon de réponses avec la cible "1" était supérieur à la valeur initiale - 12,2%, alors la classe est "1", sinon c'est "0". L'idée de classe est ici de disposer d'informations utiles pour améliorer la classification.
Dans l'histogramme, nous voyons les valeurs dans les feuilles du modèle (X) et leur % dans le modèle (Y) - sans les classer.
Et ici, c'est la même chose, mais la classe n'est que "0".
La classe n'est que "1".
Ces coefficients dans les feuilles sont additionnés et transformés via logit, ce qui signifie qu'un signe "+" augmente la probabilité de la classe "1" et un signe "-" la diminue. Dans l'ensemble, la répartition par classe semble valable, mais le modèle est biaisé.
Nous pouvons maintenant examiner la distribution des pourcentages (en termes de précision de la classification) - séparément pour les feuilles avec "1" et avec "0".
L'histogramme pour "0" présente un grand nombre de feuilles avec une précision proche de "100 %".
Il y a ici un groupe plus important près de la valeur de séparation initiale, c'est-à-dire qu'il y a beaucoup de feuilles peu informatives, mais en même temps il y a aussi celles qui sont proches de 100 %.
En regardant le rappel, il devient clair que ces feuilles sont toutes des feuilles avec un petit nombre d'activations - moins de 5% de leur classe.
Rappel pour la classe "0"
Rappel pour la classe "1".
Nous pouvons ensuite examiner la dépendance du poids de la feuille par rapport à la précision de sa classification, également séparément pour chaque classe.
Pour la cible "0"
Pour la cible "1".
La présence d'une linéarité, bien qu'avec une gamme aussi large, est remarquable. Mais la "colonne" avec une probabilité de 100 n'est pas logique, car elle s'étend très largement sur la plage de la valeur de la feuille.
Peut-être faudrait-il supprimer cette laideur ?
Par ailleurs, si l'on regarde la valeur des feuilles en fonction de l'indicateur de rappel, on constate un faible poids dans les feuilles (proche de 0), qui a parfois une très grande valeur de réponses. Cette situation indique que la feuille n'est pas bonne, mais que le poids y est attaché. Ces feuilles peuvent-elles donc également être considérées comme du bruit et être éliminées ?
Pour la cible "0".
Pour l'objectif "1".
Je me demande quel pourcentage de feuilles du nouvel échantillon (pas du train) va "changer" de classe ?
En outre, un classique - l'interdépendance de l'exhaustivité et de l'exactitude.
Classe 0.
Classe 1.
Quoi qu'il en soit, je réfléchis à la manière de peser cela....
Voici à quoi ressemble le modèle en termes de probabilités.
Sur l'échantillon de train, nous commençons à réaliser un bénéfice de 35 %, comme dans un conte de fées !
Sur l'échantillon de test - sur la plage de 0,2 à 0,25, nous perdons une grande partie des bénéfices - les points des maximums de classe sont mélangés.
Sur l'échantillon de l'examen - on gagne encore, mais cela corrode déjà le modèle.
