Y a-t-il un modèle dans ce chaos ? Essayons de le trouver ! Apprentissage automatique sur l'exemple d'un échantillon spécifique. - page 19

 

Le profit est égal au delta du mouvement des prix à partir d'un certain moment.

Rien ne me surprend encore.

Nous avons déjà dépassé les longues queues ....

 
Renat Akhtyamov #:

Le profit est égal au delta de l'évolution du prix à partir d'un certain point dans le temps.

Rien ne me surprend encore.

Nous avons déjà dépassé les longues queues ....

Pourquoi avez-vous écrit cela ? C'est vrai, on ne peut pas utiliser n'importe quel sujet pour marquer ses pensées dans les marges....

 
Aleksey Vyazmikin #:

La figure 13 montre que presque tous les prédicteurs disponibles sont utilisés, à l'exception d'un seul, mais je doute que ce soit là l'origine du problème. Ce n'est donc pas tant l'utilisation qui est en cause, mais la séquence d'utilisation dans la construction du modèle ?

Oui, c'est vrai. Si vous entraînez deux modèles avec les mêmes prédicteurs, mais que l'un d'eux comporte la première division sur un prédicteur et l'autre sur l'autre prédicteur, l'ensemble de l'arbre sous-jacent pour chaque variante sera très différent.

L'autre question est de savoir pourquoi le bousting sur le même ensemble de données rend les premières divisions différentes. Le coefficient pour le nombre de colonnes est-il !=1 comme dans la forêt ? Dans la forêt, c'est pour le caractère aléatoire. Mais je pense qu'il devrait être ==1.
Alors une autre option : des semences différentes pour les modèles ? Essayez avec le même, si le résultat est le même, alors je pense qu'il est très mauvais que la semence puisse rendre un modèle rentable non rentable.

 
Au fait, qu'est-ce que la randomisation dans Cutbust Seed ?
 
Aleksey Vyazmikin #:

Pourquoi avez-vous écrit cela ? C'est vrai, vous ne pouvez pas utiliser n'importe quel sujet pour marquer vos pensées dans les marges....

à propos de vos graphiques

 
elibrarius #:

Oui, c'est le cas. Si vous entraînez deux modèles avec les mêmes prédicteurs, mais que l'un d'entre eux est divisé en fonction d'un prédicteur et l'autre en fonction d'un autre prédicteur, l'ensemble de l'arbre sous-jacent de chaque variante sera très différent.

Ce qui prouve une fois de plus que la méthode de l'avidité est défectueuse lorsqu'il s'agit de sélectionner les divisions. J'ai moi-même fait cette expérience lors de la sélection des feuilles et j'en suis arrivé à la même conclusion.

elibrarius #:

La question est différente : pourquoi le bousting avec le même ensemble de données rend-il les premiers splits différents ? Le coefficient pour le nombre de colonnes est-il !=1 comme dans forest ? Dans forest, c'est pour le caractère aléatoire. Mais je pense qu'il devrait être ==1.

Si je comprends bien, il y a un analogue ici pour sélectionner une partie des colonnes pour l'évaluation, mais je l'ai réglé pour forcer toutes les colonnes.

elibrarius #:

Alors une autre option : différents Seed pour les modèles ? Essayez avec la même, si le résultat est le même, je pense qu'il est très mauvais que la semence puisse rendre un modèle rentable non rentable.

La semence fixe le résultat, c'est-à-dire que tout sera identique.

elibrarius #:
Au fait, qu'est-ce que Seed randomise dans Cutbust ?

Si j'ai bien compris, il met le compteur du générateur de nombres aléatoires à une certaine valeur, et ce générateur est utilisé au moins comme ils l'écrivent "il y a une randomisation de la métrique par laquelle le meilleur arbre est choisi" et il utilise en quelque sorte le générateur de nombres aléatoires plus un coefficient, qui, si j'ai bien compris, est pris à partir du paramètre --random-strength (c'est 1 pour moi).

Voici la formule :

Score += random_strength * Rand (0, lenofgrad * q)

q est un multiplicateur qui diminue au fur et à mesure que l'itération augmente. Ainsi, l'aléa diminue vers la fin.

"

Mais ils écrivent aussi qu'un sous-échantillon peut être utilisé pour construire un arbre, mais j'utilise le mode d'application complète de l'échantillon "--boosting-type Plain".


Il y a aussi un effet, si j'enlève des colonnes après l'entraînement, qui n'utilisent pas le modèle, alors je ne peux pas obtenir le modèle avec le même Seed - ce qui n'est pas clair.

 
Renat Akhtyamov #:

vos graphiques sont écrits

Comment " Le profit est égal au delta du mouvement du prix à partir d'un certain point dans le temps " s'applique-t-il à ces graphiques. " ?

Et cette phrase "Long tails we have already passed ...." devrait-elle signifier que je vous offre une forme de formation ? Mais je ne fais pas cela, et les queues sont généralement utilisées ici sur le forum pour modéliser la densité de distribution des variations de prix - pas du tout ce que j'ai sur l'histogramme. Et ici, nous ne devrions pas parler de risques, mais du fait qu'il est plus difficile de construire un modèle par hasard que si l'on comprend la structure de l'importance des prédicteurs et leur dépendance.

 
Aleksey Vyazmikin #:

Quel est le rapport entre "le profit est égal au delta du mouvement des prix à partir d'un certain point dans le temps" et ces graphiques ? " ?

Et cette phrase " Long tails we have already passed .... ", dois-je comprendre que je vous offre une forme de formation ? Mais ce n'est pas ce que je fais, et les queues sont généralement utilisées ici sur le forum pour modéliser la densité de distribution des variations de prix - pas du tout ce que j'ai sur l'histogramme. Et ici, nous ne devrions pas parler de risques, mais du fait qu'il est plus difficile de construire un modèle par hasard que si l'on comprend la structure de l'importance des prédicteurs et leur dépendance.

Je répondais au fait qu'il existe un modèle dans le chaos.

C'est précisément ce type d'histogrammes, quelle que soit la logique, l'approche, la formule, la théorie, etc. que vous appliquez. Vous avez appliqué et vous ne trouverez pas d'autres modèles

 
Aleksey Vyazmikin #:

Ce qui prouve une fois de plus que la méthode de sélection de l'avidité est défectueuse. J'ai moi-même expérimenté cette méthode lors de la sélection des feuilles et j'en suis arrivé à la même conclusion.

Et sans cupidité ? Vous pourriez en calculer un autre pour chaque division et sélectionner une paire à la fois, mais dans votre cas, la durée des calculs sera multipliée par plus de 5 000. Il est plus facile de faire la moyenne de cent modèles.

Si j'ai bien compris, il existe un analogue pour la sélection d'une partie des colonnes pour l'estimation, mais j'ai forcé l'utilisation de toutes les colonnes.

Mais ils disent aussi qu'un sous-échantillon peut être utilisé pour construire un arbre, mais j'utilise le mode d'application complète de l'échantillon "--boosting-type Plain".

Pour réduire l'influence du hasard, c'est une bonne chose. Sinon, il faut faire la moyenne de 20 à 100 modèles comme dans la forêt.

Aleksey Vyazmikin #:

Si je comprends bien, le compteur du générateur aléatoire est réglé sur une certaine valeur, mais ce générateur est utilisé au moins comme ils l'écrivent "il y a une randomisation de la métrique, par laquelle le meilleur arbre est choisi" et il utilise en quelque sorte un générateur aléatoire plus un coefficient, qui, si je comprends bien, est pris dans le paramètre --random-strength (j'ai 1).

Voici la formule :

Score += random_strength * Rand (0, lenofgrad * q)

q est un multiplicateur qui diminue au fur et à mesure que l'itération augmente. Ainsi, l'aléa diminue vers la fin.

En d'autres termes, il s'avère que les arbres d'affinage ne sont pas nécessairement les meilleurs, mais qu'ils sont aléatoirement moins bons.
D'où l'écart entre les modèles, du prunier au rentable.
À en juger par les diagrammes de distribution, il y a plus de modèles drainants, c'est-à-dire que si nous faisons la moyenne, le résultat moyen sera non rentable.



Devrais-je essayer random-strength = 0 ? Avec un peu de chance, les changements de semences cesseront de modifier le modèle après cela. Peut-être créer un modèle avec de meilleurs arbres de raffinement plutôt que de mauvais arbres aléatoires. Si le meilleur modèle est la prune, alors la recherche sur ces données de 10000 modèles aléatoires au hasard le meilleur est le moyen de la prune sur le réel.

On peut aussi faire la moyenne de quelques modèles choisis au hasard, comme dans la forêt. Parce que le meilleur modèle peut être réentraîné.

 
Renat Akhtyamov #:

Je répondais au fait qu'il y a un modèle dans le chaos.

Les histogrammes ne sont que de ce type, quelle que soit la logique, l'approche, la formule, la théorie, etc. que vous appliquez. Vous avez appliqué et vous ne trouverez pas d'autres modèles.

Comment voulez-vous dire qu'il y a un modèle, mais que vous ne le trouverez pas ? Ou bien la régularité se trouve-t-elle dans le hasard ?

Raison: