L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 2387

 
Aleksey Vyazmikin:

Si vous ne comprenez pas la description, posez des questions sur ce qui n'est pas clair - j'essaierai de mieux expliquer.

J'ai fait la même chose il y a quelques années, et j'ai abandonné à cause du travail que cela impliquait, pas de l'inutilité.

Vous trouverez ci-dessous un tableau des résultats de l'ancienne expérience, le travail se déroule comme suit :

1. Le nombre de prédicteurs est coupé en 9 morceaux.

2. Des combinaisons entre les morceaux sont créées - 512

3. Ensuite, une estimation est faite de la façon dont les échantillons se comportent en moyenne avec la présence/absence de chaque morceau.

4. Une hypothèse est faite sur la signification du morceau (positif/négatif).

5. Les morceaux importants sont décomposés en morceaux plus petits, et les moins importants sont combinés en un seul morceau (pas nécessairement dans l'ordre).

6. De nouvelles combinaisons 512 sont formées

7. Si un petit morceau affectant négativement l'échantillon est trouvé, il est exclu du dénombrement ultérieur jusqu'à ce que l'amélioration du résultat cesse, puis on peut essayer d'ajouter les morceaux exclus et analyser le résultat de la même manière. Les influences positives, en revanche, sont regroupées en un seul groupe.

Voici un exemple de l'évolution des indicateurs avec 32 itérations de ce type.



La méthode peut bien sûr être améliorée, mais cela nécessite l'expérimentation et les résultats de celle-ci.

Oui, l'amélioration n'est pas multiple, mais les résultats vous permettent également de réfléchir aux prédicteurs qui sont meilleurs ou moins bons pour le résultat et pourquoi.

Et, je veux essayer de travailler spécifiquement avec les statistiques CatBoost et de supprimer/ajouté des prédicteurs (et leurs groupes) précisément pour la raison que cela pourrait être plus rapide que l'énumération que j'utilisais précédemment.

Un autre avantage est que trop de prédicteurs conduit à des splits rares, et l'activation des feuilles peut être très rare dans l'échantillon en dehors de la formation (montré sur la capture d'écran plus tôt), ce qui diminue délibérément la qualité de la formation et de son évaluation.

C'est un peu délicat.
En quoi est-ce mieux que de simplement tester toutes les fonctionnalités en en ajoutant une ?
D'abord, entraînez-vous 1000 fois (avec 1000 fonctionnalités à tester) sur une fonctionnalité, trouvez la meilleure. Puis, 999 fois sur le meilleur jeton et 999 fois sur les autres, choisissez le deuxième meilleur. Puis sur les 2 premiers et le tiers des 998 restants, etc.
Un total de 2 cycles imbriqués.
Les modèles comportant un petit nombre de caractéristiques apprennent très rapidement. Vous en obtiendrez 20 à 30 dans un délai raisonnable. Et après 10 à 20 caractéristiques sélectionnées, les modèles cessent généralement de s'améliorer, l'ajout de nouvelles caractéristiques après celles-ci ne faisant qu'empirer le résultat.
 
Maxim Dmitrievsky:

Une perte de temps inutile

Il est clair qu'il n'y aura pas de discussion constructive - il n'y a aucune volonté d'aller au fond des choses.

 
Aleksey Vyazmikin:

Il est clair qu'il n'y aura pas de discussion constructive - il n'y a aucune volonté de comprendre le point.

Il n'y a pas de désir de souffrir des conneries, le point est clair (souffrir des conneries).

 
elibrarius:
Quelque chose de compliqué.
En quoi est-ce mieux que de simplement tester toutes les fonctionnalités en en ajoutant une ?
D'abord, entraînez-vous 1000 fois (avec 1000 fonctionnalités à tester) sur une fonctionnalité, trouvez la meilleure. Puis, 999 fois sur le meilleur jeton et 999 fois sur les autres, choisissez le deuxième meilleur. Puis sur les 2 premiers et le tiers des 998 restants, etc.
Un total de 2 cycles imbriqués.
Les modèles comportant un petit nombre de caractéristiques apprennent très rapidement. Vous en obtiendrez 20 à 30 dans un délai raisonnable. Et après 10 à 20 caractéristiques sélectionnées, les modèles cessent généralement de s'améliorer, l'ajout de nouvelles caractéristiques après celles-ci ne faisant qu'empirer le résultat.

Nous ne recherchons pas la meilleure, mais une combinaison de caractéristiques, et c'est là le problème. Pourquoi est-ce un problème, parce qu'il est impossible d'essayer toutes les combinaisons, c'est pourquoi la méthode eurétique est nécessaire. Un autre problème est la forte similarité potentielle de différents prédicteurs après leur séparation, ce qui, dans les ensembles, conduira à une surestimation de la probabilité, car il y aura de nombreuses feuilles intrinsèquement corrélées.

 

L'homme a décidé de réinventer le boosting avec le boosting, ne l'arrêtons pas.

les appels au bon sens n'ont pas aidé

 
Maxim Dmitrievsky:

aucun désir de souffrir des conneries, le point est clair (souffrance des conneries)

Pourquoi des conneries ?

Cela fait-il une différence ? Oui, cela en fait une.

Il existe une justification théorique - oui, il y en a une.

Bien sûr, il ne s'agit pas d'une amélioration d'un ordre de grandeur.

Et oui, c'est peut-être peu efficace pour vos prédicteurs - ici je peux admettre la raison du refus.

 
neuro is on fire )))
oubliez le commerce, transformez le réseau neuronal en indicateur

 
Aleksey Vyazmikin:

Pourquoi des conneries ?

Cela fait-il une différence ? Oui, cela en fait une.

Il existe une justification théorique - oui, il y en a une.

Bien sûr, il ne s'agit pas d'une amélioration d'un ordre de grandeur.

Et oui, elle peut être marginalement efficace pour vos prédicteurs - ici, je peux permettre une justification du rejet.

Vous avez déjà tout dit, je ne vous empêcherai pas de trop essayer ce que vous ne pouvez pas choisir.

 
Aleksey Vyazmikin:

Il ne faut pas chercher la meilleure, mais une combinaison des deux - c'est là le problème. Pourquoi c'est un problème, parce qu'il est impossible d'essayer toutes les combinaisons, c'est pourquoi nous avons besoin de la méthode eurétique. Un autre problème est la forte similarité potentielle de différents prédicteurs après le fractionnement, ce qui, dans les ensembles, conduira à une surestimation de la probabilité, car il y aura de nombreuses feuilles essentiellement corrélées.

Une fois le premier jeton choisi, le deuxième sera choisi avec la meilleure interaction avec le premier, et ainsi de suite. Une fois que vous atteignez 10, le prochain jeton sera choisi avec la meilleure interaction avec celui des 10 choisi précédemment, mais très probablement avec tous.
 
elibrarius:
Après avoir sélectionné la première meilleure caractéristique, la deuxième sera celle qui a la meilleure interaction avec la première, et ainsi de suite lorsque vous atteignez 10. Le prochain sera celui qui a la meilleure interaction avec celui qui a été sélectionné avant, mais très probablement avec tous.

ça ne marche pas comme ça

retirer les caractéristiques de moindre importance du modèle et le casser, puis comparer son cul avec son pouce, etc.

Raison: