L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 2552

 
Vladimir Perervenko # :

L'utilisation de prédicteurs pose un autre problème : leur dérive.

La dérive est-elle la même chose que la non-stationnarité si je comprends bien ?

Et si nous formions un modèle qui prenne un prix en entrée et produise une série stochastique maximale en corrélation avec le prix ? Avez-vous essayé quelque chose comme ça ?

 
Vladimir Perervenko #:

L'utilisation des prédicteurs pose un autre problème : leur dérive. Et ce problème doit être identifié et pris en compte à la fois dans les tests et dans l'exploitation. Il y a une traduction de l'article dans l'annexe (cherchez-en d'autres sur le web) et il y a un paquet de dériveurs. Ce n'est pas le seul. Mais le fait est que, lors de la sélection des prédicteurs, vous devez tenir compte non seulement de leur importance mais aussi de leur dérive. Pour les dérives importantes, nous les éliminons ou les transformons, pour les dérives faibles, nous devons en tenir compte (les corriger) pendant les essais et l'exploitation.

Je suis d'accord, la non-stationnarité (dérive) complique beaucoup les choses. Malheureusement, c'est beaucoup plus compliqué que dans l'exemple du spam. Mais il est nécessaire d'en tenir compte.

 
elibrarius #:
La couleur d'une bougie, même avec une erreur de 30%, peut être perdante. Nous ne savons pas combien de profit nous pouvons en tirer... la couleur est généralement bien devinée dans les mouvements lents du prix (overnight), et 1 forte bougie de jour non devinée peut valoir 10 petites bougies de nuit. Je pense que deviner la couleur des chandeliers est à nouveau une sortie aléatoire (due aux dimensions aléatoires).
C'est pourquoi j'ai fait la classification avec TP, SL. S'ils sont égaux, alors 52 % des transactions réussies sont déjà rentables. Si TP=2*SL. Alors >33% des transactions réussies seront rentables. Le meilleur résultat que j'ai obtenu est 52-53% de trades réussis avec TP=SL sur 2 ans. Mais en général, je pense utiliser la régression avec un TP/SL fixe. Pour être plus précis, faites en quelque sorte une classification sur la régression.

Oui, cela me rappelle qu'un tel objectif ne me semble pas très efficace car il ne tient pas compte de la volatilité.

Ai-je raison de supposer qu'une position est ouverte pratiquement à chaque barre pour préparer un échantillon ?

 
SanSanych Fomenko #:

En principe, il n'existe pas et ne peut exister de méthodes mathématiques permettant de faire des bonbons à partir de déchets. Soit il y a un ensemble de prédicteurs qui prédit l'enseignant, soit il n'y en a pas.

Et les modèles ne jouent pratiquement aucun rôle, pas plus que les validations croisées et autres perversions à forte intensité de calcul.


PS.

À propos, l'"importance" des prédicteurs dans le modèle n'a rien à voir avec la capacité de prédire l'enseignant.

Vous vous trompez lourdement : il n'existe pas de méthodes parfaites de construction de modèles capables de sélectionner d'elles-mêmes les "bons" prédicteurs. Je n'en ai pas connaissance.

Vous ne pouvez peut-être pas décrire le marché parfaitement, mais en appliquant l'échantillonnage et l'analyse des prédicteurs, vous pouvez améliorer considérablement le résultat du modèle, même si vous devez jeter un coup d'œil aux données pour lesquelles l'entraînement a lieu.

La question est de savoir comment sélectionner efficacement les prédicteurs et contrôler leurs changements anormaux lors de l'application du modèle.

 
Vladimir Perervenko #:

Il existe trois options pour traiter les échantillons de bruit : supprimer, re-partitionner (corriger le balisage) et séparer les échantillons de bruit dans une classe distincte. D'après mon expérience, environ 25% de l'échantillon est du "bruit". L'amélioration de la qualité est d'environ 5%, elle dépend des modèles et de la préparation des données. Je l'applique de temps en temps.

L'utilisation de prédicteurs pose un autre problème : leur dérive. Et ce problème doit être identifié et pris en compte à la fois dans les essais et dans l'exploitation. La traduction ci-jointe de l'article (cherchez-en d'autres sur le net) et il y a un paquet de dériveurs. Ce n'est pas le seul. Mais le fait est que, lors de la sélection des prédicteurs, vous devez tenir compte non seulement de leur importance mais aussi de leur dérive. Pour les produits à forte dérive, éliminez-les ou transformez-les, pour les produits à faible dérive, tenez-en compte (apportez des corrections) lors des essais et du travail.

Bonne chance

Si je comprends bien, les auteurs de l'article proposent d'analyser précisément la distribution des valeurs prédicteurs sur la fenêtre, et si elle est très différente, de signaler une anomalie. Si je comprends bien, l'exemple prend une fenêtre de 1000 indicateurs - c'est une grande fenêtre, mais apparemment statistiquement défendable. Question, quels sont les paramètres utilisés pour comparer les deux distributions afin de détecter un changement significatif de celle-ci ?

Pour aller plus loin, le changement lui-même peut être prédit par un autre prédicteur, disons que nous avons un changement de tendance globale en semaines causé par un changement de taux d'intérêt - dans tous les échantillons, de tels changements sont peu nombreux - laissons 3 et le modèle peut tout simplement ne pas capter ces prédicteurs, mais si nous combinons les deux prédicteurs, le changement "anormal" se prête à l'interprétation. J'en viens donc à l'idée que la dérive en elle-même n'est pas une raison de rejeter un prédicteur, mais une raison de chercher un facteur explicatif - c'est-à-dire d'essayer de trouver un prédicteur corrélé et de les combiner, créant ainsi un nouveau prédicteur.

Je vais ensuite décrire brièvement ma méthode : je divise les prédicteurs en "quanta" (segments) et j'estime la réponse binaire des quanta grâce à leur pouvoir prédictif. En effectuant une coupe transversale de ces estimations au cours de l'histoire, je parviens à choisir de bons ensembles de quanta qui peuvent servir de prédicteurs individuels, et peuvent également être utilisés pour sélectionner des prédicteurs de base. Cette approche permet également d'améliorer les résultats. De même, l'estimation de la stabilité du comportement des quanta, et leur sélection, sur des échantillons de contrôle améliore essentiellement les résultats de l'entraînement du modèle dans CatBoost, et ici je me demande s'il est admissible de l'utiliser ou si c'est déjà de l'auto-tromperie.

 
Aleksey Vyazmikin #:

Oui, ça me rappelle que je ne pense pas que le ciblage soit très efficace car il ne tient pas compte de la volatilité.

Je suis d'accord. La nuit, l'affaire restera en suspens pendant plusieurs heures, et la journée, elle peut se terminer en 5 minutes. C'est pourquoi je réfléchis à la manière de joindre un modèle de régression à la classification. Je ne peux pas prédire les chiffres 0,1,2 "avec un chiffre en bâton". Nous avons besoin de quelque chose de plus intelligent.

Est-ce que je comprends bien qu'une position est ouverte pratiquement à chaque barre afin de préparer un échantillon ?

Oui, s'il y a une classe d'achat/vente prévue. Il y a aussi une classe - attendre.

 
elibrarius #:

Je suis d'accord. Une affaire peut durer des heures la nuit, mais dans la journée, elle peut être terminée en 5 minutes. C'est pourquoi je me demande comment joindre un modèle de régression à la classification. Je ne peux pas prédire les nombres 0,1,2 "avec une figure de bâton". Nous avons besoin de quelque chose de plus intelligent.

Régression logistique
 
SanSanych Fomenko #:

Je ne suis pas allé sur le forum depuis quelques années et il est toujours là, comme le dit la chanson : "As you were, so you are, steppe eagle, dashing Cossack...".

La statistique commence par un axiome qui, étant un axiome, n'est pas discuté :


"Les ordures entrent, les ordures sortent".


En principe, il n'y a pas et ne peut pas y avoir de méthodes mathématiques permettant de faire un bonbon à partir d'un déchet. Soit il y a un ensemble de prédicteurs qui préviennent l'enseignant, soit il n'y en a pas.

Et les modèles ne jouent pratiquement aucun rôle, pas plus que les validations croisées et autres perversions à forte intensité de calcul.


PS.

À propos, l'"importance" des prédicteurs dans un modèle n'a rien à voir avec la capacité de prédire un enseignant.

Il y a toujours ceux qui, comme le camarade Sukhov, pensent : "Mieux vaut torturer, bien sûr").

Je suis d'accord pour dire que trouver les bons prédicteurs est plus important que le modèle spécifique. Et il est préférable de les construire en se basant principalement sur une étude du domaine concerné, plutôt que de s'appuyer uniquement sur la puissance des algorithmes de MO (et de construire des prédicteurs de manière ininterprétable à partir de barres).

Non moins importante que les prédicteurs est la fonction de perte, qui doit être bien adaptée au domaine et au problème à résoudre.

 
Je ne sais même pas si le travail avec l'AMO peut être appelé une recherche de modèles, il s'agit plutôt d'une simple approximation/adaptation à la fonction cible.
L'AMO peut-elle trouver quelque chose d'intelligent ?
 
mytarmailS #:
L'AMO peut-elle trouver quelque chose d'intelligent ?

Non, c'est une base de données de l'histoire mémorisée. Qu'est-ce qu'une feuille dans un arbre ? 10-20-100-1000 exemples/chaînes du passé, en quelque sorte sélectionnés comme similaires. Réponse en feuille : pour la classification - % de la classe la plus fréquente ou juste la classe la plus fréquente, pour la régression - moyenne arithmétique de toutes les valeurs.

En outre, s'il s'agit d'une forêt, il s'agit de la valeur moyenne de tous les arbres de la forêt. S'il s'agit d'un boosting, il additionne les valeurs de tous les arbres (chaque arbre successif corrige la somme de tous les arbres précédents pour obtenir la réponse la plus précise).