L'apprentissage automatique dans la négociation : théorie, modèles, pratique et algo-trading - page 2536

 
Aleksey Nikolayev #:

Un scientifique réputé a écrit que le prix doit nécessairement être logarithmique et tous les théoriciens continuent aveuglément à le faire.

John Tukey ? Ou Box et Cox ?

 
transcendantamer #:

John Tukey ? Ou Box et Cox ?

Peut-être Eugene Fama dans sa thèse, mais je ne suis pas sûr.

 
Renat Akhtyamov #:

Je crois que ça a déjà été dit ici.

Eh bien, le problème de l'aplatissement et de la tendance va ressortir à nouveau


...........

La méthode est la suivante :

1) Vous disposez d'un modèle quelconque (par exemple, une régression linéaire).

2) Vous disposez d'un certain nombre d'observations dont vous n'êtes pas sûr.

Créez ensuite un bruit aléatoire et combinez-le avec un ensemble d'observations, répétez plusieurs fois.

Comparez ensuite le comportement du modèle sur les différents ensembles résultants, et tirez-en quelques conclusions.

En option, nous pouvons sélectionner le comportement le plus stable comme étant le préféré.

Il ne s'agit pas d'une baguette magique, mais simplement d'un outil d'analyse et de légère amélioration possible, qui ne rend pas un modèle erroné correct.

 
LenaTrap #:

...........

La méthode est la suivante :

1) Vous disposez d'un modèle quelconque (par exemple, une régression linéaire).

2) Une série d'observations dont vous n'êtes pas sûr.

Créez ensuite un bruit aléatoire et combinez-le avec un ensemble d'observations, répétez plusieurs fois.

Comparez ensuite le comportement du modèle sur les différents ensembles résultants, et tirez-en quelques conclusions.

En option, nous pouvons sélectionner le comportement le plus stable comme étant le préféré.

Il ne s'agit pas d'une baguette magique, mais simplement d'un outil d'analyse et de légère amélioration possible, qui ne transforme pas un mauvais modèle en un bon.

Ce n'est pas clair. Il existe une série déterministe et un modèle qui la décrit avec une précision de 100%. Vous ajoutez du bruit et la précision du modèle est de 52%. Quel est le but de cette action ?
 
Dmytryi Nazarchuk #:
Pas clair. Il existe une série déterministe et un modèle qui la décrit avec une précision de 100%. Vous ajoutez du bruit - la précision de la description du modèle est de 52%. Quelle est la signification de cette action ?

Dans le code morse et les communicateurs. ça vient de là.

 
LenaTrap #:

...........

La méthode est la suivante :

1) Vous disposez d'un modèle quelconque (par exemple, une régression linéaire).

2) Une série d'observations dont vous n'êtes pas sûr.

Créez ensuite un bruit aléatoire et combinez-le avec un ensemble d'observations, répétez plusieurs fois.

Comparez ensuite le comportement du modèle sur les différents ensembles résultants, et tirez-en quelques conclusions.

En option, nous pouvons sélectionner le comportement le plus stable comme étant le préféré.

Il ne s'agit pas d'une baguette magique, mais simplement d'un outil d'analyse et de légère amélioration éventuelle, qui ne transforme pas le mauvais modèle en bon modèle.

Seulement dans certaines situations, et il y a un ensemble de situations où cela ne fonctionne pas. Le seul espoir est que par logique, ce qui n'est pas toujours le cas, il y ait moins de situations où cela ne fonctionne pas.

 
Dmytryi Nazarchuk #:
Pas clair. Il existe une série déterministe et un modèle qui la décrit avec une précision de 100%. Vous ajoutez du bruit - la précision de la description du modèle est de 52%. Quelle est la signification de cette action ?

Si vous pouvez obtenir des valeurs exactes à partir de cette série, cela ne sert à rien. Si vous ne pouvez obtenir que des valeurs approximatives, il est assez simple de vérifier si le résultat du modèle est l'erreur de vos mesures imprécises de la série originale (idéale). Il existe des formules mathématiques et des définitions précises à ce sujet, mais je ne les comprends pas.

 
LenaTrap #:

Si vous pouvez obtenir des valeurs exactes à partir de cette série, cela ne sert à rien. Si vous ne pouvez obtenir que des valeurs approximatives, alors le but est assez simple, il s'agit de vérifier si le résultat du modèle est une erreur de vos mesures imprécises de la série originale (idéale). Il existe des formules mathématiques et des définitions précises à ce sujet, mais je ne les comprends pas.

Il s'agit de la fiabilité de l'isolement des éléments recherchés, et non de l'exactitude des valeurs. Il y a le désiré, mélanger dans 10 pour cent, choisir 99, mélanger dans 50, choisir 80 ou 20... tout dépend de l'algorithme de sélection des données que vous recherchez.

Cela dépend de la qualité du bruit, bien sûr. Vous pouvez masquer n'importe quel signal si vous connaissez le signal.
 
LenaTrap #:

Si vous pouvez obtenir des valeurs exactes à partir de cette série, cela ne sert à rien. Si vous ne pouvez obtenir que des valeurs approximatives, alors le but est assez simple, il s'agit de vérifier si le résultat du modèle est une erreur de vos mesures imprécises de la série originale (idéale). Il existe des formules mathématiques et des définitions précises pour cela, mais je ne les comprends pas.

Ce n'est pas pour la régression
 
elibrarius #:
J'ai rempli les prédicteurs et la sortie de manière aléatoire. Juste pour s'assurer que l'apprentissage n'est pas possible. Je me suis assuré que c'était 50/50%.
Avec les cotations et avec l'objectif à TP=SL, c'est aussi 50/50%.

Mais que se passe-t-il si la cible n'est pas fixée au hasard ?

Ici, j'ai tenté une expérience - mon échantillon est généralement divisé en 3 parties, je les ai donc fusionnées en un seul échantillon et j'ai entraîné le modèle avec 100 arbres, puis j'ai vérifié quels prédicteurs n'ont pas été utilisés et les ai bloqués. J'ai ensuite entraîné le modèle comme d'habitude avec un arrêt sur le surentraînement dans le deuxième échantillon, et j'ai comparé les résultats dans le troisième échantillon avec la variante lorsque j'entraîne sans exclure les prédicteurs. Il s'est avéré que les résultats étaient meilleurs sur les prédicteurs sélectionnés, et ici je trouve difficile de conclure cet effet en pensant "la sélection de différents prédicteurs est due à la différence d'échantillons sur l'intervalle, en s'entraînant sur l'ensemble de l'échantillon on sélectionne automatiquement les prédicteurs qui ne perdent pas leur signification avec le temps." Cependant, cela signifie-t-il que plus l'échantillon est grand, plus le modèle est robuste sur l'horizon long ? Les prédicteurs peuvent-ils être sélectionnés pour l'apprentissage de cette manière, c'est-à-dire que cela ne contribue pas au sur-apprentissage ? En général, j'ai entendu la recommandation des fondateurs de CatBoost selon laquelle il est nécessaire de trouver les hyperparamètres du modèle, et ensuite, stupidement, de s'entraîner sur tous les échantillons accessibles pour l'application du modèle dans le travail.


elibrarius #:
Il y avait une variante avec 47,5% d'erreur, elle avait l'air cool, mais quand je l'ai connectée au testeur MT, il s'est avéré que c'était une chute au lieu d'une croissance. Il s'avère que je n'ai pas pris en compte la commission, elle a mangé cet avantage de 2%.

Voici une réflexion sur la façon de comptabiliser la commission...
Je voulais ajouter 4 pts à l'écart. Mais ce n'est pas juste. Parce que le TP et le SL seront parfois déclenchés par une demande surévaluée, mais pas sur cette barre, alors qu'ils devraient l'être dans le testeur, l'ordre des transactions suivantes peut changer.
Mais le testeur utilise le spread minimum sur la barre, il sera également différent de la réalité.

Je n'ai pas encore trouvé le meilleur moyen.

Si le marché évolue dans le sens de A de 100 points, alors la dépendance au spread ne devrait pas exister du tout - le résultat financier dépend uniquement du spread - je pense qu'il ne devrait pas être pris en compte dans la formation. Supposons que j'ai des entrées sur le marché, après que le modèle les ait confirmées ou non, et qu'au moment de les évaluer, j'ai la possibilité d'élargir virtuellement le spread - c'est-à-dire que si le bénéfice est inférieur au nombre de points spécifié, il ne faut pas entrer. Le spread est également pris en compte dans l'analyse du modèle, lorsque le résultat est calculé par simple échantillonnage - je soustrais simplement un nombre déterminé de points du résultat financier de la transaction.

Sur Moex, les arrêts sont déclenchés là où se trouvait le prix, donc bien sûr c'est plus facile avec ça.

Raison: