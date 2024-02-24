L'Apprentissage Automatique dans le trading : théorie, modèles, pratique et trading algo - page 1144
Je ne dirais pas "exactement comme ça", la formule elle-même est correcte, mais elle ne devrait pas être calculée par les rendements des transactions, mais par les rendements quotidiens (horaires, etc.). Je ne le pense pas vraiment, la formule en elle-même est correcte, mais nous devrions calculer non pas les rendements des trades mais les rendements quotidiens (horaires, etc.), à un pas égal pour toutes les stratégies, alors les stratégies peuvent être comparées en performance en fonction de cette valeur de coefficient, sinon si ce nombre est calculé en utilisant les trades et leur montant significativement différent, ce n'est pas important, par exemple pour une stratégie sharp 0.01 et 5 pour une autre, il n'est pas clair, lequel d'entre eux est meilleur ou pire, seul le signe est important (au-dessus ou en dessous de zéro sharp).
Bien que Pantural ne parle pas exactement du ratio de Sharpe classique, il a néanmoins soulevé une question importante à ce sujet. Bien que, personnellement, je ne préfère pas utiliser le ratio de Sharpe, je préfère le ratio du profit par rapport au retrait maximal comme mesure de la performance d'une stratégie.
Je dirais que cela dépend de l'EA. S'il génère un ordre distinct de transactions, c'est-à-dire lorsqu'une position est ouverte ou fermée et que son volume ne change pas entre l'ouverture et la fermeture - il est préférable de compter par transactions. Si le volume de la position évolue de manière régulière dans le temps, l'identification des moments d'une transaction est moins significative et peut être calculée à l'aide de votre propre méthode.
La méthode panturale est plus adaptée à la vente de CTs et à la recherche d'investisseurs). Donc, avec le temps, je suppose qu'ils y passeront)
de toute façon, pantural n'a déjà aucun moyen de s'opposer :))Qu'est-ce que vous faites maintenant, vous vous baladez ? Vous ne voulez pas discuter de choses normales dans le domaine du MO ? :) J'ai besoin d'une personne qui connaît bien les formules. Le sujet est devenu vide, il n'y a plus personne avec qui en discuter.
Qu'est-ce que tu fais maintenant, tu te balades au hasard ? Tu ne veux pas discuter de choses normales dans le domaine du ministère de la Défense ? J'ai besoin de quelqu'un qui maîtrise bien les formules. Le sujet a été vidé et il n'y a plus personne avec qui en discuter.
En principe, je suis prêt à donner mon avis sur n'importe quel sujet. Mais la disponibilité de sens pour vous dans mes déclarations je ne peux pas garantir)
Je t'ai donné l'info sur les bandits ? Sujet très intéressant, mais beaucoup de formules.
Oui, je pense. Mais mettez à jour le lien et écrivez ce qui vous intéresse approximativement.
le lien ci-dessus, intéressé par les bandits adversaires pour les processus non stationnaires, avec des algorithmes combinatoires (apparemment, quelque chose comme mgua). moi-même en train de me familiariser avec l'information encore
Nous y reviendrons plus tard.
Dans leur livre, je suis immédiatement tombé sur ceci :
Tout ce que l'apprenant sait, c'est que le véritable environnement se trouve dans un ensemble E appelé classe d'environnement.
Comment voyez-vous cet ensemble E pour le commerce ?
C'est un environnement arbitraire pour un bandit, par exemple un ensemble d'indicateurs.par exemple, un indicateur rsi, pour simplifier, un ensemble d'incréments de prix multiples
Cependant, je ne comprends pas comment leur modèle est lié au commerce. De leur définition de la stratégie (politique), il ressort qu'ils ne s'intéressent qu'aux actions entreprises et à leurs résultats. Sur l'environnement (à votre avis - un ensemble d'indicateurs), ils ne le voient pas ou ne peuvent même pas le voir.
At ne devrait dépendre que de l'historique Ht-1 = (A1 , X1 , . . . , At-1 , Xt-1 ). Une politique est une mise en correspondance des historiques avec les actions.
De plus, leur environnement semble même pouvoir suivre notre comportement, et donc la récompense ne dépendra pas seulement de l'action elle-même, mais aussi de toute sa préhistoire.
Un environnement est une correspondance entre des séquences d'histoire se terminant par des actions et des récompenses.
Si la politique est approximée par un modèle (disons linéaire), nous obtenons simplement une solution sur les nouvelles données et c'est tout, en la substituant dans le modèle.
ce que vous décrivez est un processus pour trouver les meilleures récompenses.
Le principal problème de la non-stationnarité est qu'elle cesse de fonctionner sur les nouvelles données. Les bandits instables y sont décrits, mais je ne les ai pas encore abordés. Il est vrai qu'il n'y a rien que je ne sache déjà, en fin de compte :) Mais j'ai besoin d'idées [de solutions] sur la façon de donner des récompenses correctement.
Au fait, hier j'ai implémenté exactement le bandit linéaire, le résultat est quelque chose comme ceci :
En fait, l'exemple est toujours décrit dans mon article, mais il utilise une forêt aléatoire au lieu d'une forêt linéaire. Linear devrait être moins surentraînée
Enseigner sur l'avenir et tester sur le passé est quelque chose que l'on ne voit que sur ce forum))).