Discussion de l'article "Mesure des Informations sur les Indicateurs"

 

Un nouvel article Mesure des Informations sur les Indicateurs a été publié :

L'apprentissage automatique est devenu une méthode populaire pour l'élaboration de stratégies. Alors que l'accent a été mis sur la maximisation de la rentabilité et de la précision des prédictions, l'importance du traitement des données utilisées pour construire des modèles prédictifs n'a pas fait l'objet d'une grande attention. Dans cet article, nous envisageons d'utiliser le concept d'entropie pour évaluer l'adéquation des indicateurs à utiliser dans la construction de modèles prédictifs, comme indiqué dans le livre Testing and Tuning Market Trading Systems de Timothy Masters.

À titre d'exemple, nous examinons certaines propriétés statistiques de deux indicateurs analysés ci-dessus.

William's Percent Range

La distribution du William’s Percent Range montre que presque toutes les valeurs sont réparties sur l'ensemble de l’intervalle ; hormis le fait qu'elle soit multi-modale, la distribution est assez uniforme. Une telle distribution est idéale et se reflète dans la valeur de l'entropie.

Market Facilitation Index

Cela contraste avec la distribution du Market Facilitation Index qui a une longue queue. Un tel indicateur serait problématique pour la plupart des algorithmes d'apprentissage et nécessite une transformation des valeurs. La transformation des valeurs devrait conduire à une amélioration de l'entropie relative de l'indicateur.


Auteur : Francis Dube

 
MetaQuotes:

Un article Mesurer l'informativité d'un indicateur a été publié :

Auteur : Francis Dube

Pourquoi tant de lettres ? L'auteur a-t-il identifié un indicateur valable ? En d'autres termes, a-t-il trouvé quelque chose pour l'argent ? La question est simple : existe-t-il un outil pour gagner de l'argent avec une forte probabilité de profit ? Ou bien est-ce que c'est du pareil au même, comme à la roulette, soit ça marche, soit ça ne marche pas.
Des millions d'utilisateurs, des millions de stratèges, des années et des années de trading, et le marché ne s'est pas encore effondré à cause du nouveau Klondiker. Comme ils n'ont pas apporté d'options valables, ils n'apportent pas non plus, comme eux-mêmes, de self pick. L'auteur a-t-il déterré le Graal ou s'agit-il d'une science académique et l'auteur ne se porte pas garant de la croissance du depo ? Heh
 
Ce genre d'article est exactement ce qui manque à MQl5. Merci de votre attention.
 

Merci d'avoir soulevé ce sujet.

Veuillez commenter les informations quelque peu contradictoires, en citant deux parties de l'article :

"

Pour appliquer l'équation de l'entropie à des variables continues, nous devons discrétiser les valeurs de l'indicateur. Pour ce faire, nous divisons la plage de valeurs en intervalles de taille égale, puis nous comptons le nombre de valeurs comprises dans chaque intervalle. Grâce à cette méthode, l'ensemble initial énumérant la plage maximale de toutes les valeurs indicatrices est remplacé par des sous-ensembles représentant chacun des intervalles sélectionnés.

...

Intervalles - le nombre d'intervalles à échantillonner. L'auteur de TTMTS spécifie 20 intervalles pour un échantillon de plusieurs milliers de personnes, 2 étant une valeur minimale absolue. J'ai ajouté ma propre approche d'une valeur appropriée en implémentant la possibilité de varier le nombre d'intervalles par rapport à la taille de l'échantillon, en particulier 51 pour 1000 échantillons. Cette option est disponible si l'utilisateur saisit une valeur inférieure à 2. Ainsi, en définissant Intervalle sur un nombre inférieur à 2, le nombre d'intervalles utilisés variera en fonction du nombre de barres analysées.

"

Question : s'agit-il de la même chose ? Si oui, pourquoi le nombre de séparateurs de la plage de valeurs de l'indicateur dépend-il du nombre de barres ? Quelle est la logique ? Jusqu'à présent, je peux supposer que cela n'est utile que pour les indicateurs qui ont une composante accumulative.

Si ce n'est pas le cas, à quoi correspond le nombre de diviseurs de la fourchette ?


L'article manque d'un tableau qui montrerait clairement l'avantage de la transformation des valeurs des indicateurs.

 
MetaQuotes:

Un nouvel article intitulé "Mesurer l'information sur les indicateurs" a été publié :

Auteur : Francis Dube

Bonjour Francis

Pouvez-vous m'expliquer comment tester un indicateur personnalisé pour EntrophyAnalysis.

J'essaie d'utiliser ce qui suit :

input ENUM_TIMEFRAMES Timeframe=PERIOD_H1 ;

input ENUM_INDICATOR IndicatorType=IND_CUSTOM ;

input string CustomIndicatorName="Indicators\NKGold\NRegression\NNonLinRegress.ex5" ;

input bool UseDefaults=true ;

input string IndicatorParameterTypes="int,CENUM_APPLIED_PRICE" ;

input string IndicatorParameterValues="34,priceHA_WEIGHTED" ;

et j'obtiens l'erreur suivante

2025.03.26 19:53:11.282 EntropyIndicatorAnalysis (XAUUSD,H1) L'indicateur personnalisé 'Indicators\NKGold\Regression\iNonLinRegress.ex5' ne peut pas être chargé [4802].

2025.03.26 19:53:11.282 EntropyIndicatorAnalysis (XAUUSD,H1) Gestion d'indicateur non valide, code d'erreur : 4802


 
Ivbmw #:
Pourquoi tant de lettres ? L'auteur a-t-il identifié un indicateur valable ? En d'autres termes, a-t-il trouvé quelque chose pour l'argent ? La question est simple : existe-t-il un outil pour gagner de l'argent avec une forte probabilité de profit ? Ou bien est-ce que c'est du pareil au même, comme à la roulette, soit ça marche, soit ça ne marche pas.
Des millions d'utilisateurs, des millions de stratèges, des années et des années de trading, et le marché ne s'est pas encore effondré à cause du nouveau Klondiker. Comme ils n'ont pas apporté d'options valables, ils n'apportent pas non plus, comme eux-mêmes, de self pick. L'auteur a-t-il déterré le Graal ou s'agit-il d'une science académique et l'auteur ne se porte pas garant de la croissance du depo ? Heh

L’article ne prétend pas avoir découvert un Graal qui imprimerait des billets à coup sûr. Son propos est plus modeste : montrer comment mesurer la richesse d’information qu’un indicateur apporte à un modèle d'apprentissage.

  • Un score d’entropie élevé signifie seulement que la variable n’est pas triviale (elle varie suffisamment pour que l’algorithme puisse apprendre). Cela ne garantit ni direction, ni timing, ni money‑management gagnant.

  • Même un indicateur très informatif peut se révéler non prédictif si le marché est déjà efficient sur l’horizon choisi, si les coûts de transaction absorbent le signal ou si le modèle est mal conçu.

  • Dans la pratique, on empile plusieurs briques : sélection d’indicateurs à bonne entropie, tests hors‑échantillon stricts, gestion du risque, exécution robuste, surveillance en temps réel. Ce n’est qu’en combinant toutes ces étapes qu’on espère dégager un petit edge et il doit être revérifié en permanence, car le marché s’adapte.

  • L’auteur fournit un outil de diagnostic académique. Il n’endosse aucune garantie de succès. Libre à chacun de s’en servir pour affiner ses features ou au contraire pour constater qu’un indicateur fétiche n’apporte rien de neuf.

En résumé, l’entropie est un thermomètre, pas un élixir. Elle aide à repérer rapidement les variables mortes ou sous‑exploitées. Eelle ne remplace ni la stratégie, ni le contrôle du risque.

 
Aleksey Vyazmikin #:

Veuillez commenter les informations quelque peu contradictoires, en citant deux parties de l'article :

"

Pour appliquer l'équation de l'entropie à des variables continues, nous devons discrétiser les valeurs de l'indicateur. Pour ce faire, nous divisons la plage de valeurs en intervalles de taille égale, puis nous comptons le nombre de valeurs comprises dans chaque intervalle. Grâce à cette méthode, l'ensemble initial énumérant la plage maximale de toutes les valeurs indicatrices est remplacé par des sous-ensembles représentant chacun des intervalles sélectionnés.

...

Intervalles - le nombre d'intervalles à échantillonner. L'auteur de TTMTS spécifie 20 intervalles pour un échantillon de plusieurs milliers de personnes, 2 étant une valeur minimale absolue. J'ai ajouté ma propre approche d'une valeur appropriée en implémentant la possibilité de varier le nombre d'intervalles par rapport à la taille de l'échantillon, en particulier 51 pour 1000 échantillons. Cette option est disponible si l'utilisateur saisit une valeur inférieure à 2. Ainsi, en définissant Intervalle sur un nombre inférieur à 2, le nombre d'intervalles utilisés variera en fonction du nombre de barres analysées.

"

Question : s'agit-il de la même chose ? Si oui, pourquoi le nombre de séparateurs de la plage de valeurs de l'indicateur dépend-il du nombre de barres ? Quelle est la logique ? Jusqu'à présent, je peux supposer que cela n'est utile que pour les indicateurs qui ont une composante accumulative.

Si ce n'est pas le cas, à quoi correspond le nombre de diviseurs de la fourchette ?


L'article manque d'un tableau qui montrerait clairement l'avantage de la transformation des valeurs des indicateurs.

Pour estimer l’entropie d’une variable continue, on coupe sa plage de valeurs en intervalles égaux et on compte les observations dans chaque intervalle. Le script vous laisse choisir ce nombre d’intervalles (Intervals). Si vous saisissez < 2 (ou laissez la valeur par défaut), le script déclenche son propre heuristique : 51 intervalles pour 1 000 observations, c’est‑à‑dire un nombre proportionnel à la taille de l’échantillon. Si vous saisissez une valeur > 2, il l’utilise telle quelle. Il ne s’agit donc pas de deux méthodes concurrentes. L’une décrit le concept, l’autre explique comment le code choisit le paramètre lorsqu’on ne le fixe pas soi‑même.


Lorsqu'on a trop peu d’intervalles, on colle artificiellement les valeurs entre elles. L’entropie est sous‑estimée (biais). Lorsqu'on a trop d’intervalles pour un petit échantillon, il y a beaucoup de bacs vides ou à 1 observation. L’entropie est très bruitée (variance). Plusieurs règles automatiques existent pour les histogrammes : Sturges, racine carrée, Freedman‑Diaconis, Scott, etc). Elles ont toutes la même idée : augmenter la résolution quand on dispose de plus de données, parce qu’on peut alors estimer des probabilités plus fines sans exploser la variance.


Pour 1 000 barres, 51 intervalles => 20 points par bac si la distribution était uniforme. Ce ratio (entre 15 et 30 obs / classe) est un compromis classique que l’auteur a repris de la littérature. Il maintient donc un nombre moyen d’observations par classe à peu près constant. Cela n’a rien à voir avec le fait qu’un indicateur soit ou non accumulatif. La logique est purement statistique. On adapte la finesse de la grille à la quantité d’information disponible.


Plus le nombre de barres verticales de l’histogramme est élevé :
  • plus la distribution fine de l’indicateur est visible,

  • plus le calcul de l’entropie peut capter des détails (pics / creux),

  • mais plus il faut de données pour que ces fréquences soient stables.


C’est vrai que l’article aurait gagné à montrer, par exemple, l’entropie d’un même indicateur avant et après les transformations. Mais la démonstration reste facile à faire sois-même. Il suffit de cocher ApplyTransform=true dans le script et de lire la double sortie : before / after. Le code a volontairement laissé cette partie interactive pour que chacun teste ses propres actifs et horizons.

 
niouininon #:
Plus il y a de barres verticales dans l'histogramme :
  • plus la subtilité de la distribution de l'indice est perceptible,

  • plus le calcul de l'entropie peut saisir de détails (pics et creux),

  • mais plus il faut de données pour rendre ces fréquences stables.

Si je comprends bien, la visualisation des scores des indicateurs dans un échantillon au moyen d'un histogramme n'a rien à voir avec les méthodes de transformation des données de l'auteur. Ai-je raison ?

Je suis plus intéressé par la question de l'effet d'entraînement de ces transformations. Je peux le supposer pour les réseaux neuronaux, mais pas pour les méthodes arborescentes.

 
Aleksey Vyazmikin #:

Si je comprends bien, la visualisation des scores des indicateurs dans un échantillon au moyen d'un histogramme n'a rien à voir avec les méthodes de transformation des données de l'auteur. Ai-je raison ?

Je suis plus intéressé par la question de l'effet d'entraînement de ces transformations. Je peux le supposer pour les réseaux neuronaux, mais pas pour les méthodes arborescentes.

L’histogramme que trace le script n’est qu’un outil de diagnostic visuel. Il montre comment les valeurs d’un indicateur se répartissent dans l’échantillon,avant ou après transformation. Les fonctions sqrt, log, tanh, etc. agissent sur les données. L’histogramme se contente d’afficher le résultat. Les deux étapes sont donc indépendantes. D'abord, on transforme (ou non) la série, puis on dessine son histogramme pour voir si l’entropie a changé.

Transformer un indicateur devenu plutôt monotone (log, sqrt) ne change souvent pas le score. L’ordre reste le même même si seuls les seuils bougent. Par contre, les transformations non monotones (tanh qui sature) changent l’ordre de certains points. Cela signifie que certaines transformations préparent mieux le terrain pour créer des interactions non linéaires.

 
niouininon #:

L'histogramme construit par le script est simplement un outil de diagnostic visuel. Il montre comment les valeurs de l'indicateur sont distribuées dans l'échantillon avant ou après transformation. Les fonctions sqrt, log, tanh, etc. affectent les données. L'histogramme affiche simplement le résultat. Les deux étapes sont donc indépendantes. D'abord, la série est transformée (ou non), puis son histogramme est tracé pour voir si l'entropie a changé.

Ok, j'ai compris l'idée maintenant. Je pensais à autre chose à l'origine.

niouininon #:

Transformer un exposant devenu assez monotone (log, sqrt) ne change souvent pas le résultat. Par contre, les transformations non monotones (tanh, saturates) changent l'ordre de certains points. Cela signifie que certaines transformations préparent mieux le terrain pour créer des interactions non linéaires.

Comment cela change-t-il l'ordre des points ? Pouvez-vous donner un exemple d'une telle transformation ? Jusqu'à présent, j'ai compris qu'il y avait des points ABC avec des valeurs propres dans l'ordre croissant, et qu'après la transformation, l'ordre croissant est devenu, alternativement, BAC.

 
Aleksey Vyazmikin #:

Ok, j'ai compris l'idée maintenant. Je pensais à autre chose à l'origine.

Comment cela change-t-il l'ordre des points ? Pouvez-vous donner un exemple d'une telle transformation ? Jusqu'à présent, j'ai compris qu'il y avait des points ABC avec des valeurs propres dans l'ordre croissant, et qu'après la transformation, l'ordre croissant est devenu, alternativement, BAC.

Les fonctions du script (racine, log, tanh, etc.) sont toutes monotones croissantes. Elles conservent toutes l’ordre des points. Ma phrase précédente était ambigüe. L’ordre ne bascule de ABC vers BAC que si l’on fait appel à une transformation non monotone. Par exemple, sauf erreur de ma part, la fonction f(x)=∣x−50∣ n’est pas monotone car elle replie l’axe autour de x= 50. Donc, l’ordre devient BAC. Dans son introduction l'auteur de l'article nous indique le livre "Testing and Tuning Market Trading Systems (TTMTS) de Timothy Masters". En ce qui me concerne, je prévois de me le procurer car comme vous, il me reste quelques interrogations. De plus, je n'ai pas une bonne connaissance des modèles d'apprentissage, ni des réseaux neuronaux. Apparemment, on le trouve assez facilement sur des sites de vente en ligne. Son contenu devrait beaucuop nous apporter car l'article, si intéressant est-il, reste sans doute partiel et/ou dans tous les cas assez synthétique.