Queen of Gold Ai Ucb Agents
- Experts
- Florin Tudor
- Version: 1.0
- Activations: 15
Queen of Gold AI UCB Agents est un Expert Advisor (EA) MQL5 adaptatif qui combine une logique d’entrée basée sur des règles avec une couche de bandit Upper Confidence Bound (UCB) contextuelle. Son objectif n’est pas seulement de détecter les opportunités de trading, mais également d’apprendre quelle action est la plus efficace dans un contexte de marché donné et de conserver cette connaissance entre les sessions.
FonctionnementL’EA commence par un moteur de signaux déterministe. Son déclencheur de base repose sur le comportement des bougies consécutives, interprété de manière contrariante :
- Une pression baissière consécutive peut générer une configuration d’achat (BUY)
- Une pression haussière consécutive peut générer une configuration de vente (SELL)
Cette configuration brute est ensuite évaluée via un modèle de contexte de marché plus large. L’EA mesure :
- Les conditions du spread
- La qualité du volume
- Le flux et le comportement des ticks
- La distance de liquidité / potentiel d’entrée intelligente
- Le timing des sessions
- Le régime de récompense et le régime de marché
- La santé du compte et les contraintes de solde faible
Ces caractéristiques sont encodées dans une clé contextuelle, utilisée comme représentation d’état par le bandit UCB.
Couche de décision du banditPour chaque contexte, le bandit estime la valeur de plusieurs actions :
- HOLD
- BUY_MARKET
- SELL_MARKET
- LIMIT_FOLLOW_SIGNAL
Le mécanisme UCB équilibre deux aspects :
- Exploitation : répéter les actions qui ont historiquement bien fonctionné dans des contextes similaires
- Exploration : tester également les actions moins utilisées lorsque la confiance est faible
Ainsi, l’EA n’exécute pas aveuglément chaque configuration détectée. Il peut :
- Autoriser la transaction
- Refuser la transaction
- Préférer l’exécution au marché
- Préférer l’exécution limite lorsque l’entrée précise est statistiquement meilleure
Avec le temps, le modèle devient plus sélectif et conscient du contexte.
Processus d’apprentissageLorsqu’une position se ferme, l’EA calcule une récompense normalisée basée sur le résultat. Cette récompense ne se base pas uniquement sur le profit brut. Elle prend également en compte :
- Le profit relatif au risque estimé
- L’excursion défavorable
- La durée de détention
- Le type d’entrée
- La qualité de la microstructure contextuelle
La récompense est ensuite enregistrée dans la mémoire UCB pour le contexte spécifique et le bras choisi, ce qui met à jour :
- Le nombre de tirages (pull count)
- La récompense cumulative
- La récompense moyenne décroissante
Ainsi, l’EA affine continuellement quelles actions sont les meilleures pour des conditions de trading spécifiques.
Persistance et récupérationLe système est conçu pour conserver l’apprentissage entre les redémarrages :
- UseUcbFilePersistence : stocke localement l’état UCB appris
- À l’initialisation, l’EA recharge automatiquement cet état
- Si aucun état appris n’existe, UseUcbWarmupFromHistory initialise le modèle à partir des transactions historiques clôturées
- UseUcbJsonSnapshot produit un instantané JSON lisible de l’état appris pour inspection et diagnostic
Ainsi, l’EA bénéficie à la fois de continuité et de capacité de récupération, sans avoir besoin de réapprendre à zéro à chaque redémarrage.
Contrôles de risque et d’exécutionLa couche bandit se situe dans un cadre d’exécution plus large avec des sécurités pratiques :
- Contrôle du nombre maximal de transactions ouvertes
- Protection contre le solde faible
- Refroidissement optionnel après pertes
- Filtres de toxicité du spread et du volume
- Confirmation optionnelle basée sur le DOM
- Comportement adaptatif d’entrée intelligente
- Gestion de l’exécution marché vs limite
- Gestion de panier et logique de clôture automatique
Ainsi, l’EA est à la fois prédictif et défensif opérationnellement.
Résumé professionnelCet EA est mieux compris comme un système d’exécution hybride et adaptatif :
- Les règles déterministes génèrent des opportunités de trading candidates
- Le UCB contextuel décide quand et comment agir
- Les résultats des transactions sont transformés en signaux d’apprentissage
- Le comportement appris est conservé et réutilisé entre les sessions
En termes professionnels, il s’agit d’un cadre de décision auto-mise à jour, conçu pour améliorer la sélectivité des transactions, le choix d’exécution et la cohérence contextuelle dans le temps, plutôt que de se fier à une stratégie fixe et statique.
