Queen of Gold Ai Ucb Agents
- Experts
- Florin Tudor
- Versione: 1.0
- Attivazioni: 15
Queen of Gold AI UCB Agents è un Expert Advisor (EA) MQL5 adattivo che combina una logica di ingresso basata su regole con un livello bandito Upper Confidence Bound (UCB) contestuale. Il suo scopo non è solo rilevare opportunità di trading, ma anche apprendere quale azione sia più efficace in un dato contesto di mercato e conservare questa conoscenza tra le sessioni.
FunzionamentoL’EA parte da un motore di segnali deterministico. Il trigger di base si basa sul comportamento delle candele consecutive, interpretato in modo contrario:
- Una pressione ribassista consecutiva può generare una configurazione di acquisto (BUY)
- Una pressione rialzista consecutiva può generare una configurazione di vendita (SELL)
Questa configurazione grezza viene quindi valutata tramite un modello di contesto di mercato più ampio. L’EA misura:
- Condizioni di spread
- Qualità del volume
- Flusso e comportamento dei tick
- Distanza di liquidità / potenziale ingresso intelligente
- Tempistiche della sessione
- Regime di ricompensa e regime di mercato
- Salute del conto e vincoli di saldo basso
Queste caratteristiche vengono codificate in una chiave contestuale, che rappresenta lo stato utilizzato dal bandito UCB.
Livello decisionale del banditoPer ogni contesto, il bandito stima il valore di diverse azioni:
- HOLD
- BUY_MARKET
- SELL_MARKET
- LIMIT_FOLLOW_SIGNAL
Il meccanismo UCB bilancia due aspetti:
- Exploitation: ripetere azioni che storicamente hanno funzionato bene in contesti simili
- Exploration: testare anche azioni meno utilizzate quando la fiducia è bassa
Ciò significa che l’EA non esegue ciecamente ogni configurazione rilevata. Può:
- Consentire la transazione
- Rifiutare la transazione
- Preferire esecuzione a mercato
- Preferire esecuzione limite quando l’ingresso preciso è statisticamente migliore
Col tempo, il modello diventa più selettivo e consapevole del contesto.
Processo di apprendimentoQuando una posizione si chiude, l’EA calcola una ricompensa normalizzata basata sul risultato. Questa ricompensa non si basa solo sul profitto lordo, ma considera anche:
- Profitto relativo al rischio stimato
- Escursione avversa
- Durata della posizione
- Tipo di ingresso
- Qualità della microstruttura contestuale
La ricompensa viene poi scritta nella memoria UCB per il contesto specifico e il braccio scelto, aggiornando:
- Numero di estrazioni (pull count)
- Ricompensa cumulativa
- Ricompensa media decaduta
Di conseguenza, l’EA affina continuamente quali azioni siano ottimali per specifiche condizioni di trading.
Persistenza e recuperoIl sistema è progettato per mantenere l’apprendimento tra i riavvii:
- UseUcbFilePersistence: memorizza lo stato UCB appreso localmente
- All’inizializzazione, l’EA ricarica automaticamente questo stato
- Se non esiste uno stato appreso, UseUcbWarmupFromHistory inizializza il modello dai trade storici chiusi
- UseUcbJsonSnapshot produce uno snapshot JSON leggibile dello stato appreso per ispezione e diagnostica
Ciò consente all’EA di avere continuità e capacità di recupero, senza dover riapprendere da zero a ogni riavvio.
Controlli di rischio e di esecuzioneIl livello bandito è inserito in un framework di esecuzione più ampio con salvaguardie pratiche:
- Controllo del numero massimo di trade aperti
- Protezione da saldo basso
- Raffreddamento opzionale dopo perdite
- Filtri di tossicità su spread e volume
- Conferma opzionale basata su DOM
- Comportamento adattivo di ingresso intelligente
- Gestione esecuzione mercato vs limite
- Gestione del basket e logica di chiusura automatica
Quindi, l’EA è sia predittivo sia operativo in modalità difensiva.
Sintesi professionaleQuesto EA è meglio compreso come un sistema ibrido di esecuzione adattativa:
- Regole deterministiche generano opportunità di trading candidate
- UCB contestuale decide se e come agire
- I risultati dei trade vengono trasformati in segnali di apprendimento
- Il comportamento appreso viene conservato e riutilizzato tra le sessioni
In termini professionali, si tratta di un framework decisionale auto-aggiornante, progettato per migliorare la selettività dei trade, le scelte di esecuzione e la coerenza contestuale nel tempo, anziché affidarsi a una strategia statica e fissa.
