Queen of Gold Ai Ucb Agents
- Experts
- Florin Tudor
- 버전: 1.0
- 활성화: 15
퀸 오브 골드 AI UCB 에이전트는 규칙 기반 진입 로직과 컨텍스트 기반 상한 신뢰도(UCB) 밴디트 계층을 결합한 적응형 MQL5 전문가 어드바이저(EA)입니다. 이 시스템의 목적은 단순히 거래 기회를 감지하는 것뿐만 아니라, 주어진 시장 상황에서 어떤 행동이 가장 효과적인지 학습하고, 그 지식을 세션 간 지속적으로 유지하는 것입니다.
작동 방식EA는 결정론적 신호 엔진에서 시작합니다. 기본 트리거는 연속된 캔들 패턴을 기반으로 하며, 반대 방향으로 해석됩니다:
- 연속적인 하락 압력은 매수(BUY) 셋업을 생성할 수 있음
- 연속적인 상승 압력은 매도(SELL) 셋업을 생성할 수 있음
그런 다음 이 초기 셋업은 더 넓은 시장 컨텍스트 모델을 통해 평가됩니다. EA는 다음을 측정합니다:
- 스프레드 조건
- 거래량 품질
- 틱 흐름 및 폭발 행동
- 유동성 거리 / 스마트 진입 가능성
- 세션 타이밍
- 보상 체계 및 시장 체계
- 계좌 상태 및 저잔고 제한
이 기능들은 컨텍스트 키로 인코딩됩니다. 이 키가 UCB 밴디트에서 사용하는 상태 표현(state representation)입니다.
밴디트 결정 계층각 컨텍스트마다 밴디트는 여러 행동의 가치를 추정합니다:
- HOLD
- BUY_MARKET
- SELL_MARKET
- LIMIT_FOLLOW_SIGNAL
UCB 메커니즘은 두 가지를 균형 있게 관리합니다:
- 탐사(exploitation): 과거에 유사한 컨텍스트에서 성과가 좋았던 행동을 반복
- 탐험(exploration): 신뢰도가 낮을 때 덜 사용된 행동도 테스트
즉, EA는 감지된 모든 셋업을 무작정 실행하지 않습니다. EA는 다음과 같은 선택을 할 수 있습니다:
- 거래 허용
- 거래 거부
- 시장 실행 선호
- 정밀 진입이 통계적으로 더 나을 경우 제한 주문 실행 선호
시간이 지나면서 모델은 점점 더 선택적이고 컨텍스트를 인식하게 됩니다.
학습 과정포지션이 종료되면 EA는 결과를 기반으로 정규화된 보상을 계산합니다. 이 보상은 단순한 수익만을 기준으로 하지 않습니다. 다음도 고려됩니다:
- 예상 위험 대비 수익
- 불리한 편차(adverse excursion)
- 보유 기간
- 진입 유형
- 컨텍스트 마이크로스트럭처 품질
그 후 보상은 특정 컨텍스트와 선택된 팔(arm)에 대해 UCB 메모리에 기록됩니다. 이를 통해 다음이 업데이트됩니다:
- 풀 횟수(pull count)
- 누적 보상(cumulative reward)
- 감쇠 평균 보상(decayed mean reward)
결과적으로 EA는 특정 거래 조건에서 어떤 행동이 최적인지 지속적으로 정교화합니다.
지속성 및 복구시스템은 재시작 시에도 학습 내용을 유지하도록 설계되었습니다.
- UseUcbFilePersistence: 학습된 UCB 상태를 로컬에 저장
- 초기화 시 EA는 자동으로 해당 상태를 다시 불러옴
- 학습 상태가 없으면 UseUcbWarmupFromHistory가 과거 종료된 거래 데이터를 기반으로 모델을 초기화
- UseUcbJsonSnapshot은 학습된 상태를 JSON 형태로 출력하여 점검 및 진단 가능
이를 통해 EA는 연속성과 복구성을 확보하며, 매번 처음부터 학습할 필요가 없습니다.
리스크 및 실행 제어밴디트 계층은 실용적인 안전장치를 갖춘 더 넓은 실행 프레임워크 내에 포함됩니다:
- 최대 오픈 거래 수 제어
- 저잔고 보호
- 손실 후 선택적 쿨다운
- 스프레드 및 거래량 독성 필터
- 선택적 DOM 기반 확인
- 적응형 스마트 진입 동작
- 시장가 vs 제한가 실행 처리
- 바스켓 관리 및 자동 종료 로직
따라서 EA는 예측적일 뿐만 아니라 운영적으로도 방어적입니다.
전문적 요약이 EA는 하이브리드 적응 실행 시스템으로 이해하는 것이 가장 적합합니다:
- 결정론적 규칙이 후보 거래 기회를 생성
- 컨텍스트 기반 UCB가 행동 여부와 방식을 결정
- 거래 결과가 학습 신호로 변환
- 학습된 행동은 세션 간 지속 및 재사용
전문적인 관점에서, 이는 고정된 전략에 의존하지 않고, 거래 선택성, 실행 선택 및 컨텍스트 일관성을 지속적으로 개선하도록 설계된 자기 업데이트 결정 프레임워크입니다.
