Обсуждение статьи "Возможности Мастера MQL5, которые вам нужно знать (Часть 43): Обучение с подкреплением с помощью SARSA"

 

Опубликована статья Возможности Мастера MQL5, которые вам нужно знать (Часть 43): Обучение с подкреплением с помощью SARSA:

SARSA (State-Action-Reward-State-Action, состояние-действие-вознаграждение-состояние-действие) — еще один алгоритм, который можно использовать при реализации обучения с подкреплением. Рассмотрим, как можно реализовать этот алгоритм в качестве независимой модели (а не просто механизма обучения) в советниках, собранных в Мастере, аналогично тому, как мы это делали в случаях с Q-обучением и DQN.

Обучение с подкреплением (reinforcement learning, RL) позволяет торговым системам обучаться на основе данных окружающей среды или рынка и, таким образом, со временем улучшать свои торговые возможности. RL позволяет адаптироваться к изменяющимся рыночным условиям, что делает его пригодным для определенных динамичных финансовых рынков и ценных бумаг. Финансовые рынки непредсказуемы, поскольку зачастую им свойственна высокая степень неопределенности. RL отлично справляется с принятием решений в условиях неопределенности, постоянно корректируя свои действия на основе получаемой обратной связи (вознаграждений), что очень полезно для трейдеров при работе в нестабильных рыночных условиях.

Такой подход можно сравнить с советником, который прикреплен к графику и также периодически самостоятельно оптимизируется на основе недавней истории цен для точной настройки своих параметров. RL стремится сделать примерно то же самое. В нашей серии статей мы рассматривали RL в строгом смысле определения как третий подход к машинному обучению (помимо обучения с учителем и без). Однако мы пока не рассматривали его как независимую модель, которую можно использовать в прогнозировании.

Именно это мы и сделаем в статье. Мы не просто вводим алгоритм RL SARSA, но стремимся реализовать его в другом пользовательском классе сигналов советников, собранных в Мастере, как независимую модель сигналов. При использовании в качестве модели сигнала RL автоматизирует процесс принятия решений, снижая необходимость постоянного вмешательства человека, что в свою очередь (по крайней мере, в теории) может обеспечить высокочастотную торговлю и реагирование на движения рынка в реальном времени. Кроме того, благодаря постоянной обратной связи от механизма вознаграждения, модели с подкреплением, как правило, учатся лучше управлять рисками. Это реализуется посредством наказания за высокорисковые действия низким вознаграждением, а чистый эффект от заключается в том, что RL минимизирует подверженность волатильным или убыточным сделкам.

Тестовые прогоны на дневном таймфрейме для EURJPY за 2022 год, которые призваны лишь продемонстрировать удобство использования советника, дают нам следующие результаты:

r1

c1

Автор: Stephen Njuki