Обсуждение статьи "Нейросети — это просто (Часть 29): Алгоритм актер-критик с преимуществом (Advantage actor-critic)"

MetaQuotes 2022.09.16 11:27

Опубликована статья Нейросети — это просто (Часть 29): Алгоритм актер-критик с преимуществом (Advantage actor-critic):

В предыдущих статьях данной серии мы познакомились с 2-мя алгоритмами обучения с подкреплением. Каждый из них обладает своими достоинствами и недостатками. Как часто бывает в таких случаях, появляется идея совместить оба метода в некий алгоритм, который бы вобрал в себя лучшее из двух. И тем самым компенсировать недостатки каждого из них. О таком методе мы и поговорим в этой статье.

В качестве преимущества дообучения моделей из предыдущих статей можно отнести тот факт, что для проверки результатов их обучения мы можем использовать тестовые советники из предыдущей статьи. Этим я и воспользовался. После обучения модели я взял модель дообученной политики и запустил в тестере стратегий советник "REINFORCE-test.mq5" с использованием упомянутой модели. Алгоритм его построения был описан в предыдущей статье. А с полным его кодом можно познакомиться во вложении.

Ниже приведен график баланса советника в процессе тестирования. Следует отметить довольно равномерный рост баланса в процессе тестирования. Обратите внимание, что тестирование модели осуществлялась на данных, не входящих в обучающую выборку. Что говорит о состоятельности подхода для построения торговой системы. Для чистоты проверки работы именно модели все операции были совершены с фиксированным минимальным лотом без использования стоп-лосса и тейк-профита. Использование такого советника крайне не рекомендуется для реальной торговли, но хорошо демонстрирует работу обученной модели.

График тестирования обученной модели

На ценовом графике можно заметить, как быстро закрываются убыточные сделки и немного выдерживаются прибыльные позиции. Здесь надо обратить внимание, что все операции совершаются при открытии новой свечи. При этом можно заметить несколько торговых операций совершенных практически на открытии разворотных (фрактальных) свечей.

Автор: Dmitriy Gizlyk

Rasoul Mojtahedzadeh 2022.09.25 15:05 #1

Hello,

Nice work! I have been actively working on reinforcement learning based trading algorithms, and I like your articles on the subject.

I have a question regarding the results. I can see that you are just showing the trading performance of the first 10 days (2022-09-01 till 2022-09-10). Was the EA losing after the 10th day?

/Rasoul

Обсуждение статьи "Градиентный бустинг Интерполяция, аппроксимация и иже Обсуждение статьи "Нейросети -

Новый комментарий