Обсуждение статьи "Возможности Мастера MQL5, которые вам нужно знать (Часть 58): Обучение с подкреплением (DDPG) совместно с паттернами скользящей средней и стохастика"
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Опубликована статья Возможности Мастера MQL5, которые вам нужно знать (Часть 58): Обучение с подкреплением (DDPG) совместно с паттернами скользящей средней и стохастика:
В нашей предыдущей статье мы протестировали 10 сигнальных паттернов, полученных с помощью двух наших индикаторов (скользящая средняя и стохастический осциллятор). Семь из них показали устойчивое движение вперед в течение годичного тестового периода. Однако из них только два сделали это, открывая как длинные, так и короткие позиции. Это было связано с ограниченным временем, отведенным на тестирование, поэтому мы настоятельно рекомендуем читателям провести тесты на большем объеме истории, прежде чем двигаться дальше.
В данном случае мы придерживаемся тезиса, согласно которому три основных режима машинного обучения могут использоваться совместно, каждый в своей "фазе". Напомним, что эти режимы включают в себя обучение с учителем (SL), обучение с подкреплением (RL) и обучение на основе вывода (IL). В предыдущей статье мы подробно рассмотрели SL, где комбинированные паттерны скользящего среднего и стохастического осциллятора были нормализованы к бинарному вектору признаков. Затем эти данные были переданы в простую нейронную сеть, которую мы обучили на валютной паре EURUSD на 2023 год, а затем провели форвардные тесты на 2024 год.
Поскольку наш подход основан на тезисе о том, что обучение с подкреплением можно использовать для обучения моделей в процессе их применения, мы хотим продемонстрировать это в данной статье, используя наши предыдущие результаты и сеть, полученные с помощью обучения с учителем. Мы предполагаем, что RL представляет собой форму обратного распространения ошибки, которая при использовании тщательно корректирует наши решения о покупке и продаже, чтобы они не основывались исключительно на прогнозируемых изменениях цены, как это было в модели SL.
Как мы уже видели в предыдущих статьях по обучению с подкреплением, эта «тонкая настройка» объединяет исследование и использование полученных знаний. Таким образом, наша сеть политик, пройдя обучение в условиях реального рынка, определит, в каких состояниях следует совершать покупки или продажи. В некоторых случаях бычий тренд не обязательно означает возможность для покупки, и наоборот. Это означает, что наша модель обучения с подкреплением выступает в качестве дополнительного фильтра для решений, принимаемых моделью обучения с учителем. В нашей модели SL в качестве состояний использовались одномерные непрерывные значения, и это будет очень похоже на пространство действий, которое мы будем использовать.
Автор: Stephen Njuki