Обсуждение статьи "Нейросети — это просто (Часть 48): Методы снижения переоценки значений Q-функции"

Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Опубликована статья Нейросети — это просто (Часть 48): Методы снижения переоценки значений Q-функции:
В предыдущей статье мы познакомились с методом DDPG, который позволяет обучать модели в непрерывном пространстве действий. Однако, как и другие методы Q-обучения, DDPG склонен к переоценки значений Q-функции. Эта проблема часто приводит к обучению агента с неоптимальной стратегией. В данной статье мы рассмотрим некоторые подходы преодоления упомянутой проблемы.
Проблема переоценки значений Q-функции проявляется довольно часто при обучении различных моделей методом DQN и его производных. Она свойственна как моделям с дискретными действиями, так и при решении задач в непрерывном пространстве действий. Причины данного явления и методы борьбы с его последствиями могут быть специфичны в каждом отдельном случае. Поэтому важен комплексный подход к решению данной проблемы. Один из таких подходов был представлен в статье "Addressing Function Approximation Error in Actor-Critic Methods", которая была опубликована в феврале 2018 года. В ней был предложен алгоритм под названием Twin Delayed Deep Deterministic policy gradient (TD3). Данный алгоритм является логичным продолжением DDPG и вносит в него некоторые улучшения, которые позволяют повысить качество обучения моделей.
Вначале авторы добавляют второго Критика. Идея не нова и ранее использовалась для моделей с дискретным пространством действий. Однако, авторы метода внесли свое понимание, видение и подход к использованию второго Критика.
Идея заключается в том, что оба Критика инициализируются случайными параметрами и параллельно обучаются на одних и тех же данных. Инициализированные разными начальными параметрами они начинают свое обучение из разных состояний. Но обучаются оба Критика на одних и тех же данных, следовательно должны двигаться к одному, в идеале глобальному, минимуму. Вполне естественно, что в процессе обучения результаты их прогнозов будут сближаться. Однако, они не будут идентичными в силу воздействия различных факторов. И да, каждый из них подвержен проблеме переоценки Q-функции. Но в отдельно взятом моменте времени, одна модель переоценит Q-функцию, а вторая недооценит. И даже когда обе модели переоценят Q-функцию, то погрешность одной модели будет меньше второй. Основываясь на этих предположениях, авторы метода предлагают использовать минимальный из прогнозов для обучения обоих Критиков. Тем самым мы минимизируем влияние переоценки Q-функции и накопление ошибки в процессе обучения.
После завершения работы по созданию программ мы переходим к процессу обучения и проверки полученных результатов. Как обычно, обучение моделей осуществлялось на исторических данных инструмента EURUSD таймфрейм H1 за период январь—май 2023 года. Параметры индикаторов и все гиперпараметры использовались установленные по умолчанию.
Сразу скажем, что процесс обучения был довольно длительный и итерационный. На первом этапе была создана база из 200 траекторий. Первый процесс обучения был запущен на 1 000 000 итераций. Обновление политики Актера осуществлялось 1 раз после каждых 10 итераций обновления параметров Критиков. А мягкое обновление целевых моделей осуществлялось после каждых 1 000 итераций обновления Критиков.
После первого этапа обучения было добавлено еще 50 траекторий в базу примеров и запущен второй этап обучения моделей. При этом количество итераций до обновления Актера и целевых моделей было снижено до 3 и 100, соответственно.
Примерно после 5 циклов обучения (на каждом цикле добавлялось 50 траекторий) была получена модель, способная генерировать прибыль на обучающей выборке. За 5 месяцем обучающей выборки модель смогла получить почти 10% дохода. Показатель не самый большой. Было совершено 58 сделок. Доля прибыльных приблизилась всего лишь к 40%. Профит фактор — 1.05, фактор восстановления — 1.50. Прибыль была достигнута благодаря размеру прибыльных позиций. Средняя прибыль от одной сделки в 1.6 раза больше среднего убытка. А максимальная прибыль в 3.5 раза превышает максимальный убыток от одной торговой операции.
Автор: Dmitriy Gizlyk