Обсуждение статьи "Нейросети — это просто (Часть 64): Метод Консервативного Весового Поведенческого Клонирования (CWBC)"
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Опубликована статья Нейросети — это просто (Часть 64): Метод Консервативного Весового Поведенческого Клонирования (CWBC):
В результате тестов, проведенных в предыдущих статьях, мы пришли к выводу, что оптимальность обученной стратегии во многом зависит от используемой обучаемой выборки. В данной статье я предлагаю вам познакомиться с довольно простым и эффективном методе выбора траекторий для обучения моделей.
Авторы метода предлагают новый консервативный регуляризатор для методов поведенческого клонирования, зависящих от RTG, который явно побуждает политику оставаться близкой к исходному распределению данных. Идея заключается в обеспечении прогнозирования действий близких к исходному распределению даже при указании больших значений RTG вне распределения обучающей выборки. Что достигается добавлением положительного шума к RTG для траекторий с высоким фактическим вознаграждением и наказываем L2-расстояния между прогнозируемым действием и фактическим из обучающей выборки. Для гарантирования генерации больших значений RTG вне распределения мы генерируем шум таким образом, чтобы скорректированное значение RTG было не менее самого высокого вознаграждения в обучающей выборке.
Предлагается применять консервативную регуляризацию к траекториям, возвраты которых превышают q-й перцентиль вознаграждений в обучающей выборке. Это гарантирует, что при указании RTG вне обучающего распределения политика ведет себя аналогично траекториям с высоким вознаграждением, а не случайной траектории. Мы добавляем шум и смещаем RTG на каждом временном шаге.
Проведенные авторами метода эксперименты демонстрируют, что использование 95-го перцентиля обычно хорошо работает в различных средах и наборах данных.
Авторы метода отмечают, что предложенный консервативный регуляризатор отличается от других консервативных компонентов для методов оффлайн RL, основанных на оценке стоимости состояний и переходов. В то время как последние обычно пытаются регулировать оценку функции стоимости, чтобы предотвратить ошибку экстраполяции, предложенный метод искажает целевые вознаграждения для создания условий вне распределения и регулируется прогнозирование действий.
В процессе обучения мне удалось получить модель генерирующую прибыль на историческом отрезке обучающей выборки.
За период обучения модель совершила 141 сделку. Около 40% было закрыто с прибылью. Максимальная прибыльная сделка более чем в 4 раза превышает максимальный убыток. А средняя прибыльная сделка почти в 2 раза превышает средний убыток. Более того, средняя прибыльная сделка на 13% превышает максимальный убыток. Все это дало профит-фактор на уровне 1.11. Подобные результаты наблюдаются и на новых данных.
Автор: Dmitriy Gizlyk