Обсуждение статьи "Возможности Мастера MQL5, которые вам нужно знать (Часть 47): Обучение с подкреплением (алгоритм временных различий)"
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Опубликована статья Возможности Мастера MQL5, которые вам нужно знать (Часть 47): Обучение с подкреплением (алгоритм временных различий):
Рассмотрим, чем TD отличается от других алгоритмов, таких как Монте-Карло, Q-обучение и SARSA. Целью статьи является разрешение сложностей, связанных с обучением TD, путем подчеркивания его уникальной способности постепенно обновлять оценки значений на основе частичной информации из эпизодов, а не ждать завершения эпизодов, как это происходит в методах Монте-Карло. Это различие делает обучение TD мощным инструментом, особенно в тех случаях, когда среда динамична и требует оперативного обновления политики обучения.
В предыдущей статье об обучении с учителем мы рассмотрели алгоритм Монте-Карло, который собирал информацию о вознаграждениях в течение нескольких циклов, прежде чем выполнить одно обновление для каждого эпизода. TD подразумевает обучение на основе частичных и неполных эпизодов, что очень похоже на алгоритмы Q-обучения и SARSA, которые мы рассматривали ранее здесь и здесь.
Автор: Stephen Njuki