Обсуждение статьи "Возможности Мастера MQL5, которые вам нужно знать (Часть 36): Q-обучение с цепями Маркова"
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Опубликована статья Возможности Мастера MQL5, которые вам нужно знать (Часть 36): Q-обучение с цепями Маркова:
Обучение с подкреплением — один из трех основных принципов машинного обучения, наряду с обучением с учителем и без учителя. Поэтому возникает необходимость в оптимальном управлении или изучении наилучшей долгосрочной политики, которая наилучшим образом соответствует целевой функции. Именно на этом фоне мы исследуем его возможную роль в информировании процесса обучения MLP советника, собранного в Мастере.
Пользовательские классы сигналов для собранных в Мастере советников могут играть различные роли, которые стоит изучить. В статье мы рассмотрим, как алгоритм Q-обучения в паре с цепями Маркова может помочь усовершенствовать процесс обучения многослойной сети перцептрона. Q-обучение — один из нескольких (примерно 12) алгоритмов обучения с подкреплением, поэтому по сути это также взгляд на то, как этот предмет может быть реализован в виде пользовательского сигнала и протестирован в собранном с помощью мастера советнике.
Мы рассмотрим, что такое обучение с подкреплением, алгоритм Q-обучения и этапы его цикла, изучим, как цепи Маркова могут быть интегрированы в Q-обучение, а затем, как всегда, завершим отчетами тестера стратегий. Обучение с подкреплением можно использовать в качестве независимого генератора сигналов, поскольку его циклы ("эпизоды") по сути являются формой обучения, которая количественно оценивает результаты как "вознаграждения" для каждой из "сред", в которых задействован "актер". Термины в кавычках будут определены ниже. Однако мы не используем обучение с подкреплением как необработанный сигнал, а скорее полагаемся на его возможности для дальнейшего процесса обучения, дополняя им многослойный перцептрон (MLP).
Автор: Stephen Njuki