Обсуждение статьи "Возможности Мастера MQL5, которые вам нужно знать (Часть 51): Обучение с подкреплением с помощью SAC"
MetaQuotes:
Здравствуйте, Стивен, спасибо за ваши познавательные статьи, я предлагаю вам добавить в экономические календари исторические данные по nfp, cpi и процентным ставкам, поскольку эти данные сильно влияют на рынок.
Ознакомьтесь с новой статьей: Техники мастера MQL5, которые вы должны знать (часть 51): Обучение с подкреплением с помощью SAC.
Автор: Стивен Нджуки
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Опубликована статья Возможности Мастера MQL5, которые вам нужно знать (Часть 51): Обучение с подкреплением с помощью SAC:
Soft Actor Critic — это еще один алгоритм обучения с подкреплением в ряду уже рассмотренных, таких как проксимальная оптимизация политики, глубокие Q-сети, SARSA и другие. Этот алгоритм, как и некоторые другие, которые мы уже рассматривали, использует нейронные сети, но с одной важной оговоркой. Всего используется три сети: две сети критиков и одна сеть актеров. Две критические сети делают прогнозы вознаграждения (Q-значения) при вводе действия и состояния среды, а минимум выходных данных этих двух сетей используется для модуляции функции потерь, применяемой для обучения сети актеров.
Входными данными для сети актеров являются координаты состояния среды, а выходные данные состоят из среднего вектора и вектора логарифмического стандартного отклонения. Используя гауссовский процесс, эти два вектора используются для получения распределения вероятностей возможных действий, доступных субъекту. Итак, в то время как две сети критиков можно тренировать традиционным способом, сеть актеров, очевидно, представляет собой нечто совершенно иное. Здесь есть во что вникнуть, поэтому давайте сначала повторим основы, прежде чем двигаться дальше. Две сети критиков для ввода данных принимают текущее состояние окружающей среды и действие. Их выход - это оценка ожидаемой доходности (значения Q) от выполнения этого действия в этом состоянии. Использование двух критиков помогает снизить смещение оценки, распространенную проблему Q-обучения.
Мы придерживаемся той же модели, которую использовали до сих пор: 9 состояний среды и 3 возможных действия. Для обработки распределения вероятностей действий нам понадобится функция логарифмических вероятностей, код которой был представлен в начале этой статьи. Компиляция с помощью Мастера и выполнение тестового запуска для оставшихся 4 месяцев окна данных дают следующие результаты:
Автор: Stephen Njuki