Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Опубликована статья Нейросети — это просто (Часть 26): Обучение с подкреплением:
Продолжаем изучение методов машинного обучения. Данной статьей мы начинаем еще одну большую тему "Обучение с подкреплением". Данный подход позволяет моделям выстаивать определенные стратегии для решения поставленных задач. И мы рассчитываем, что это свойство обучения с подкреплением откроет перед нами новые горизонты построения торговых стратегий.
В своей жизни мы смотрим по сторонам, оцениваем предметы на ощупь, прислушиваемся к звукам. То есть через свои органы чувств мы оцениваем наш мир ежемоментно. В своем сознании мы фиксируем его состояние.
Аналогично, Среда (Environment) генерирует свое Состояние (State), которое оценивается Агентом (Agent).
Точно также, как и мы действуем в соответствии со своим мировоззрением, Агент (Agent) совершает Действие (Action), продиктованное его Стратегией (Policy — Политикой).
Под влиянием оказанного воздействия среда изменяется с определенной долей вероятности. При этом за каждое действие Агент (Agent) получает от Среды (Environment) некое Вознаграждение (Rewards). При этом Вознаграждение (Rewards) может быть как положительное, так и отрицательное. Именно по размеру вознаграждение Агент (Agent) может оценить полезность совершенного действия.
Автор: Dmitriy Gizlyk