Обсуждение статьи "Нейросети — это просто (Часть 70): Улучшение политики с использованием операторов в закрытой форме (CFPI)"

Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Опубликована статья Нейросети — это просто (Часть 70): Улучшение политики с использованием операторов в закрытой форме (CFPI):
В этой статье мы предлагаем познакомиться с алгоритмом, который использует операторы улучшения политики в закрытой форме для оптимизации действий Агента в офлайн режиме.
Подход оптимизации политики Агента с учетом ограничений на его поведение оказался перспективным в решении задач обучения с подкреплением в офлайн режиме. С использованием исторических переходов обучается политика поведения Агента, направленная на максимизацию значения функции ценности.
Ограничения на поведение помогают избежать существенных изменений в распределении действий Агента, что дает достаточную уверенность в корректности оценки стоимости действий. В предыдущей статье мы познакомились с методом SPOT, который эксплуатирует данный подход. В качестве продолжения начатой темы предлагаю познакомиться с алгоритмом Closed-Form Policy Improvement (CFPI), который был представлен в статье "Offline Reinforcement Learning with Closed-Form Policy Improvement Operators".
Автор: Dmitriy Gizlyk