Обсуждение статьи "Возможности Мастера MQL5, которые вам нужно знать (Часть 54): Обучение с подкреплением с гибридным SAC и тензорами"
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Опубликована статья Возможности Мастера MQL5, которые вам нужно знать (Часть 54): Обучение с подкреплением с гибридным SAC и тензорами:
Soft Actor Critic (SAC) — один из алгоритмов, используемых в обучении нейронной сети с подкреплением. Напомню: обучение с подкреплением — это новый метод машинного обучения наряду с обучением с учителем и без учителя.
Буфер воспроизведения (replay buffer) - очень важный компонент алгоритма SAC вне политики в обучении с подкреплением, поскольку он сохраняет прошлый опыт состояния, действия, вознаграждения, следующего состояния и флага выполнения (для регистрации завершения или продолжения эпизода) в мини-пакетах образцов для обучения. Его основная цель — декоррелировать различный опыт, чтобы агент мог учиться на более разнообразном опыте, что, как правило, повышает стабильность обучения и эффективность выборки.
При реализации SAC мы можем использовать язык MQL5, но созданные сети не будут столь эффективны в обучении, как сети, созданные на Python с использованием библиотек с открытым исходным кодом, таких как TensorFlow или PyTorch. И поэтому, как мы видели в последней статье об обучении с подкреплением, где Python использовался для моделирования элементарной сети SAC, мы продолжим работу с Python, но на этот раз попытаемся изучить и использовать его тензорные графы. Существуют два способа реализации буфера воспроизведения в Python. Ручной подход или подход на основе тензора.
Автор: Stephen Njuki