Обсуждение статьи "Возможности Мастера MQL5, которые вам нужно знать (Часть 54): Обучение с подкреплением с гибридным SAC и тензорами"

 

Опубликована статья Возможности Мастера MQL5, которые вам нужно знать (Часть 54): Обучение с подкреплением с гибридным SAC и тензорами:

Soft Actor Critic (мягкий актер-критик) — это алгоритм обучения с подкреплением, который мы рассматривали в предыдущей статье, где мы также представили Python и ONNX как эффективные подходы к обучению сетей. В этой статье мы вернемся к алгоритму с целью использования тензоров — вычислительных графов, которые часто используются в Python.

Soft Actor Critic (SAC) — один из алгоритмов, используемых в обучении нейронной сети с подкреплением. Напомню: обучение с подкреплением — это новый метод машинного обучения наряду с обучением с учителем и без учителя.

Буфер воспроизведения (replay buffer) - очень важный компонент алгоритма SAC вне политики в обучении с подкреплением, поскольку он сохраняет прошлый опыт состояния, действия, вознаграждения, следующего состояния и флага выполнения (для регистрации завершения или продолжения эпизода) в мини-пакетах образцов для обучения. Его основная цель — декоррелировать различный опыт, чтобы агент мог учиться на более разнообразном опыте, что, как правило, повышает стабильность обучения и эффективность выборки.

При реализации SAC мы можем использовать язык MQL5, но созданные сети не будут столь эффективны в обучении, как сети, созданные на Python с использованием библиотек с открытым исходным кодом, таких как TensorFlow или PyTorch. И поэтому, как мы видели в последней статье об обучении с подкреплением, где Python использовался для моделирования элементарной сети SAC, мы продолжим работу с Python, но на этот раз попытаемся изучить и использовать его тензорные графы. Существуют два способа реализации буфера воспроизведения в Python. Ручной подход или подход на основе тензора. 


Автор: Stephen Njuki