Thanks Sir @Dmitriy
//+------------------------------------------------------------------+
Всем здравствуйте. У меня данная версия примерно после 3-4 цикла (сбор БД - обучение - тест) стала давать просто прямую линию на тестах. Сделки не открывает. Обучение делал все разы по 500 000 итераций. Ещё интересный момент - в определённый момент ошибка одного из критиков стала сначала очень большой, а потом постепенно снизились ошибки обоих критиков до 0. И уже 2-3 цикла ошибки обоих критиков стоят на 0. И на тестах Test.mqh выдаётся прямая линия и отсутствие сделок. В проходах Research.mqh бывают проходы с отрицательной прибылью и сделками. Так же есть проходы с отсутствием сделок и нулевым исходом. С положительным исходом било только 5 проходов в одном из циклов.
Вообще как-то странно. Я выполнял обучение строго по инструкции Дмитрия во всех статьях, и ни с одной статьи не получилось получить результат. Я не понимаю что я делаю не так...
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Вы принимаете политику сайта и условия использования
Опубликована статья Нейросети — это просто (Часть 51): Актер-критик, управляемый поведением (BAC):
В последних двух статьях рассматривался алгоритм Soft Actor-Critic, который включает энтропийную регуляризацию в функцию вознаграждения. Этот подход позволяет балансировать исследование среды и эксплуатацию модели, но он применим только к стохастическим моделям. В данной статье рассматривается альтернативный подход, который применим как для стохастических, так и для детерминированных моделей.
Вначале давайте порассуждаем о необходимости исследования окружающей среды в целом. Думаю, все согласны с необходимостью данного процесса. Но для чего конкретно и на какой стадии?
Начнем с простого примера. Мы впервые попадаем в некую комнату с 3 одинаковыми дверями и нам нужен выход на улицу. Что мы делаем? Поочередно открываем двери, пока не найдем нужную. Попадая повторно в эту же комнату для выхода на улицу, мы уже не будем открывать все двери, а сразу направимся к уже известному выходу. Если же в этой ситуации у нас будет другая задача, то тут возможны варианты. Мы можем снова открывать все двери, кроме уже известного нам выхода, и искать нужную. А можем сначала вспомнить какие мы двери открывали ранее при поиске выхода и была ли среди них нужная нам. Если мы помним нужную дверь, то направляемся к ней. В противном случае проверяем двери, которые не открывали ранее.
Вывод: исследование окружающей среды нам необходимо в незнаком состоянии для выбора правильного действия. После нахождения необходимого маршрута дополнительное исследование окружающей среды может только мешать.
Однако, при изменении задачи в известном состоянии нам может потребоваться дополнительное исследование окружающей среды. Сюда можно отнести и поиск более оптимального маршрута. В приведенном выше примере, если для выхода нам потребовалось пройти ещё несколько помещений или вышли не с той стороны здания.
Следовательно, нам нужен такой алгоритм, который позволяет усиливать исследование окружающей среды в неизученных состояниях и минимизировать в ранее исследованных.
Автор: Dmitriy Gizlyk