Обсуждение статьи "Нейросети — это просто (Часть 38): Исследование с самоконтролем через несогласие (Self-Supervised Exploration via Disagreement)"

MetaQuotes 2023.04.19 12:12

Опубликована статья Нейросети — это просто (Часть 38): Исследование с самоконтролем через несогласие (Self-Supervised Exploration via Disagreement):

Одной из основных проблем обучения с подкреплением является исследование окружающей среды. Ранее мы уже познакомились с методом исследования на базе внутреннего любопытства. Сегодня я предлагаю посмотреть на ещё один алгоритм — исследование через несогласие.

Алгоритм исследования через несогласие (Disagreement-based Exploration) является одним из методов обучения с подкреплением, который позволяет агенту исследовать среду, не полагаясь на внешние вознаграждения, а находя новые, неизведанные области с помощью ансамбля моделей.

В статье "Self-Supervised Exploration via Disagreement" авторы описывают этот подход и предлагают простой метод, который заключается в тренировке ансамбля моделей прямой динамики и поощрении агента исследовать пространство действий, где есть максимальная несогласованность или дисперсия между предсказаниями моделей из ансамбля.

Таким образом вместо того, чтобы выбирать действия, которые дают наибольшее ожидаемое вознаграждение, агент выбирает действия, которые максимизируют несогласие между моделями в ансамбле. Это позволяет агенту исследовать области пространства состояний, где модели в ансамбле не согласны между собой и где, вероятнее всего, есть новые и неизведанные области среды.

При этом все модели в ансамбле сходятся к среднему значению, в итоге уменьшая разброс ансамбля и предоставляя агенту более точные предсказания о состояниях среды и возможных последствиях действий.

Кроме того, алгоритм исследования через несогласие позволяет агенту успешно справляться со стохастичностью взаимодействия с окружающей средой. Результаты экспериментов, проведенных авторами статьи, показали, что предложенный подход действительно улучшает исследование в стохастических средах и превосходит ранее существующие методы внутренней мотивации и моделирования неопределенности. Кроме того, они заметили, что их подход может быть расширен для обучения с учителем, где значение образца определяется не на основе истинной метки, а на основе состояния ансамбля моделей.

Таким образом, алгоритм исследования через несогласие представляет собой многообещающий подход к решению проблемы исследования в стохастических средах. Он позволяет агенту исследовать среду более эффективно и без необходимости полагаться на внешние вознаграждения, что может быть особенно полезным в реальных приложениях, где внешние вознаграждения могут быть ограничены или дорогостоящими.

Автор: Dmitriy Gizlyk

star-ik 2023.04.20 22:29 #1

Здравствуйте. Это уже превращается в азартную игру - попытки запустить очередное ваше творение. Я ни разу не специалист в программировании, но, по крайней мере, сумел оценить глубину темы и её обширность. Запустил в тестере стратегий с оптимизацией Batch от 100 до 110. Бегает индикатор в трее и больше ничего не происходит уже 12 часов. Что не так я делаю?

не могу понять рисует Любой вопрос новичка, чтоб Помогите, господа!

Seyedsoroush Abtahiforooshani 2023.04.21 06:17 #2

I'm going to look into the file changes in this compared to the last ones. I have seen the same issue.

When I try to remove the indicator from MT5 or if i'm doing debugging in meta editor, MetaTrader5 crashes right away.

It doesn't run, even after many hours

Машинное обучение в трейдинге: Скрипты: Gann's_Cycle_Levels Issues with Multiple Unwanted

star-ik 2023.04.21 12:22 #3

Еще одна непонятность. Советник не создал ни одного файла, но, тем не менее устанавливается на график. Правда, не совершает операций.

star-ik 2023.04.21 12:35 #4

По вашей ссылке нет указанного советника!!! Там только старый из прошлой статьи. Я сперва думал, что вы просто название забыли изменить при копировании, а при сравнении обнаружил полное совпадение кода!!! КАРАУЛ!!!

Ошибки, баги, вопросы Валидация забагавалась [АРХИВ!] Любой вопрос новичка,

Dmitriy Gizlyk 2023.04.22 14:21 #5

star-ik #:
По вашей ссылке нет указанного советника!!! Там только старый из прошлой статьи. Я сперва думал, что вы просто название забыли изменить при копировании, а при сравнении обнаружил полное совпадение кода!!! КАРАУЛ!!!

В архиве внизу статьи приложена полный комплект файлов. Там есть советники из предыдущих статей. Но есть и указанный в статье советник.

star-ik 2023.04.22 14:29 #6

Спасибо, нашел. Просто раньше всегда новый советник располагался в самом низу списка.

star-ik 2023.04.24 09:21 #7

Извините, еще один дилетантский вопрос. Советник не совершил ни одной сделки в тестере. На графике пока тоже просто висит без признаков активности. Почему?

И еще. Данные индикаторов используются только как дополнительный фильтр при совершении сделки?

Вопросы от начинающих MQL5 [АРХИВ] Любой вопрос новичка, Тестирование советников на Ренко

star-ik 2023.04.24 12:14 #8

Заменил библиотеку NeuroNet на ту, которую вы посоветовали мне в части 37. В тестере произошла загрузка истории, чего раньше не было, но сделок все равно нет.

Журнал тестирования - Алгоритмический Как купить приложение - Тестирование торговых стратегий

Eugen Funk 2023.10.16 14:57 #9

Большое спасибо за эту статью!
Я вижу, что вы также предлагаете zip-файл с множеством экспериментов RL внутри. Есть ли конкретный файл mq5, который я могу скомпилировать, запустить и оценить более детально?

Большое спасибо!

Ошибки при тестировании советников Scalp_net Советники: Exp_Slow-Stoch

Dmitriy Gizlyk 2023.10.16 17:56 #10

Eugen Funk #:

Большое спасибо!

Здравствуйте, да, можете. Во вложении все файлы из предыдущих статей.

Новый комментарий