Обсуждение статьи "Нейросети — это просто (Часть 38): Исследование с самоконтролем через несогласие (Self-Supervised Exploration via Disagreement)"

 

Опубликована статья Нейросети — это просто (Часть 38): Исследование с самоконтролем через несогласие (Self-Supervised Exploration via Disagreement):

Одной из основных проблем обучения с подкреплением является исследование окружающей среды. Ранее мы уже познакомились с методом исследования на базе внутреннего любопытства. Сегодня я предлагаю посмотреть на ещё один алгоритм — исследование через несогласие.

Алгоритм исследования через несогласие (Disagreement-based Exploration) является одним из методов обучения с подкреплением, который позволяет агенту исследовать среду, не полагаясь на внешние вознаграждения, а находя новые, неизведанные области с помощью ансамбля моделей.

В статье "Self-Supervised Exploration via Disagreement" авторы описывают этот подход и предлагают простой метод, который заключается в тренировке ансамбля моделей прямой динамики и поощрении агента исследовать пространство действий, где есть максимальная несогласованность или дисперсия между предсказаниями моделей из ансамбля.

Таким образом вместо того, чтобы выбирать действия, которые дают наибольшее ожидаемое вознаграждение, агент выбирает действия, которые максимизируют несогласие между моделями в ансамбле. Это позволяет агенту исследовать области пространства состояний, где модели в ансамбле не согласны между собой и где, вероятнее всего, есть новые и неизведанные области среды.

При этом все модели в ансамбле сходятся к среднему значению, в итоге уменьшая разброс ансамбля и предоставляя агенту более точные предсказания о состояниях среды и возможных последствиях действий.

Кроме того, алгоритм исследования через несогласие позволяет агенту успешно справляться со стохастичностью взаимодействия с окружающей средой. Результаты экспериментов, проведенных авторами статьи, показали, что предложенный подход действительно улучшает исследование в стохастических средах и превосходит ранее существующие методы внутренней мотивации и моделирования неопределенности. Кроме того, они заметили, что их подход может быть расширен для обучения с учителем, где значение образца определяется не на основе истинной метки, а на основе состояния ансамбля моделей.

Таким образом, алгоритм исследования через несогласие представляет собой многообещающий подход к решению проблемы исследования в стохастических средах. Он позволяет агенту исследовать среду более эффективно и без необходимости полагаться на внешние вознаграждения, что может быть особенно полезным в реальных приложениях, где внешние вознаграждения могут быть ограничены или дорогостоящими.

Автор: Dmitriy Gizlyk

 

Здравствуйте. Это уже превращается в азартную игру - попытки запустить очередное ваше творение. Я ни разу не специалист в программировании, но, по крайней мере, сумел оценить глубину темы и её обширность. Запустил в тестере стратегий с оптимизацией Batch от 100 до 110. Бегает индикатор в трее и больше ничего не происходит уже 12 часов. Что не так я делаю?

 

I'm going to look into the file changes in this compared to the last ones. I have seen the same issue.

When I try to remove the indicator from MT5 or if i'm doing debugging in meta editor, MetaTrader5 crashes right away. 

It doesn't run, even after many hours

 
Еще одна непонятность. Советник не создал ни одного файла, но, тем не менее устанавливается на график. Правда, не совершает операций.
 
По вашей ссылке нет указанного советника!!! Там только старый из прошлой статьи. Я сперва думал, что вы просто название забыли изменить при копировании, а при сравнении обнаружил полное совпадение кода!!! КАРАУЛ!!!
 
star-ik #:
По вашей ссылке нет указанного советника!!! Там только старый из прошлой статьи. Я сперва думал, что вы просто название забыли изменить при копировании, а при сравнении обнаружил полное совпадение кода!!! КАРАУЛ!!!

В архиве внизу статьи приложена полный комплект файлов. Там есть советники из предыдущих статей. Но есть и указанный в статье советник.

 
Спасибо, нашел. Просто раньше всегда новый советник располагался в самом низу списка.
 

Извините, еще один дилетантский вопрос. Советник не совершил ни одной сделки в тестере. На графике пока тоже просто висит без признаков активности. Почему?

И еще. Данные индикаторов используются только как дополнительный фильтр при совершении сделки?

 
Заменил библиотеку NeuroNet на ту, которую вы посоветовали мне в части 37. В тестере произошла загрузка истории, чего раньше не было, но сделок все равно нет. 

Причина обращения: