Обсуждение статьи "Нейросети — это просто (Часть 39): Go-Explore — иной подход к исследованию"

 

Опубликована статья Нейросети — это просто (Часть 39): Go-Explore — иной подход к исследованию:

Продолжаем тему исследования окружающей среды в моделях обучения с подкреплением. И данной статье мы рассмотрим ещё один алгоритм Go-Explore, который позволяет эффективно исследовать окружающую среду на стадии обучения модели.

Основная идея Go-Explore заключается в том, чтобы запоминать и возвращаться к перспективным состояниям. И является фундаментальной для эффективной эксплуатации в условиях небольшого количества наград. Эта идея настолько гибкая и обширная, что может быть реализована различными способами. 

В отличие от большинства алгоритмов обучения с подкреплением, Go-Explore сосредоточен не на прямом решении целевой задачи, а на нахождении релевантных состояний и действий в пространстве состояний, которые могут привести к достижению целевого состояния. Для этого алгоритм имеет две основные фазы: поиск и переиспользование.


Первая фаза состоит в том, чтобы пройти через все состояния в пространстве состояний, и записать каждое посещенное состояние в "карту" состояний. После этого алгоритм начинает изучать каждое посещенное состояние более подробно и собирать информацию о действиях, которые могут привести к другим интересным состояниям.

Вторая фаза заключается в переиспользовании ранее изученных состояний и действий для нахождения новых решений. Алгоритм сохраняет наиболее успешные траектории и использует их для генерации новых состояний, которые могут привести к еще более успешным решениям.

Автор: Dmitriy Gizlyk

 
Здравствуйте. Faza 1 отработала в тестере и создала один пустой файл в общей папке GoExploer. bd. Faza 2 на график не цепляется.
 
Со второй попытки процесс пошел. Была установлена дата начала далекая, поставил как у вас один месяц.
 
star-ik #:
Со второй попытки процесс пошел. Была установлена дата начала далекая, поставил как у вас один месяц.
И какой результат? 
 
Более-менее. Правда, просадки большие. Он открывает сделку и долго ждет благоприятного момента для закрытия. Часто доливает. Очень редко продает, постоянно только покупает. Стрелки вообще на каждом баре. Как заработает рынок, буду пробовать на демо. 
 
На демо конкретно минусует. Доливает на каждом открытии нового бара. Не пойму, как он в тестере на плюс выходил. 
 
star-ik #:
На демо конкретно минусует. Доливает на каждом открытии нового бара. Не пойму, как он в тестере на плюс выходил. 

спасибо

 
star-ik #:
На демо конкретно минусует. Доливает на каждом открытии нового бара. Не пойму, как он в тестере на плюс выходил. 

Ахахах)))

День сурка. 


Сочувствую Вам. 

Попробуйте несколько раз нажать кнопку "Старт" в тестере стратегий. Удивитесь. 

 

Добрый день Дмитрий. Спасибо Вам за такую замечательную серию статей. Пробовал все ваши советники, но вот с последними возникла проблема.

Советник с 36 статьи (который с самой большой нейросетью) у меня проходит тест в тестере, но видеокарта не грузится во время теста и советник  не пытается торговать. График баланса не меняется. Ошибок в логе тестера нет.  В папке Common\Files появляются файлы размером 1 kb.

Советники из статей 37, 38 не тестируются совсем. Тест запускается но прогресса нет. При этом видеокарта грузится на 100%. И так пока процесс МТ5 не убьёшь в диспетчере. Файлы в Common\Files не создаются. Ошибок в тестере нет.

Советник из этой статьи Faza1 проходит тест тоже корректно без ошибок в логе, но файл GoExploer.bd тоже создаётся размером 1kb.

Подскажите пожалуйста куда копать? Другие советники из данной серии статей (которые на график кидаются) работают нормально и считаются видеокартой. Видеокарта RTX 3060 c 12Gb.

 
Viktor Kudriavtsev #:

Советник из этой статьи Faza1 проходит тест тоже корректно без ошибок в логе, но файл GoExploer.bd тоже создаётся размером 1kb.


Советник Faza1 добавляет данные в базу только с положительной прибылью по результатам теста. Если все проходы были убыточные, то он ничего не сохранит. Попробуйте запустить несколько раз в режиме оптимизации.
 
star-ik #:
На демо конкретно минусует. Доливает на каждом открытии нового бара. Не пойму, как он в тестере на плюс выходил. 

Какой период обучения? Короткий период обучения позволяет только увидеть может ли модель обучаться. Но не такого опыта недостаточно для интерполяции его на будущие состояния системы.

Причина обращения: