Обсуждение статьи "Нейросети — это просто (Часть 55): Контрастный внутренний контроль (CIC)"

 

Опубликована статья Нейросети — это просто (Часть 55): Контрастный внутренний контроль (CIC):

Контрастное обучение (Contrastive learning) - это метод обучения представлению без учителя. Его целью является обучение модели выделять сходства и различия в наборах данных. В данной статье мы поговорим об использовании подходов контрастного обучения для исследования различных навыков Актера.

Алгоритм Contrastive Intrinsic Control начинается с обучения Агента в среде с помощью обратной связи и получения траекторий состояний и действий. Затем выполняется обучение представлений с использованием Contrastive Predictive Coding (CPC), что мотивирует Агента выделять ключевые признаки из состояний и действий. Формируются представления, учитывающие зависимости между последовательными состояниями.

Важную роль играет внутреннее вознаграждение, определяющая какие поведенческие стратегии следует максимизировать. В CIC максимизируется энтропия переходов между состояниями, что способствует разнообразию поведения Агента. Это позволяет Агенту исследовать и создавать разнообразные поведенческие стратегии.

После формирования разнообразных навыков и стратегий, алгоритм CIC использует Дискриминатор для конкретизации представлений навыков. Дискриминатор направлен на то, чтобы состояния были предсказуемыми и устойчивыми. Таким образом, Агент учится "использовать" навыки в предсказуемых ситуациях.

Комбинация исследования, мотивируемого внутренними вознаграждением, и использование навыков для предсказуемых действий создает сбалансированный подход для создания разнообразных и эффективных стратегий.

В результате алгоритм Contrastive Predictive Coding стимулирует Агента к обнаружению и усвоению широкого спектра поведенческих стратегий, обеспечивая при этом стабильное обучение. Ниже представлена авторская визуализация алгоритма.

Авторская визуализация алгоритма

Автор: Dmitriy Gizlyk

 
Здравствуйте. Не могу добиться положительного результата на research. Выстраивается прямая линия. Такое впечатление, что в коде есть ограничение по результатам.
Файлы:
 
star-ik #:
Здравствуйте. Не могу добиться положительного результата на research. Выстраивается прямая линия. Такое впечатление, что в коде есть ограничение по результатам.

На какой стадии? Первый запуск со случайными параметрами? После запуска Pretrain? Или Finetune?

 
На всех стадиях не выхожу в плюс. 
 
star-ik #:
На всех стадиях не выхожу в плюс. 

На первых стадиях происходит предварительное обучение, которое заключается в исследовании окружающей среды и обучение навыков Актера. Здесь вообще не используется внешнее вознаграждение. Мы обучаем Актера развитию множества навыков. Следовательно, не ожидаем положительных проходов. Внешнее вознаграждение используется только на последней стадии Finetune, когда мы обучаем Планировщика управлять навыками Актера для решения поставленной задачи. И результаты напрямую зависят от полноты выполнения первых двух итераций.

 
Какие показатели ошибки у Finetune можно считать приемлемыми? И когда запишется файл в папку Tester?
 
Дожал я Research, вышел в плюс.
 
Еще раз здравствуйте. Не могу понять один момент. Какой смысл устанавливать тейкпрофит, если он тралится? Он же так никогда не сработает.
 
star-ik #:
Еще раз здравствуйте. Не могу понять один момент. Какой смысл устанавливать тейкпрофит, если он тралится? Он же так никогда не сработает.

Это прежде всего инструмент управления рисками. Защита от резких больших движений. Кроме того, мы обучаем модель. Теоретически стоп-лосс и тейк-профит не обязательно должны быть больше размера свечи. В процессе обучения ищем наиболее прибыльную стратегию.

 
Ещё вопрос. После того, как Research вышел в плюс, можно остальные многократно прогонять на этих данных? Дело в том, что он опять возвращается в минус и портит статистику.
 
Дмитрий, вы уже опубликовали новую статью и, возможно, сюда уже не вернетесь. Но я попробую все таки задать вам вопрос. Скажите пожалуйста, у вас советник совершал сделки в обе стороны? У меня почему то только бай. Стоит ли с ним мучиться дальше?
Причина обращения: