Обсуждение статьи "Нейросети — это просто (Часть 65): Дистанционно-взвешенное обучение с учителем (DWSL)"

 

Опубликована статья Нейросети — это просто (Часть 65): Дистанционно-взвешенное обучение с учителем (DWSL):

В данной статье я предлагаю Вам познакомиться с интересным алгоритмом, который построен на стыке методов обучения с учителем и подкреплением.

Методы клонирования поведения, во многом основанные на принципах обучения с учителем, демонстрируют довольно хорошие результаты. Но их главной проблемой остается поиск идеальных примеров для подражания, которые порой очень трудно собрать. В свою очередь, методы обучения с подкреплением способны работать с неоптимальными исходными данными. При этом находить субоптимальные политики для достижения поставленной цели. Однако, при поиске оптимальной политики мы часто сталкиваемся с проблемой оптимизации, которая более остро проявляется в высоко размерных и стохастических средах.

Для преодоления разрыва между двумя указанными подходами был предложен метод Distance Weighted Supervised Learning (DWSL), представленный в статье "Distance Weighted Supervised Learning for Offline Interaction Data". Это алгоритм контролируемого офлайн обучения целенаправленной политики. И, теоретически, сходится к оптимальной политике с минимальной границей доходности на уровне траекторий из обучающей выборки. Практические примеры авторов демонстрируют превосходство предложенного метода над алгоритмами имитационного обучения и обучения с подкреплением. Предлагаю поближе познакомиться с данным DWSL алгоритмом. И на практике оценить его сильные и слабые стороны в решении наших задач.

Автор: Dmitriy Gizlyk

Причина обращения: