Комитет самых продвинутых архитектур НС на GPU, в Питоне это вообще есть? )
жаль пока с обычными трансформерами из статьи 8 ещё не до конца разобрался ))
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Опубликована статья Нейросети — это просто (Часть 10): Multi-Head Attention (многоголовое внимание):
Ранее мы уже рассмотрели механизм само-внимания (self-attention) в нейронных сетях. В практике современных архитектур нейронных сетей используется несколько параллельных потоков self-attention для поиска различных зависимостей между элементами последовательности. Давайте рассмотрим реализацию такого подхода и оценим его влияние на общий результат работы сети.
Немного напомню, в алгоритме Self-Attention используется 3 обучаемых матрицы весовых коэффициентов (Wq, Wk и Wv). Данные матрицы используются для получения 3-х сущностей Query (Запрос), Key (Ключ) и Value (Значение). Первые две определяют попарную взаимосвязь между элементами последовательности, а последняя — контекст анализируемого элемента.
Не секрет, что далеко не всегда ситуации бывают однозначны. Наверное, даже чаще одну и ту же ситуацию можно трактовать с различных точек зрения. И от выбранной точки зрения выводы могут быть абсолютно противоположными. В таких ситуациях важно рассмотреть все возможные варианты, и только после тщательного анализа сделать вывод. Именно для решения таких задач и было предложено многоголовое внимание. Здесь каждая "голова" имеет свое мнение, а решение принимается взвешенным голосованием.
В архитектуре Multi-Head Attention параллельно используется несколько потоков само-внимания с различными весовыми коэффициентами, что имитирует разносторонний разбор ситуации. Результаты работы потоков само-внимания конкатенируются в единый тензор. А итоговый результат алгоритма определяется умножением тензора на матрицу W0, параметры которой подбираются в процессе обучения нейронной сети. Вся эта архитектура подменяет блок Self-Attention в энкодере и декодере архитектуры трансформер.
Автор: Dmitriy Gizlyk