Обсуждение статьи "Нейросети в трейдинге: Оптимизация Cross-Attention для анализа длинных последовательностей рынка (Основные компоненты)"
Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
Опубликована статья Нейросети в трейдинге: Оптимизация Cross-Attention для анализа длинных последовательностей рынка (Основные компоненты):
В статье продолжается реализация фреймворка STCA средствами MQL5. Оригинальные оптимизации Self-Attention перенесены в архитектуру FlashAttention-2 и адаптированы под финансовые данные. Особое внимание уделено аккумулированию и распределению градиентов между потоками рабочей группы для анализа длинных временных рядов и многоголового внимания.
В предыдущей статье мы начали рассмотрение современной архитектуры обработки длинных последовательностей — механизма внимания Stacked Target-to-History Cross Attention (STCA), предложенного в работе "Make It Long, Keep It Fast: End-to-End 10k-Sequence Modeling at Billion Scale on Douyin". Появление подобных моделей связано с практической необходимостью анализировать все более протяжённые последовательности данных. Во многих прикладных задачах длина наблюдаемой истории может достигать тысяч и даже десятков тысяч элементов. Подобная ситуация характерна для рекомендательных систем, потоковой аналитики и моделей, работающих с высокочастотными временными рядами. В этих условиях традиционные архитектуры трансформеров начинают сталкиваться с фундаментальным ограничением вычислительной сложности.
Классический механизм Self-Attention требует вычисления взаимодействия каждого элемента последовательности со всеми остальными элементами. Фактически это означает построение полной матрицы попарных взаимодействий. По мере увеличения длины последовательности размер такой матрицы растёт квадратично, а вместе с ним увеличиваются требования к памяти и вычислительным ресурсам. На практике это приводит к ситуации, когда значительная часть вычислительной мощности расходуется на обслуживание самой структуры внимания, и при работе с длинной историей подобная схема быстро становится узким местом всей модели.
Автор: Dmitriy Gizlyk