Обсуждение статьи "Нейросети в трейдинге: Оптимизация Cross-Attention для анализа длинных последовательностей рынка (STCA)"

 

Опубликована статья Нейросети в трейдинге: Оптимизация Cross-Attention для анализа длинных последовательностей рынка (STCA):

Статья показывает, как применить STCA к рынку: цель формируется сценарием, история задаётся эмбеддингами, а внимание вычисляется через Single-query Target-to-history Cross-Attention. Интеграция с FlashAttention на OpenCL переносит проекции на запросы и избегает формирования K/V для всей истории. Практический эффект — линейная сложность, экономия памяти и ускорение при анализе тысяч баров.

При построении архитектуры авторы работы "Make It Long, Keep It Fast: End-to-End 10k-Sequence Modeling at Billion Scale on Douyin" исходят из довольно простого, но важного наблюдения. В задачах ранжирования основной сигнал для прогнозирования реакции пользователя на некоторый объект возникает прежде всего из прямого сопоставления этого объекта с историей взаимодействий пользователя. Связи же между самими элементами истории, хотя и могут содержать дополнительную информацию, в большинстве случаев играют второстепенную роль. Иными словами, чтобы понять, заинтересует ли пользователя новый элемент, гораздо важнее сопоставить его с предыдущим опытом пользователя, чем анализировать все возможные отношения между событиями его истории.

Классическая архитектура трансформеров подходит к этой задаче иначе. Если объединить целевой объект и историю пользователя в одну последовательность [t; H], механизм Self-Attention начинает строить связи между каждой парой элементов. Такой подход универсален, но крайне затратен. Вычислительная сложность растёт квадратично по длине последовательности O(). В результате длина истории неизбежно ограничивается. Либо модель работает быстро, но видит лишь короткий фрагмент прошлого. Либо пытается учитывать длинную историю ценой резкого роста вычислительных затрат.

Авторы фреймворка предлагают более прагматичный компромисс между выразительной способностью модели и стоимостью вычислений. Они сознательно уменьшают внимание к взаимодействиям между элементами самой истории и сосредотачивают вычисления на действительно важно для задачи — на взаимодействии цели с историей. Для этого используется механизм Single-query Target-to-history Cross-Attention (STCA).

Автор: Dmitriy Gizlyk