Обсуждение статьи "Нейросети в трейдинге: Масштабируемые трансформеры со структурной декомпозицией признаков (FAT)"

 

Опубликована статья Нейросети в трейдинге: Масштабируемые трансформеры со структурной декомпозицией признаков (FAT):

Статья объясняет, как структурная декомпозиция признаков в Field-Aware Transformer улучшает моделирование взаимодействий между полями рыночных данных и сохраняет вычислительную управляемость. Детально разобраны структурированная токенизация, поле‑зависимые проекции внимания и разреженный Top‑K механизм выбора параметров на общем базисе. Приведена реализация на MQL5, включающая эмбеддинги полей и генератор параметров. Практическая польза — снижение переобучения и контролируемый рост сложности при расширении признаков.

Классический Transformer продемонстрировал впечатляющие результаты в задачах обработки последовательностей. Однако финансовый рынок — это не текст и не речь. Здесь нет грамматики в привычном смысле. Рыночные данные представляют собой многослойную структуру признаков, формирующихся одновременно в нескольких смысловых измерениях. Цена, объём, корреляции с индексами, режим волатильности, временные сессии — всё это существует параллельно и взаимодействует по-разному в зависимости от контекста. Когда такие данные подаются в стандартный Self-Attention без структурных ограничений, модель вынуждена самостоятельно выявлять их скрытую организацию. В условиях высокой шумовой компоненты это приводит к росту вариативности оценок и ухудшению обобщающей способности.

Проблема особенно проявляется при масштабировании. Увеличение числа параметров повышает выразительность, но без адекватного индуктивного предположения усиливает переобучение. Финансовые рынки нестационарны. Зависимости меняются. Корреляции разрушаются. Режимы чередуются. Следовательно, архитектура должна учитывать иерархию признаков на уровне своей внутренней структуры.

Именно эта мысль легла в основу работы "From Scaling to Structured Expressivity: Rethinking Transformers for CTR Prediction", в которой была предложена архитектура Field-Aware Transformer (FAT). Авторы фреймворка решали задачу прогнозирования CTR — вероятности клика пользователя на рекламное объявление. На первый взгляд область далека от финансов. Однако при внимательном анализе обнаруживается поразительное сходство постановок. CTR-модель оперирует множеством разнородных признаков: пользователь, товар, контекст показа, история взаимодействий. Эти признаки образуют смысловые поля, взаимодействующие между собой неравномерно. Простое плоское внимание между всеми токенами приводило к слабой масштабируемости и потере структурной выразительности.

Автор: Dmitriy Gizlyk