Обсуждение статьи "Нейросети в трейдинге: Эффективное извлечение признаков для точной классификации (Mantis)"

MetaQuotes 2025.05.27 14:03

Опубликована статья Нейросети в трейдинге: Эффективное извлечение признаков для точной классификации (Mantis):

Познакомьтесь с Mantis — лёгкой фундаментальной моделью для классификации временных рядов на базе Transformer с контрастным предварительным обучением и гибридным вниманием, обеспечивающими рекордную точность и масштабируемость.

Фреймворк Mantis демонстрирует, как продуманная архитектура и тщательное обучение превращают набор идей в надёжный инструмент. Представленный авторами фреймворка foundation-подход опирается на четыре ключевых столпа: токенизацию временных рядов, гибридное внимание, адаптеры для многомерности и Self-Supervised контрастивное предварительное обучение с последующей калибровкой.

Главная идея Mantis заключается в отказе от традиционного разбиения временного ряда на фиксированные окна. Вместо этого, используется разбиение на фиксированное число патчей, что обеспечивает независимость от длины входной последовательности и стабилизирует вычислительные затраты. Например, ряды длиной 1024 и 2048 будут преобразованы в одинаковое количество патчей — 32. Такой подход критически важен при массовой обработке гетерогенных временных рядов.

Формирование эмбеддинга осуществляется в несколько этапов. Сначала применяется сверточный слой с 256 выходными каналами. Этот слой преобразует временной ряд в более компактное пространственное представление. Затем, каждый из 32 патчей агрегируется при помощи операции усреднения (mean pooling), в результате чего получается тензор размерности (32, 256). Каждый патч кодирует локальные характеристики временного ряда, включая пики, колебания и микроструктуру ценового движения.

Параллельно создаётся второй поток данных — дифференциальный. Он строится на основе разностей первого порядка между соседними значениями временного ряда. Это преобразование помогает устранить долгосрочные тренды и усилить сигналы, связанные с краткосрочной динамикой. Оно особенно полезно в ситуациях, когда интерес представляют отклонения от стабильного уровня или резкие движения вблизи уровней поддержки и сопротивления.

Оба потока проходят через одинаковую процедуру обработки: свёртка, усреднение, нормализация. На выходе получаются два набора патчей, каждый по 32 токена размерности 256. Это обеспечивает модель равноправной информацией как о форме сигнала, так и о его изменениях во времени.

Автор: Dmitriy Gizlyk

Новый комментарий