Обсуждение статьи "Нейросети в трейдинге: Повышение эффективности Transformer путем снижения резкости (SAMformer)"

 

Опубликована статья Нейросети в трейдинге: Повышение эффективности Transformer путем снижения резкости (SAMformer):

Обучение моделей Transformer требует больших объемов данных и часто затруднено из-за слабой способности моделей к обобщению на малых выборках. Фреймворк SAMformer помогает решить эту проблему, избегая плохих локальных минимумов. И повышает эффективность моделей даже ограниченных обучающих выборках.

Недавние работы по применению Transformer к данным временных рядов в основном сосредоточены на эффективных реализациях, снижающих квадратичную стоимость внимания, или декомпозицию временных рядов для лучшего отражения лежащих в их основе закономерностей. Но авторы работы "SAMformer: Unlocking the Potential of Transformers in Time Series Forecasting with Sharpness-Aware Minimization and Channel-Wise Attention" обращают внимание на проблему Transformer, связанная с их нестабильностью обучения, проявляющуюся при отсутствии крупномасштабных данных.

В компьютерном зрении и НЛП было обнаружено, что матрицы внимания могут страдать от энтропии или обрушения рангов. Затем было предложено несколько подходов к преодолению этих проблем. Однако в случае прогнозирования временных рядов остаются открытыми вопросы о том, как можно эффективно обучать архитектуры трансформаторов без тенденции к переобучению. Авторы упомянутой работы стремятся показать, что устранение неустойчивости обучения позволяет повысить эффективность Transformer в многомерном долгосрочном прогнозировании, вопреки ранее сложившимся представлениям об их ограничениях.

Автор: Dmitriy Gizlyk