文章 "交易中的神经网络:降低锐度强化变换器效率(SAMformer)"

 

新文章 交易中的神经网络:降低锐度强化变换器效率(SAMformer)已发布:

训练变换器模型需要大量数据,并且往往很困难,因为模型不擅长类推到小型数据集。SAMformer 框架通过避免糟糕的局部最小值来帮助解决这个问题。即使在有限的训练数据集上,也能提升模型的效率。

最近将变换器应用于时间序列数据的研究,主要集中在优化注意力机制,以便降低二次计算成本;或分解时间序列,以便更好地捕获其潜在形态。然而,论文《SAMformer:配合锐度感知最小化和通道级注意力,解锁变换器在时间序列预测中的潜力》的作者曝光了一个严重问题:在缺乏大规模数据的情况下,变换器的训练不稳定性。

在计算机视觉和 NLP 中,已观察到注意力矩阵可能会遭受熵坍缩或秩坍缩。已提出了若干种方式来缓解这些问题。然而,时间序列预测中,如何有效地训练变换器架构,且不会过度拟合,仍是一个悬而未决的问题。作者旨在演示解决训练不稳定性,就可显著提升变换器在长期多变量预测中的性能,这与之前关于其局限性的既定观点形成鲜明对比。


作者:Dmitriy Gizlyk