文章 "交易中的神经网络:通过Adam-mini优化减少内存消耗"

 

新文章 交易中的神经网络:通过Adam-mini优化减少内存消耗已发布:

提高模型训练和收敛效率的一个方向是改进优化方法。Adam-mini是一种自适应优化方法,旨在改进基础的Adam算法。

当我们刚开始学习神经网络时,我们讨论了各种优化模型参数的方法。在我们的工作中,我们使用了不同的方法。我最常使用的是Adam方法,它允许自适应调整每个模型参数的最优学习率。然而,这种适应性是有代价的。Adam算法使用每个模型参数的一阶和二阶矩估计,这需要占用与模型本身相当的内存。这种内存消耗在训练大规模模型时成为一个显著的问题。在实践中,维持这种高内存需求的算法通常需要将计算任务卸载到CPU,从而增加延迟并减缓训练过程。鉴于这些挑战,寻找新的优化方法或改进现有技术变得越来越必要。  

2024年7月发表的论文《Adam-mini: Use Fewer Learning Rates To Gain More》中提出了一种有前景的解决方案。作者介绍了一种基于Adam优化器的改进版本,该版本在保持性能的同时降低了内存消耗。这种新的优化器被称为Adam-mini,它将模型参数分割成块,为每个块分配一个学习率,并具有以下优势:

  • 轻量级Adam-mini显著减少了Adam中使用的学习率数量,从而可以将内存消耗降低45-50%。
  • 高效:尽管资源使用量较低,Adam-mini的性能却与标准Adam相当,甚至更好。


作者:Dmitriy Gizlyk