文章 "交易中的神经网络：通过Adam-mini优化减少内存消耗"

MetaQuotes 2025.03.04 08:53

提高模型训练和收敛效率的一个方向是改进优化方法。Adam-mini是一种自适应优化方法，旨在改进基础的Adam算法。

当我们刚开始学习神经网络时，我们讨论了各种优化模型参数的方法。在我们的工作中，我们使用了不同的方法。我最常使用的是Adam方法，它允许自适应调整每个模型参数的最优学习率。然而，这种适应性是有代价的。Adam算法使用每个模型参数的一阶和二阶矩估计，这需要占用与模型本身相当的内存。这种内存消耗在训练大规模模型时成为一个显著的问题。在实践中，维持这种高内存需求的算法通常需要将计算任务卸载到CPU，从而增加延迟并减缓训练过程。鉴于这些挑战，寻找新的优化方法或改进现有技术变得越来越必要。

2024年7月发表的论文《Adam-mini: Use Fewer Learning Rates To Gain More》中提出了一种有前景的解决方案。作者介绍了一种基于Adam优化器的改进版本，该版本在保持性能的同时降低了内存消耗。这种新的优化器被称为Adam-mini，它将模型参数分割成块，为每个块分配一个学习率，并具有以下优势：

轻量级：Adam-mini显著减少了Adam中使用的学习率数量，从而可以将内存消耗降低45-50%。
高效：尽管资源使用量较低，Adam-mini的性能却与标准Adam相当，甚至更好。

作者：Dmitriy Gizlyk

新评论