Discusión sobre el artículo "Redes neuronales en el trading: Reducción del consumo de memoria con el método de optimización Adam (Adam-mini)"

 

Artículo publicado Redes neuronales en el trading: Reducción del consumo de memoria con el método de optimización Adam (Adam-mini):

Una forma de mejorar la eficacia del proceso de aprendizaje y la convergencia de los modelos es mejorar los métodos de optimización. Adam-mini es un método de optimización adaptativa desarrollado para mejorar el algoritmo Adam básico.

Comenzando nuestra introducción a las redes neuronales, analizaremos varios enfoques para optimizar los parámetros de los modelos. En nuestro trabajo utilizaremos distintos enfoques. Personalmente, suelo usar el método Adam, que permite ajustar de forma adaptativa la velocidad de aprendizaje óptima de cada parámetro del modelo. No obstante, esta adaptabilidad tiene un precio. El algoritmo Adam usa momentos de primer y segundo orden para cada parámetro del modelo cuyo almacenamiento consume una memoria 2 veces superior al tamaño del propio modelo. Este consumo de memoria se ha convertido en un obstáculo importante a la hora de entrenar modelos de gran tamaño. En la práctica, para mantener el algoritmo con un alto consumo de memoria, debe utilizarse la descarga a la CPU, lo cual aumenta la latencia y ralentiza el proceso de entrenamiento. A la luz de estos problemas, se hace más urgente la búsqueda de nuevos métodos de optimización de los parámetros de los modelos o la mejora de los ya conocidos.  

Una solución interesante se expone en el artículo "Adam-mini: Use Fewer Learning Rates To Gain More", publicado en julio de 2024. Sus autores proponen una modificación del método Adam sin comprometer su rendimiento. Un nuevo optimizador denominado Adam-mini divide los parámetros del modelo en bloques, selecciona una velocidad de aprendizaje para cada uno de ellos y presenta las siguientes ventajas:

  • FacilidadAdam-mini reduce significativamente el número de velocidades de aprendizaje utilizadas en Adam, lo que se traduce en una reducción del 45-50% del consumo de memoria.
  • Eficiencia: A pesar del ahorro de recursos, Adam-mini muestra un rendimiento comparable o incluso superior al del método Adam básico.


    Autor: Dmitriy Gizlyk