Discusión sobre el artículo "Redes neuronales en el trading: Mejora de la eficiencia del Transformer mediante la reducción de la nitidez (SAMformer)"

 

Artículo publicado Redes neuronales en el trading: Mejora de la eficiencia del Transformer mediante la reducción de la nitidez (SAMformer):

El entrenamiento de los modelos de Transformer requiere grandes cantidades de datos y suele ser difícil debido a la escasa capacidad de generalización de los modelos en muestras pequeñas. El framework SAMformer ayuda a resolver este problema evitando los mínimos locales malos, mejorando la eficacia de los modelos incluso con muestras de entrenamiento limitadas.

Los trabajos recientes sobre la aplicación del Transformer a los datos de series temporales se han centrado principalmente en implementaciones eficientes que reducen el coste cuadrático de la atención, o en la descomposición de las series temporales para reflejar mejor los patrones subyacentes. No obstante, los autores del artículo "SAMformer: Unlocking the Potential of Transformers in Time Series Forecasting with Sharpness-Aware Minimization and Channel-Wise Attention", prestan atención al problema del Transformer relacionado con la inestabilidad de su aprendizaje, que se manifiesta en ausencia de datos a gran escala.

En visión por computadora y PNL, se ha descubierto que las matrices de atención pueden sufrir un colapso de entropía o de rango. Luego se propusieron varios enfoques para superar estos problemas. Sin embargo, en el caso de la predicción de series temporales, aún quedan cuestiones abiertas sobre cómo podemos entrenar eficientemente las arquitecturas de los transformadores sin tendencia al sobreentrenamiento. Los autores del citado artículo pretenden demostrar que la eliminación de la inestabilidad del aprendizaje mejora el rendimiento del Transformer en la previsión multidimensional de largo alcance, en contra de las creencias previas sobre sus limitaciones.


Autor: Dmitriy Gizlyk