Discussão do artigo "Redes neurais em trading: Aumentando a eficiência do Transformer por meio da redução da nitidez (SAMformer)"

 

Novo artigo Redes neurais em trading: Aumentando a eficiência do Transformer por meio da redução da nitidez (SAMformer) foi publicado:

O treinamento de modelos Transformer exige grandes volumes de dados e muitas vezes é dificultado pela fraca capacidade dos modelos de generalizar em amostras pequenas. O framework SAMformer ajuda a resolver esse problema ao evitar mínimos locais ruins. E aumenta a eficiência dos modelos mesmo em conjuntos de treinamento limitados.

Trabalhos recentes sobre o uso de Transformer em dados de séries temporais têm se concentrado principalmente em implementações eficientes que reduzem o custo quadrático da atenção ou em decompor as séries temporais para refletir melhor os padrões subjacentes. Mas os autores do trabalho "SAMformer: Unlocking the Potential of Transformers in Time Series Forecasting with Sharpness-Aware Minimization and Channel-Wise Attention" chamam atenção para um problema relacionado ao Transformer: sua instabilidade durante o treinamento, que se manifesta na ausência de dados em larga escala.

Na visão computacional e no processamento de linguagem natural, descobriu-se que as matrizes de atenção podem sofrer com entropia ou colapso de posto. Vários métodos foram então propostos para superar esses problemas. No entanto, no contexto da previsão de séries temporais, ainda permanecem dúvidas sobre como treinar arquiteturas Transformer de forma eficaz sem cair em overfitting. Os autores do estudo mencionado buscam mostrar que, ao eliminar a instabilidade do treinamento, é possível aumentar a eficiência do Transformer na previsão multivariada de longo prazo, contrariando as ideias previamente estabelecidas sobre suas limitações.


Autor: Dmitriy Gizlyk