Discusión sobre el artículo "Redes neuronales en el trading: Transformer parámetro-eficiente con atención segmentada (PSformer)"

 

Artículo publicado Redes neuronales en el trading: Transformer parámetro-eficiente con atención segmentada (PSformer):

Hoy proponemos al lector un primer contacto con el nuevo framework PSformer, que adapta la arquitectura del Transformer vainilla para resolver problemas de previsión de series temporales multidimensionales. El framework se basa en dos innovaciones clave: el mecanismo de compartición de parámetros (PS) y la atención a los segmentos espaciotemporales (SegAtt).

Los autores del artículo "PSformer: Parameter-efficient Transformer with Segment Attention for Time Series Forecasting" exploran el desarrollo de modelos innovadores basados en Transformers para resolver problemas de previsión de series temporales multidimensionales considerando el concepto de compartición de parámetros.

Así, proponen un modelo de codificador basado en la arquitectura del Transformer con una estructura de atención segmentada de dos niveles, donde cada nivel del modelo incluye un bloque con parámetros comunes. Este bloque contiene tres capas completamente conectadas con enlace residual para mantener bajo el número total de parámetros, lo que permite un intercambio eficaz de información entre las partes del modelo. Para centrar la atención en los segmentos, se utiliza una técnica de parcheado que divide la serie de variables en parches individuales. A continuación, los parches que se hallan en la misma posición en distintas variables se combinan en segmentos. Como resultado, cada segmento supone una extensión espacial de un único parche variable, lo que permite dividir una serie temporal multidimensional en múltiples segmentos.

Dentro de cada segmento, la atención se centra en mejorar la detección de las relaciones espaciotemporales localizadas, mientras que la integración de la información entre segmentos contribuye a la precisión global de las predicciones. La aplicación del método de optimización SAM permite a los autores del framework reducir aún más el sobreentrenamiento sin perder eficacia en el entrenamiento. Extensos experimentos realizados por los creadores del PSformer sobre datos de previsión de series temporales a largo plazo demuestran el alto rendimiento de la arquitectura propuesta. El PSformer compite con modelos avanzados y obtiene los mejores resultados en 6 de las 8 tareas clave de previsión de series temporales.


Autor: Dmitriy Gizlyk

 

He observado que el segundo parámetro 'SecondInput' no se utiliza, ya que el método feedForward de CNeuronBaseOCL con dos parámetros llama internamente a la versión de un solo parámetro. ¿Puedes verificar si se trata de un error?

clase CNeuronBaseOCL : public CObject

{

...

virtual bool feedForward(CNeuronBaseOCL *NeuronOCL);

virtual bool feedForward(CNeuronBaseOCL *NeuronOCL, CBufferFloat *SecondInput) { return feedForward(NeuronOCL); }

..

}

Actor.feedForward((CBufferFloat*)GetPointer(bAccount), 1, false, GetPointer(Encoder),LatentLayer);??

Encoder.feedForward((CBufferFloat*)GetPointer(bState), 1, false, GetPointer(bAccount));???