Diskussion zum Artikel "Neuronale Netze im Handel: Ein parameter-effizienter Transformer mit segmentierter Aufmerksamkeit (PSformer)"

 

Neuer Artikel Neuronale Netze im Handel: Ein parameter-effizienter Transformer mit segmentierter Aufmerksamkeit (PSformer) :

In diesem Artikel wird das neue PSformer-Framework vorgestellt, das die Architektur des einfachen Transformers an die Lösung von Problemen im Zusammenhang mit multivariaten Zeitreihenprognosen anpasst. Der Rahmen basiert auf zwei wichtigen Innovationen: dem Parameter-Sharing-Mechanismus (PS) und der Segment Attention (SegAtt).

Die Autoren von „PSformer: Parameter-efficient Transformer with Segment Attention for Time Series Forecasting“ schlagen ein innovatives Transformer-basiertes Modell für die multivariate Zeitreihenprognose vor, das die Prinzipien der gemeinsamen Nutzung von Parametern berücksichtigt.

Sie stellen einen Encoder für den Transformer mit einem zweistufigen segmentbasierten Aufmerksamkeitsmechanismus vor, bei dem jede Encoderschicht einen Block mit gemeinsamen Parametern enthält. Dieser Block enthält drei vollständig verbundene Schichten mit Residualverbindungen, die eine geringe Gesamtzahl von Parametern ermöglichen und gleichzeitig einen effektiven Informationsaustausch zwischen den Modellkomponenten gewährleisten. Um die Aufmerksamkeit innerhalb der Segmente zu fokussieren, wenden sie eine Patching-Methode an, bei der variable Sequenzen in separate Patches aufgeteilt werden. Patches, die in verschiedenen Variablen dieselbe Position einnehmen, werden dann zu Segmenten gruppiert. Im Ergebnis ist jedes Segment eine räumliche Erweiterung eines Patches einer Variablen, wodurch eine mehrdimensionale Zeitreihe in mehrere Segmente unterteilt werden kann.

Innerhalb jedes Segments verbessern Aufmerksamkeitsmechanismen die Erfassung lokaler räumlich-zeitlicher Beziehungen, während die Integration segmentübergreifender Informationen die Prognosegenauigkeit insgesamt verbessert. Die Autoren setzen auch die Optimierungsmethode SAM ein, um die Überanpassung weiter zu reduzieren, ohne die Lernleistung zu beeinträchtigen. Ausführliche Experimente mit langfristigen Zeitreihenprognosedatensätzen zeigen, dass PSformer gute Ergebnisse liefert. PSformer übertrifft die modernsten Modelle in 6 von 8 wichtigen Vorhersage-Benchmarks.


Autor: Dmitriy Gizlyk

 

Ich habe festgestellt, dass der zweite Parameter "SecondInput" unbenutzt ist, da die feedForward-Methode von CNeuronBaseOCL mit zwei Parametern intern die Version mit einem Parameter aufruft. Können Sie überprüfen, ob dies ein Fehler ist?

class CNeuronBaseOCL : public CObject

{

...

virtual bool feedForward(CNeuronBaseOCL *NeuronOCL);

virtual bool feedForward(CNeuronBaseOCL *NeuronOCL, CBufferFloat *SecondInput) { return feedForward(NeuronOCL); }

..

}

Actor.feedForward((CBufferFloat*)GetPointer(bAccount), 1, false, GetPointer(Encoder),LatentLayer); ??

Encoder.feedForward((CBufferFloat*)GetPointer(bState), 1, false, GetPointer(bAccount)); ???