Diskussion zum Artikel "Neuronale Netze leicht gemacht (Teil 8): Attention-Mechanismen"

 

Neuer Artikel Neuronale Netze leicht gemacht (Teil 8): Attention-Mechanismen :

In früheren Artikeln haben wir bereits verschiedene Möglichkeiten zur Organisation neuronaler Netze getestet. Wir haben auch Convolutional Networks (Faltungsnetze) besprochen, die aus Bildverarbeitungsalgorithmen entlehnt sind. In diesem Artikel schlage ich vor, sich den Attention-Mechanismen (Aufmerksamkeitsmechanismus) zuzuwenden, deren Erscheinen der Entwicklung von Sprachmodellen den Anstoß gab.

Bei der Analyse des Kerzenchart eines Symbols definieren wir Trends und Tendenzen, und bestimmen auch deren Handelsbereiche. Das heißt, wir wählen einige Objekte aus dem Gesamtbild aus und richten unsere Aufmerksamkeit auf sie. Wir verstehen, dass die Objekte das zukünftige Preisverhalten beeinflussen. Um einen solchen Ansatz zu implementieren, haben die Entwickler bereits 2014 den ersten Algorithmus vorgeschlagen, der Abhängigkeiten zwischen den Elementen der Eingangs- und Ausgangssequenzen analysiert und hervorhebt [8]. Der vorgeschlagene Algorithmus wird "Generalized Attention Mechanism" genannt. Er wurde ursprünglich für den Einsatz in maschinellen Übersetzungsmodellen mit rekurrenten Netzen als Lösung für das Problem des Langzeitgedächtnisses bei der Übersetzung langer Sätze vorgeschlagen. Dieser Ansatz verbesserte die Ergebnisse der zuvor betrachteten rekurrenten neuronalen Netze, die auf LSTM-Blöcken basieren, erheblich [4].

Das klassische maschinelle Übersetzungsmodell mit rekurrenten Netzen besteht aus zwei Blöcken, dem Encoder und dem Decoder. Der erste Block kodiert die Eingabesequenz in der Ausgangssprache in einen Kontextvektor, und der zweite Block dekodiert den resultierenden Kontext in eine Sequenz von Wörtern in der Zielsprache. Wenn die Länge der Eingabesequenz zunimmt, nimmt der Einfluss der ersten Wörter auf den endgültigen Satzkontext ab. Infolgedessen nimmt die Qualität der Übersetzung ab. Durch die Verwendung von LSTM-Blöcken wurden die Fähigkeiten des Modells zwar leicht erhöht, sie blieben aber dennoch begrenzt. 


Die Autoren des allgemeinen Attention-Mechanismus schlugen vor, eine zusätzliche Schicht zu verwenden, um die versteckten Zustände aller rekurrenten Blöcke der Eingangssequenz zu akkumulieren. Außerdem sollte der Mechanismus während der Sequenzdekodierung den Einfluss jedes Elements der Eingangssequenz auf das aktuelle Wort der Ausgangssequenz bewerten und dem Dekoder den relevantesten Teil des Kontexts vorschlagen.

Autor: Dmitriy Gizlyk

 
Transformers auf Kernen zu kauen ist eine hochgradig (meiner Meinung nach) coole Fähigkeit des Autors des Artikels
 
Die Ergebnisse der Ausbildung werden nicht gespeichert. Der Wert des Artikels ist deshalb nahe Null.
 
Maxim Dmitrievsky:
Das Verbrennen von Transformatoren auf Kernen ist meiner Meinung nach eine hochgradig coole Fähigkeit des Autors des Artikels.
Neidisch? P.2.
 
Dennoch sind die Testergebnisse schlechter als im vorherigen Artikel. Ich würde mich über eine Stellungnahme des Autors dazu freuen.
 
Maxim Dmitrievsky:
Das Verbrennen von Transformatoren auf Kernen ist eine hochgradig (meiner Meinung nach) coole Fähigkeit des Autors des Artikels

Stimme voll und ganz zu. Der erste Artikel hat mit allerlei 5S ) vage Zweifel geweckt, aber nach dem Einschrauben der Kerne möchte ich den Autor einfach nur gnadenlos loben))))


Andriy Konovalov:
Dennoch sind die Testergebnisse schlechter als im vorherigen Artikel. Ich würde gerne die Kommentare des Autors in dieser Hinsicht.

Was sich in dem Artikel widerspiegelt, sind weniger als 5% von dem, was der Autor mit diesem Artikel sagen konnte und wahrscheinlich auch wollte. Wenn Sie nur diese 5 % sehen und nicht versucht haben, mit anderen Aufgaben zu experimentieren, ist der Artikel wenig hilfreich.

Zumindest brauchen Sie umfangreiche und vielseitige Tests.

 
Aleksey Mavrin:

Was sich in dem Artikel widerspiegelt, sind weniger als 5 % von dem, was der Autor mit diesem Artikel sagen konnte und wahrscheinlich auch wollte. Wenn Sie nur diese 5 % sehen und nicht versucht haben, mit anderen Aufgaben zu experimentieren, ist der Artikel wenig hilfreich.

Zumindest brauchen Sie umfangreiche und vielseitige Tests.

Das ist es, was ich versuche, den Autor mit weiteren 0,5 % an Informationen zu provozieren. Am Ende seiner vorangegangenen Artikel hat der Autor seine Ergebnisse mit denen der vorangegangenen Artikel verglichen.

Für mich ist der Versuch, Aufmerksamkeitsmechanismen zur Vorhersage von Handelssignalen zu nutzen, von besonderem Interesse. Denn wenn dieser Ansatz als der effektivste für die Texterzeugung anerkannt ist (und GPT wirkt wirklich Wunder), können wir erwarten, dass er auch bei der Arbeit mit anderen Arten von Sequenzen - numerischen Reihen von Kursen - effektiv ist.

Und für die Multi-Thread-Implementierung von Self-Attention - natürlich, Dank und Respekt an den Autor.

 
Schließlich eine Arbeit mit einer Low-Level-Implementierung des Aufmerksamkeitsmechanismus ohne High-Level-Libs und einer 3-Zeilen-Implementierung.
Einige konzeptionelle Fragen sind interessant:
Wie unterscheidet sich dieses Selbstaufmerksamkeitssystem von einer einfachen vollverknüpften Schicht, da auch hier das nächste Neuron Zugriff auf alle vorherigen hat? Was ist sein entscheidender Vorteil? Ich kann es nicht verstehen, obwohl ich eine ganze Reihe von Vorträgen zu diesem Thema gelesen habe.
 
Ich bin nicht der Autor der Arbeit, aber hier ist die Antwort, die ich auf Ihre Fragen gefunden habe:

Ключевое отличие механизма Self-attention от простого полносвязного слоя заключается в способности Self-attention динамически выделять различные части входных данных. В отличие от полносвязного слоя, который обрабатывает все входы одинаково, Self-attention присваивает различные веса разным частям входных данных, фокусируясь на более релевантных частях для выполнения задачи.

Diese dynamische Gewichtung bietet den Hauptvorteil des Mechanismus: eine erhöhte Sensibilität des Modells für die Beziehungen zwischen den Elementen der Eingabesequenz, was die Leistung bei Aufgaben, die ein kontextuelles Verständnis erfordern, verbessert

 
Rashid Umarov #:
Ich bin nicht der Autor des Artikels, aber hier ist die Antwort, die ich auf Ihre Fragen gefunden habe:
Ich habe diese maschinelle Übersetzung auch gesehen, aber sie ist trotzdem nicht ganz korrekt.
Um es in menschlicher Sprache wiederzugeben, lautet die Bedeutung wie folgt: "Der SA-Mechanismus ist eine Entwicklung eines vollständig verbundenen neuronalen Netzes, und der Hauptunterschied zu PNN besteht darin, dass das elementare Element, das PNN analysiert, die Ausgabe eines einzelnen Neurons ist, während das elementare Element, das SA analysiert, ein bestimmter Vektor des Kontextes ist"? Liege ich richtig, oder gibt es noch andere wesentliche Unterschiede?
 
DeadMorose777 #:
Ich habe auch diese maschinelle Übersetzung gesehen, aber sie ist immer noch nicht ganz korrekt.
Wenn man es in menschliche Sprache umformuliert, bedeutet es Folgendes: "Der SA-Mechanismus ist eine Entwicklung eines vollständig verbundenen neuronalen Netzes, und der Hauptunterschied zu PNN besteht darin, dass das elementare Element, das PNN analysiert, die Ausgabe eines einzelnen Neurons ist, während das elementare Element, das SA analysiert, ein bestimmter Kontextvektor ist"? Liege ich richtig, oder gibt es noch andere wesentliche Unterschiede?

Der Vektor stammt aus rekurrenten Netzen, da eine Folge von Buchstaben zur Übersetzung des Textes eingegeben wird. ABER SA hat einen Encoder, der den ursprünglichen Vektor in einen kürzeren Vektor übersetzt, der so viele Informationen wie möglich über den ursprünglichen Vektor enthält. Dann werden diese Vektoren dekodiert und bei jeder Iteration des Trainings übereinander gelegt. Es handelt sich also um eine Art Informationskomprimierung (Kontextauswahl), d. h. das Wichtigste bleibt nach Ansicht des Algorithmus erhalten, und diesem Wichtigsten wird mehr Gewicht verliehen.

Im Grunde ist es nur eine Architektur, suchen Sie nicht nach einer heiligen Bedeutung, denn sie funktioniert bei Zeitreihen nicht viel besser als die üblichen NN oder LSTM.