Diskussion zum Artikel "Neuronale Netze leicht gemacht (Teil 10): Multi-Head Attention"

 

Neuer Artikel Neuronale Netze leicht gemacht (Teil 10): Multi-Head Attention :

Wir haben zuvor den Mechanismus der Self-Attention (Selbstaufmerksamkeit) in neuronalen Netzen besprochen. In der Praxis verwenden moderne neuronale Netzwerkarchitekturen mehrere parallele Self-Attention-Threads, um verschiedene Abhängigkeiten zwischen den Elementen einer Sequenz zu finden. Betrachten wir die Implementierung eines solchen Ansatzes und bewerten seine Auswirkungen auf die Gesamtleistung des Netzwerks.

Der Self-Attention-Algorithmus verwendet drei trainierte Gewichtsmatrizen (Wq, Wk und Wv). Die Matrixdaten werden verwendet, um 3 Entitäten zu erhalten: Query, Key und Value (Abfrage, Schlüssel und Wert). Die ersten beiden Entitäten definieren die paarweise Beziehung zwischen den Elementen der Sequenz, und die letzte Entität definiert den Kontext des analysierten Elements. 


Es ist kein Geheimnis, dass die Situationen nicht immer eindeutig sind. Im Gegenteil, es scheint, dass eine Situation in den meisten Fällen aus verschiedenen Blickwinkeln interpretiert werden kann. So können die Schlussfolgerungen je nach gewähltem Blickwinkel völlig gegensätzlich sein. Es ist wichtig, in solchen Situationen alle möglichen Varianten zu berücksichtigen und erst nach sorgfältiger Analyse eine Entscheidung zu treffen. Zur Lösung solcher Probleme wurde der Multi-Head Attention Mechanismus vorgeschlagen. Jeder "Kopf" (head) hat seine eigene Meinung, während die Entscheidung durch eine ausgewogene Abstimmung getroffen wird. 

Die Multi-Head-Attention-Architektur impliziert die parallele Verwendung mehrerer Self-Attention-Threads mit unterschiedlicher Gewichtung, was eine vielseitige Analyse einer Situation imitiert. Die Ergebnisse der Operation der Self-Attention-Threads werden zu einem einzigen Tensor verkettet. Das Endergebnis des Algorithmus wird durch Multiplikation des Tensors mit der W0-Matrix gefunden, deren Parameter während des Trainingsprozesses des neuronalen Netzes ausgewählt werden. Die gesamte Architektur ersetzt den Self-Attention-Block im Encoder und Decoder der Transformer-Architektur.

Autor: Dmitriy Gizlyk

Grund der Beschwerde: