Diskussion zum Artikel "Neuronale Netze leicht gemacht (Teil 8): Attention-Mechanismen" - Seite 2
Sie verpassen Handelsmöglichkeiten:
- Freie Handelsapplikationen
- Über 8.000 Signale zum Kopieren
- Wirtschaftsnachrichten für die Lage an den Finanzmärkte
Registrierung
Einloggen
Sie stimmen der Website-Richtlinie und den Nutzungsbedingungen zu.
Wenn Sie kein Benutzerkonto haben, registrieren Sie sich
Der Vektor stammt aus Rekursionsnetzen, denn zur Übersetzung des Textes wird eine Folge von Buchstaben eingegeben. SA verfügt jedoch über einen Encoder, der den ursprünglichen Vektor in einen kürzeren Vektor übersetzt, der so viele Informationen wie möglich über den ursprünglichen Vektor enthält. Dann werden diese Vektoren dekodiert und bei jeder Iteration des Trainings übereinander gelegt. Es handelt sich also um eine Art Informationskompression (Kontextauswahl), d.h. das Wichtigste bleibt nach Meinung des Algorithmus erhalten, und diese Hauptsache wird stärker gewichtet.
Im Grunde ist es nur eine Architektur, suchen Sie nicht nach einer heiligen Bedeutung, denn sie funktioniert bei Zeitreihen nicht viel besser als die üblichen NN oder LSTM.
Die Suche nach der sakralen Bedeutung ist das Wichtigste, wenn man etwas Ungewöhnliches entwerfen muss. Und das Problem der Marktanalyse liegt nicht in den Modellen selbst, sondern in der Tatsache, dass diese (Markt-)Zeitreihen zu stark verrauscht sind, und welches Modell auch immer verwendet wird, es wird genau so viele Informationen herausziehen, wie es eingebettet ist. Und das ist leider nicht genug. Um die Menge an Informationen zu erhöhen, die "herausgezogen" werden können, muss die ursprüngliche Informationsmenge erhöht werden. Und genau dann, wenn die Informationsmenge zunimmt, kommen die wichtigsten Merkmale von EO - Skalierbarkeit und Anpassungsfähigkeit - zum Tragen.
Ein Vektor ist einfach eine sequentielle Menge von Zahlen. Dieser Begriff ist nicht an rekurrente HH oder sogar an maschinelles Lernen im Allgemeinen gebunden. Dieser Begriff kann absolut bei jedem mathematischen Problem verwendet werden, bei dem die Reihenfolge der Zahlen erforderlich ist: sogar bei Schulrechenaufgaben.
Die Suche nach der sakralen Bedeutung ist das Wichtigste, wenn man etwas Ungewöhnliches entwerfen muss. Und das Problem der Marktanalyse liegt nicht in den Modellen selbst, sondern in der Tatsache, dass diese (Markt-)Zeitreihen zu stark verrauscht sind und jedes Modell, das verwendet wird, genau so viele Informationen herauszieht, wie es eingebettet ist. Und das ist leider nicht genug. Um die Menge an Informationen zu erhöhen, die "herausgezogen" werden können, muss die ursprüngliche Informationsmenge erhöht werden. Und genau dann, wenn die Informationsmenge zunimmt, kommen die wichtigsten Merkmale von EO - Skalierbarkeit und Anpassungsfähigkeit - zum Tragen.
Dieser Begriff bezieht sich auf rekurrente Netze, die mit Sequenzen arbeiten. Es wird lediglich ein Additiv in Form eines Aufmerksamkeitsmechanismus verwendet, anstelle von Gattern wie bei lstm. Wenn man lange MO-Theorie raucht, kommt man in etwa auf dasselbe Ergebnis.
Dass das Problem nicht in den Modellen liegt - 100% Zustimmung. Aber dennoch kann jeder Algorithmus der TC-Konstruktion auf die eine oder andere Weise in Form einer NS-Architektur formalisiert werden :) es ist eine Zweibahnstraße.Einige konzeptionelle Fragen sind interessant:
Wie unterscheidet sich dieses Selbstaufmerksamkeitssystem von einer einfachen voll vernetzten Schicht, da auch hier das nächste Neuron Zugriff auf alle vorherigen hat? Was ist sein entscheidender Vorteil? Ich kann es nicht verstehen, obwohl ich schon viele Vorträge zu diesem Thema gelesen habe .
Es gibt hier einen großen "ideologischen" Unterschied. Kurz gesagt, ein Full-Link-Layer analysiert den gesamten Satz von Quelldaten als ein einziges Ganzes. Und selbst eine unbedeutende Änderung eines der Parameter wird vom Modell als etwas radikal Neues bewertet. Daher erfordert jede Operation an den Quelldaten (Komprimierung/Dehnung, Drehung, Hinzufügen von Rauschen) ein erneutes Training des Modells.
Aufmerksamkeitsmechanismen arbeiten, wie Sie richtig bemerkt haben, mit Vektoren (Datenblöcken), die man in diesem Fall korrekter als Embeddings bezeichnen sollte - eine kodierte Darstellung eines separaten Objekts in der analysierten Anordnung von Quelldaten. In Self-Attention wird jede solche Einbettung in 3 Entitäten umgewandelt: Abfrage, Schlüssel und Wert. Im Wesentlichen ist jede der Entitäten eine Projektion des Objekts in einen N-dimensionalen Raum. Beachten Sie, dass für jede Entität eine andere Matrix trainiert wird, so dass die Projektionen in verschiedene Räume erfolgen. Abfrage und Schlüssel werden verwendet, um den Einfluss einer Entität auf eine andere im Kontext der ursprünglichen Daten zu bewerten. Das Punktprodukt Query von Objekt A und Key von Objekt B zeigt das Ausmaß der Abhängigkeit von Objekt A von Objekt B. Da Abfrage und Schlüssel eines Objekts unterschiedliche Vektoren sind, unterscheidet sich der Koeffizient des Einflusses von Objekt A auf B von dem Koeffizienten des Einflusses von Objekt B auf A. Die Abhängigkeitskoeffizienten (Einflusskoeffizienten) werden verwendet, um die Score-Matrix zu bilden, die durch die SoftMax-Funktion in Bezug auf die Abfrageobjekte normalisiert wird. Die normalisierte Matrix wird mit der Wertentitätsmatrix multipliziert. Das Ergebnis der Operation wird zu den Originaldaten addiert. Dies kann als Hinzufügen eines Sequenzkontextes zu jeder einzelnen Entität bewertet werden. Dabei ist zu beachten, dass jede Entität eine individuelle Darstellung des Kontexts erhält.
Die Daten werden dann normalisiert, so dass die Darstellung aller Objekte in der Sequenz ein vergleichbares Aussehen hat.
In der Regel werden mehrere aufeinanderfolgende Self-Attention-Schichten verwendet. Daher sind die Dateninhalte am Eingang und am Ausgang des Blocks inhaltlich sehr unterschiedlich, aber von der Größe her ähnlich.
Transformer wurde für Sprachmodelle vorgeschlagen. Und war das erste Modell, das nicht nur lernte, den Ausgangstext wortwörtlich zu übersetzen, sondern auch Wörter im Kontext der Zielsprache neu anzuordnen.
Darüber hinaus sind Transformer-Modelle in der Lage, kontextfremde Daten (Objekte) aufgrund einer kontextbewussten Datenanalyse zu ignorieren.
Hier gibt es einen großen "ideologischen" Unterschied. Kurz gesagt, die Full-Link-Schicht analysiert den gesamten Satz von Eingangsdaten als Ganzes. Und selbst eine unbedeutende Änderung eines der Parameter wird vom Modell als etwas radikal Neues bewertet. Daher erfordert jede Operation an den Quelldaten (Komprimierung/Dehnung, Drehung, Hinzufügen von Rauschen) ein erneutes Training des Modells.
Aufmerksamkeitsmechanismen arbeiten, wie Sie richtig bemerkt haben, mit Vektoren (Datenblöcken), die man in diesem Fall korrekter als Embeddings bezeichnen sollte - eine kodierte Darstellung eines separaten Objekts in der analysierten Anordnung von Quelldaten. In Self-Attention wird jede solche Einbettung in 3 Entitäten umgewandelt: Abfrage, Schlüssel und Wert. Im Wesentlichen ist jede der Entitäten eine Projektion des Objekts in einen N-dimensionalen Raum. Beachten Sie, dass für jede Entität eine andere Matrix trainiert wird, so dass die Projektionen in verschiedene Räume erfolgen. Abfrage und Schlüssel werden verwendet, um den Einfluss einer Entität auf eine andere im Kontext der ursprünglichen Daten zu bewerten. Das Punktprodukt Query von Objekt A und Key von Objekt B zeigt das Ausmaß der Abhängigkeit von Objekt A von Objekt B. Da Abfrage und Schlüssel eines Objekts unterschiedliche Vektoren sind, unterscheidet sich der Koeffizient des Einflusses von Objekt A auf B von dem Koeffizienten des Einflusses von Objekt B auf A. Die Abhängigkeitskoeffizienten (Einflusskoeffizienten) werden verwendet, um die Score-Matrix zu bilden, die durch die SoftMax-Funktion in Bezug auf die Abfrageobjekte normalisiert wird. Die normalisierte Matrix wird mit der Wertentitätsmatrix multipliziert. Das Ergebnis der Operation wird zu den Originaldaten addiert. Dies kann als Hinzufügen eines Sequenzkontextes zu jeder einzelnen Entität bewertet werden. Dabei ist zu beachten, dass jedes Objekt eine individuelle Darstellung des Kontexts erhält.
Die Daten werden dann normalisiert, so dass die Darstellung aller Objekte in der Sequenz ein vergleichbares Aussehen hat.
In der Regel werden mehrere aufeinanderfolgende Self-Attention-Schichten verwendet. Daher werden die Dateninhalte am Eingang und am Ausgang des Blocks inhaltlich sehr unterschiedlich, aber von der Größe her ähnlich sein.
Transformer wurde für Sprachmodelle vorgeschlagen. Und war das erste Modell, das nicht nur lernte, den Ausgangstext wortwörtlich zu übersetzen, sondern auch Wörter im Kontext der Zielsprache neu anzuordnen.
Darüber hinaus sind Transformer-Modelle in der Lage, kontextfremde Daten (Objekte) aufgrund einer kontextbewussten Datenanalyse zu ignorieren.
Vielen Dank an Sie! Ihre Artikel haben mir sehr geholfen, ein so komplexes und vielschichtiges Thema zu verstehen.
Die Tiefe Ihres Wissens ist wirklich erstaunlich.