Maschinelles Lernen und neuronale Netze - Seite 34

 

CS 198-126: Vorlesung 14 - Transformatoren und Aufmerksamkeit



CS 198-126: Vorlesung 14 - Transformatoren und Aufmerksamkeit

Dieser Videovortrag über Transformer und Aufmerksamkeit behandelt das Konzept und die Motivation hinter Aufmerksamkeit, ihre Beziehung zu Transformern und ihre Anwendung in NLP und Vision. Der Dozent diskutiert weiche und harte Aufmerksamkeit, Selbstaufmerksamkeit, lokale Aufmerksamkeit und Mehrkopfaufmerksamkeit und wie sie in der Transformer-Architektur verwendet werden. Sie erläutern auch das Schlüsselwert-Abfragesystem, die Bedeutung von Restverbindungen und Layer-Normalisierung sowie den Prozess der Anwendung eines linearen Layers, um kqv aus Eingabeeinbettungen zu erhalten. Schließlich behandelt der Vortrag die Verwendung von Positionseinbettungen und dem CLS-Token in Sequence-to-Vector-Beispielen und hebt die Recheneffizienz und Skalierbarkeit des Aufmerksamkeitsmechanismus hervor.

  • 00:00:00 In diesem Abschnitt des Videovortrags ist es das Ziel, die Motivation hinter der Aufmerksamkeit zu erklären und wie sie mit Transformer-Modellen zusammenhängt. Aufmerksamkeit ist der Eckpfeiler moderner Vision Transformers und ist notwendig, um Anstrengungen und Aufmerksamkeit auf einen bestimmten Ort zu lenken. Der Dozent erklärt, dass Aufmerksamkeit ein Schlüsselwertsystem für Abfragen verwendet, um fundiertere Entscheidungen darüber zu treffen, auf welche Dinge zu achten ist. Das moderne Aufmerksamkeitssystem basiert darauf, wie Menschen lesen, wobei sie sich auf bestimmte aufeinanderfolgende Wörter konzentrieren und alles andere verwischen.

  • 00:05:00 In diesem Abschnitt diskutiert der Dozent das Konzept der Aufmerksamkeit in maschinellen Lernmodellen, insbesondere im Kontext von NLP und RNNs. Aufmerksamkeit ermöglicht es Modellen, sich auf die wichtigen Teile einer Eingabe zu konzentrieren und Schlussfolgerungen anhand einer bestimmten Teilmenge von Daten zu ziehen, anstatt alles als Ganzes zu berücksichtigen. Es gibt zwei Arten von Aufmerksamkeit: harte Aufmerksamkeit, die vorhersagt, welche Indizes zu einem bestimmten Zeitschritt relevant sind, und weiche Aufmerksamkeit, die eine Reihe von weichen Gewichtungen mit der Softmax-Funktion erstellt, um eine Wahrscheinlichkeitsverteilung basierend auf den Eingabetoken zu erstellen, die ihre angeben Bedeutung. Sanfte Aufmerksamkeit wird im Allgemeinen verwendet und kombiniert die Darstellungen verschiedener Merkmale. Der Vortrag behandelt auch den Vorgang des Übersetzens aus dem Französischen ins Englische als Beispiel für die Verwendung von Aufmerksamkeit.

  • 00:10:00 In diesem Abschnitt erklärt der Sprecher den Prozess der Codierung jedes Wortes und der Erstellung einer latenten Repräsentation der Wörter unter Verwendung eines traditionellen Encoder-Decoder-Netzwerks, das eine sequentielle Verarbeitung der Eingaben und eines Kontextvektors für die Decodierung umfasst. Anschließend führen sie das Konzept der sanften Aufmerksamkeit ein, das einen Kontextvektor verwendet, der Informationen aus jeder latenten Repräsentation entnimmt, um sie auf der Grundlage der zuvor decodierten Informationen zu decodieren. Der Prozess umfasst das Erstellen einer Bewertungsfunktion, um Ähnlichkeiten zwischen der vorherigen Decodierung und der Codierung zu bestimmen, und die Verwendung verschiedener Metriken, um eine relative Wichtigkeit zu ermitteln, wodurch eine probabilistische Darstellung der Verwandtschaft einer Abfrage mit einem Bündel von Schlüsseln bereitgestellt wird.

  • 00:15:00 In diesem Abschnitt erklärt der Dozent das Konzept der lokalen Aufmerksamkeit, das es dem Aufmerksamkeitsmodell ermöglicht, nur ein bestimmtes Fenster von Eingabetoken abzufragen, anstatt alle, um Rechenressourcen zu sparen. Der Vortrag befasst sich auch mit der Verwendung von Aufmerksamkeit für das Sehen, einschließlich der Verwendung von Squeeze-and-Excite-Netzwerken für kanalweise Aufmerksamkeit und räumlicher Aufmerksamkeit für Bilder. Darüber hinaus berührt der Vortrag kurz die Verwendung von Aufmerksamkeit zum Generieren von Sätzen, die Bilder beschreiben, wie z. B. die Verwendung von Faltungen zum Extrahieren von Schlüsselmerkmalen und von langen Kurzzeitgedächtnisnetzwerken, um Verbindungen zwischen Wörtern aufrechtzuerhalten.

  • 00:20:00 In diesem Abschnitt diskutiert der Dozent die Verwendung von Aufmerksamkeit in verschiedenen Architekturen, einschließlich räumlicher und Selbstaufmerksamkeit. Selbstaufmerksamkeit beinhaltet das Nachschlagen von Tokens aus derselben Eingabe, während auf die Beziehungen zwischen Wörtern in einem Satz geachtet wird, was eine bessere Vorhersage des nächsten Worts basierend auf vorherigen Wörtern ermöglicht. Der Dozent stellt auch das Konzept von Transformern vor, die das Key-Value-Query-System der Aufmerksamkeit verwenden, um bei der Auswahl von Kernel-Features auf unterschiedliche Ähnlichkeiten zu warten.

  • 00:25:00 In diesem Abschnitt des Videos stellt der Dozent das Konzept der Selbstaufmerksamkeit und der sanften Aufmerksamkeit vor, die im Transformer-Modell verwendet werden. Die Idee ist, eine Wahrscheinlichkeitsverteilung zu erstellen, die sich auf bestimmte Merkmale konzentriert und andere ignoriert, um bestimmte Beziehungen vorherzusagen. Der Dozent erklärt dann, wie Matrizen anstelle des Eins-zu-eins-Vergleichs von Abfragen und Schlüsseln in Transformer-Modellen verwendet werden. Der Vortrag erörtert auch die Einschränkungen von RNNs, wie z. B. ihre Unfähigkeit, lange Sequenzen zu parallelisieren und zu erfassen, und wie Aufmerksamkeit zur Lösung dieser Probleme beitragen kann.

  • 00:30:00 In diesem Abschnitt des Vortrags erörtert der Moderator die Transformer-Architektur und wie sie die Selbstaufmerksamkeit nutzt, um Sequenzen oder Gruppen von Token zu modellieren. Die Eingaben umfassen eine Folge von Token-Einbettungen und Positionseinbettungen, und das Ziel besteht darin, eine Darstellung zu erstellen, die an das Transformer-Modell übergeben werden kann. Die Multi-Head-Aufmerksamkeit wird verwendet, um die Wichtigkeit jedes Tokens basierend auf der Abfrage und dem Schlüssel zu berechnen, und der Feed-Forward-Schritt wird parallel durchgeführt, um die Vorzüge des Transformers hervorzuheben. Die Architektur kombiniert Restverbindungen und Schichtnormen, um verschwindende Gradienten zu mildern und eine genaue Darstellung bereitzustellen. Schließlich wird am Ende eine lineare Ebene hinzugefügt, um die Ausgabe basierend auf den Hinweisen, Schlüsseln und Werten der verschiedenen Darstellungen zu berechnen.

  • 00:35:00 In diesem Abschnitt erläutert der Sprecher den Vorgang des Anwendens einer linearen Schicht, um kqv aus den Eingabeeinbettungen für jedes Wort im Text zu erhalten. Dabei werden unterschiedliche Gewichtungen für Schlüssel, Abfragen und Werte verwendet, die durch Matrixmultiplikation miteinander verbunden werden. Danach wird ein Skalarprodukt zwischen den Abfragen und Werten gefunden und jedes Token kümmert sich direkt um jedes andere Token, wodurch die Verbindungen zwischen Eingaben unendlich skalierbar werden. Basierend auf den Punktproduktwerten wird eine SoftMax-Verteilung angewendet, und dann werden die Werte basierend auf dieser Verteilung neu gewichtet, um Token für Token einen endgültigen Wert zu erhalten. Das Skalieren der Aufmerksamkeit durch Dividieren durch eins über die Quadratwurzel von D wird verwendet, um Dinge zu standardisieren und sicherzustellen, dass es keine kleinen Gradienten gibt, und mehrköpfige Aufmerksamkeit wird verwendet, um jeden Schlüssel, jede Abfrage und jeden Wert, der einem Token entspricht, H-mal zu projizieren. Schließlich wird Dropout verwendet, um eine Überanpassung zu verhindern, und eine Transformation wird auf die resultierenden Vektoren angewendet, bevor sie an ein neuronales Feedforward-Netzwerk gesendet werden.

  • 00:40:00 In diesem Abschnitt des Videos erklärt der Dozent den Aufmerksamkeitsmechanismus in Transformatoren und die Bedeutung des Hinzufügens von Restverbindungen, um verschwindende Gradienten in tiefen Netzwerken zu bewältigen. Sie diskutieren auch die Unterschiede zwischen Stapelnormalisierung und Schichtnormalisierung, wobei die Schichtnormalisierung im Aufmerksamkeitsmechanismus verwendet wird, um jede Merkmalsdimension zu normalisieren. Der Dozent erklärt auch, wie die gewichtete Summe der Werte mehrere Vektoren erzeugt, die dann durch eine gewichtete Matrix geleitet werden, um einen singulären Wert zu erhalten, der in das Feed-Forward-Netzwerk geleitet wird. Insgesamt gibt die Vorlesung eine vertiefte Erläuterung des Aufmerksamkeitsmechanismus und seiner verschiedenen Komponenten in Transformatoren.

  • 00:45:00 In diesem Abschnitt der Vorlesung über Transformers und Aufmerksamkeit erläutert der Referent die Implementierung der Transformer-Architektur des neuronalen Netzes, die aus Residual- und Layer-Norm-Operationen sowie einer One-by-One-Faltung besteht. Jedes mehrschichtige Perzeptron wird parallelisiert, und die Eingabepositionseinbettungen werden verwendet, um auf der Grundlage von Positionsinformationen auf bestimmte Fenster zu fokussieren. Ein Dummy-Token wird auch bei bestimmten NLP-Aufgaben verwendet, um eine Sequenz in eine Vektormessung umzuwandeln.

  • 00:50:00 In diesem Abschnitt behandelt die Vorlesung Sequenz-zu-Vektor-Beispiele und die Verwendung von CLS-Tokens. Die Vorlesung erklärt die Mathematik hinter dem Aufmerksamkeitsmechanismus, der eine Matrixmultiplikation zwischen den Abfrage-, Schlüssel- und Werteingaben beinhaltet. Das Ergebnis ist eine gewichtete Summe, die die Aufmerksamkeit darstellt. Diese Methode ist recheneffizient, wodurch sie sich für die Parallelisierung auf GPUs eignet und selbst für große Eingaben skalierbar ist. Der Vortrag schließt mit einer Diskussion der Transformatorarchitektur, Positionseinbettungen und der Einführung von No Induction Bias, die sich von sequentiellen Modellen unterscheidet.
 

CS 198-126: Vorlesung 15 - Vision Transformers



CS 198-126: Vorlesung 15 - Vision Transformers

In diesem Vortrag geht der Referent auf den Einsatz von Vision Transformern (ViTs) für Bildverarbeitungsaufgaben ein. Die ViT-Architektur umfasst das Downsampling von Bildern in diskrete Patches, die dann unter Verwendung einer linearen Schichtausgabe in Eingabeeinbettungen projiziert werden, bevor sie durch einen Transformer geleitet werden. Das Modell wird auf einem großen, beschrifteten Datensatz vortrainiert, bevor der eigentliche Datensatz feinabgestimmt wird, was zu einer hervorragenden Leistung mit weniger Rechenaufwand als bei den vorherigen hochmodernen Methoden führt. Die Unterschiede zwischen ViTs und Convolutional Neural Networks (CNNs) werden diskutiert, wobei ViTs ein globales Empfangsfeld und mehr Flexibilität als CNNs haben. Der Einsatz von selbstüberwachtem und unüberwachtem Lernen mit Transformern für Sehaufgaben wird ebenfalls hervorgehoben.

  • 00:00:00 In diesem Abschnitt erläutert der Referent die Verwendung von Vision Transformers und wie sie auf Bilder angewendet werden können. Sie erklären das Konzept von Token, Embeddings und Transformers und liefern ein konkretes Beispiel dafür, wie sie für Aufgaben zur Verarbeitung natürlicher Sprache verwendet werden können. Anschließend erklären sie, wie die gleiche Architektur auf Computervisionsaufgaben angewendet werden kann, indem das Bild als Zeichenkette vorverarbeitet wird und die Skalierbarkeit, Recheneffizienz und globalen Empfangsfelder von Transformer genutzt werden, um es effektiv zu verarbeiten. Der Sprecher geht auch auf die Vorverarbeitung von Text durch Tokenisierung und Zuordnung jedes Wortes zu einem Vokabular ein.

  • 00:05:00 In diesem Abschnitt der Vorlesung geht der Dozent darauf ein, wie Tokenisierungs- und Einbettungsverfahren aus der Verarbeitung natürlicher Sprache (NLP) auf Bildverarbeitung umgestellt werden können. Bei der Tokenisierung werden Wörter oder Sätze in ein numerisches Format umgewandelt, das zum Generieren von Einbettungsvektoren verwendet wird. Dieser Prozess ist jedoch für Bilder nicht einfach, da die Farbwerte kontinuierlich sind, was es schwierig macht, eine Tabelle zu erstellen, um sie nachzuschlagen. Diese Herausforderung kann angegangen werden, indem man vorgibt, die Werte seien diskret, da dies es ermöglicht, jedes Pixel als Token zu behandeln. Zusätzlich wird das Problem der Zeitkomplexität angegangen, indem kleinere Bilder verwendet werden und sie ähnlich wie Sprachmodelle trainiert werden.

  • 00:10:00 In diesem Abschnitt erörtert der Referent die Messung des Erfolgs des Vision Transformer-Modells durch halbüberwachte Klassifizierung unter Verwendung einer begrenzten Menge beschrifteter Proben. Das Modell wird mit unbeschrifteten Proben vortrainiert und dann mit den Ausgabebilddarstellungen als Eingabe durch einen linearen Klassifikator geleitet. Die Ausgabeeinbettungen müssen gut genug sein, damit der Klassifikator gut funktioniert. Diese Technik führte zu einer wettbewerbsfähigen Genauigkeit ohne Verwendung von Etiketten und wurde auch zur Bilderzeugung verwendet. Obwohl das Modell erfolgreich ist, erfordert es einen erheblichen Rechenaufwand und kann nur mit Bildern mit einer Auflösung von 64 x 64 arbeiten. Der Reiz des Transformer-Modells liegt in seiner Skalierbarkeit in Bezug auf die Rechenleistung, aber für nachgelagerte Anwendungen sind effizientere Implementierungsmittel erforderlich.

  • 00:15:00 In diesem Abschnitt erörtert der Referent die Architektur von Vision Transformers, die ein effizienterer und allgemeinerer Ansatz zur Bildklassifizierung ist. Anstatt Pixel zu quantisieren, werden Bilder in Patches heruntergerechnet und dann unter Verwendung einer linearen Ebenenausgabe direkt in Eingabeeinbettungen projiziert. Positionseinbettungen und das CLS-Token werden oben auf dem Transformer hinzugefügt. Das Vortraining wird an einem großen, gekennzeichneten Datensatz durchgeführt, bevor der eigentliche Datensatz feinabgestimmt wird, was zu einer hervorragenden Leistung mit viel weniger Rechenleistung als beim vorherigen Stand der Technik führt. Der Ansatz ist allgemeiner, weil er weniger induktive Vorspannungen hat.

  • 00:20:00 In diesem Abschnitt werden die Unterschiede zwischen Convolutional Neural Networks (CNNs) und Vision Transformers (ViTs) diskutiert. Die beiden Hauptunterschiede zwischen CNNs und ViTs sind die Lokalität und die zweidimensionale Nachbarschaftsstruktur. CNNs neigen dazu, aufgrund von Beschränkungen in der Kernelgröße, die für Interaktionen zwischen Pixeln verwendet wird, auf Merkmale voreingenommen zu sein, die sich nahe beieinander befinden. Andererseits projizieren ViTs jedes Pixel auf eine Einbettung und ermöglichen es jedem Token, sich um jeden anderen Token zu kümmern, unabhängig von seiner Position im Bild, wodurch sie weniger auf lokale Merkmale ausgerichtet sind. ViTs haben auch eindeutige Darstellungen für jedes Token und Positionseinbettungen, die sich auf die resultierenden Darstellungen auswirken, wodurch sie flexibler und in der Lage sind, während der Feinabstimmung zu interpolieren.

  • 00:25:00 In diesem Abschnitt lernen wir einige der Vorteile von Vision Transformers (ViTs) gegenüber herkömmlichen Convolutional Neural Networks (CNNs) kennen. ViTs sind in der Lage, bessere Bilddarstellungen mit größeren Datensätzen zu lernen, da sie zu Beginn keine Vorurteile gegenüber der Verarbeitung von Bildern haben, was bedeutet, dass sie im Gegensatz zu technischen Vorurteilen in CNNs keinen Datenmodus annehmen. Dies ist auch der Grund, warum ViTs einen Kompromiss mit Daten eingehen und schlechter abschneiden, wenn weniger Daten vorhanden sind, und besser, wenn mehr Daten vorhanden sind. Darüber hinaus haben ViTs ein globales Empfangsfeld, das Interaktionen über das gesamte Bild hinweg ermöglicht, was mit CNNs nicht möglich ist. Einige ViT-Funktionen wie Positionseinbettungen und Aufmerksamkeitsdarstellungen machen es in gewisser Weise besser interpretierbar.

  • 00:30:00 In diesem Abschnitt werden die Unterschiede zwischen Convolutional Neural Networks (CNNs) und Vision Transformern erklärt. CNNs verwenden eine oder zwei Faltungsschichten, die ihre Fähigkeit zur Verarbeitung von Informationen über einen kleinen Bereich hinaus einschränken. Daher finden Interaktionen zwischen Tokens in CNNs erst am Ende statt. Im Gegensatz dazu verwenden Vision Transformers ein globales rezeptives Feld, in dem jeder Token von Anfang an mit jedem anderen Token interagiert, was es ihnen ermöglicht, sich um alles zu kümmern. Vision Transformer haben jedoch Nachteile, wie z. B. dass ihre Ausgabe aufgrund der Verwendung von Patches weniger feinkörnig ist, was zu Problemen bei der feinkörnigen Bildklassifizierung und -segmentierung führt. Das Ziel, allgemeinere Modelle zu haben, wird betont, bei denen Modelle aus Daten lernen, anstatt für bestimmte Domänen von Hand entwickelt zu werden, was eine einfachere Kombination von Domänen ermöglicht.

  • 00:35:00 In diesem Abschnitt erörtert der Referent die Vorteile des selbstüberwachten und unüberwachten Lernens mit Transformers, insbesondere im Zusammenhang mit Sehaufgaben. Durch den Zugriff auf große Mengen unbeschrifteter Daten aus dem Internet ermöglichen selbstüberwachte und unüberwachte Ziele ein effizientes Training ohne die Notwendigkeit einer Annotation. Das resultierende Modell kann Darstellungen erzeugen, die Szenenlayout- und Objektgrenzeninformationen enthalten, und kann für Bildklassifizierungs- und Videosegmentierungsaufgaben verwendet werden. Der Referent hebt auch den erfolgreichen Einsatz von Vision Transformern bei verschiedenen Bildklassifizierungsaufgaben hervor und demonstriert ihre Fähigkeit, sich gut mit großen Datenmengen zu skalieren.

  • 00:40:00 In diesem Abschnitt erläutert der Dozent, wie man von den anfänglichen Architekturen der Transformer-Modelle zu den Top-Architekturen der Rangliste gelangt. Sie fanden heraus, dass bessere Darstellungsskalen mit Rechenzeit, Modellgröße und Datensatzgröße und große Modelle stichprobeneffizienter sind, was bedeutet, dass sie weniger Trainingsstichproben benötigen, um die gleiche Leistung zu erzielen. Der Dozent spricht auch über Vision Transformers und CNN, die eine hybride Architektur zwischen den beiden darstellen. Sie fügen Visual Transformers induktive Verzerrungen hinzu, indem sie Gewichtswerte verwenden, die von der relativen Position abhängen, um fehlende translationale Äquivarianz in Transformers zu beheben, wenn nicht genügend Daten vorhanden sind.

  • 00:45:00 In diesem Abschnitt erörtert der Dozent die Verwendung eines erlernten Gewichtsvektors in Transformer-Modellen für Bilder. Dieser erlernte Gewichtungsvektor ermöglicht eine einfachere Kodierung von Merkmalen, die nur von der relativen Positionierung und nicht von der absoluten Positionierung abhängen. Darüber hinaus stellt der Dozent Lösungen zur Frage der quadratischen Zeit in Bezug auf die räumliche Größe in Transformers vor, wie z. B. Pooling und Kombination von Faltungsblöcken mit Transformer-Blöcken. Das Vision Transformer-Modell mit seinen selbstüberwachten Trainingsschemata wird als nächster Schritt beim Übergang von handgefertigten Funktionen zu allgemeineren Modellen angesehen und erfordert eine Menge Daten, wie es Transformers normalerweise tun. Das BTS-Modell ist skalierbar und funktioniert gut auf Rechenhardware. Der Dozent bestätigt, dass es sich um einen überwachten Lernalgorithmus handelt.
 

CS 198-126: Vorlesung 16 - Fortgeschrittene Objekterkennung und semantische Segmentierung



CS 198-126: Vorlesung 16 - Fortgeschrittene Objekterkennung und semantische Segmentierung

In dieser fortgeschrittenen Vorlesung zur Objekterkennung und semantischen Segmentierung diskutiert der Dozent die Vor- und Nachteile von Convolutional Neural Networks (CNNs) und Transformers, insbesondere in der Verarbeitung natürlicher Sprache (NLP) und Computer Vision. Während CNNs sich durch strukturelle Voreingenommenheit auszeichnen, bewältigen Transformer sowohl NLP- als auch Computer-Vision-Aufgaben effizient, indem sie Selbstaufmerksamkeitsebenen verwenden, um wichtige Konzepte miteinander zu verbinden und sich auf bestimmte Eingaben zu konzentrieren. Der Vortrag befasst sich dann mit Vision Transformers, die der Form Vorrang vor der Textur einräumen und sie so widerstandsfähig gegen Verzerrungen machen. Er erläutert außerdem die Vorteile und Einschränkungen des Swin Transformer, einer verbesserten Version des Vision Transformer, der sich durch Bildklassifizierung, semantische Segmentierung und Objekterkennung auszeichnet. Der Vortrag betont die Bedeutung der Verallgemeinerbarkeit in Modellen, die mit beliebigen Daten umgehen können, und die potenziellen Anwendungen in Bereichen wie selbstfahrenden Autos.

  • 00:00:00 In diesem Abschnitt skizziert der Dozent den Plan für die Vorlesung des Tages, der einen Rückblick auf CNNs und Transformatoren und ihre Vor- und Nachteile beinhaltet. Der Vortrag behandelt auch NLP-Kontexte wie BERT und wie Einbettungen generiert werden, und geht dann zu Vision Transformers über und vergleicht sie mit CNNs. Der Swing Transformer, eine Verbesserung von Vision Transformers für Computer-Vision-Anwendungen, wird diskutiert, einschließlich Fensteraufmerksamkeits-Patch-Merging und verschobener Fensteraufmerksamkeit mit positionellen Einbettungen. Wenn es die Zeit erlaubt, kann die Vorlesung auch fortgeschrittene Segmentierungsmethoden behandeln.

  • 00:05:00 In diesem Abschnitt des Vortrags diskutiert der Referent das Konzept der CNNs und ihre translationale Äquivalenz, was bedeutet, dass sie einer zweidimensionalen Nachbarschaftsstruktur folgen und Informationen je nach Schrittweite an verschiedenen Stellen erfassen. Der Redner weist auch darauf hin, dass CNNs eine Neigung zur strukturellen Voreingenommenheit gegenüber der Form gezeigt haben und dass die Texturerweiterung ihre Leistung beeinträchtigen kann. Der Sprecher wechselt dann in den Kontext von Transformers für NLP-Aufgaben und wie Aufmerksamkeit es uns ermöglicht, wichtige Dinge in einem Satz zusammenzufügen und uns auf bestimmte Teile des Inputs zu konzentrieren. Die Selbstaufmerksamkeit in Transformers ermöglicht es uns, dies innerhalb eines Satzes zu tun, wobei die Bedeutung früherer Wörter betont wird, auf die wir gestoßen sind.

  • 00:10:00 In diesem Abschnitt erläutert das Video, wie Selbstaufmerksamkeitsebenen Abfragen, Schlüssel und Werte verwenden, um Aufmerksamkeits- und Gewichtungsinformationen basierend auf Ähnlichkeit oder Unterschied zu berechnen. Der Abschnitt stellt auch Vision Transformers vor, die das Transformer-Modell verwenden, um sowohl NLP- als auch Computer-Vision-Aufgaben zu bewältigen, indem Bilder in 16x16-Patches reduziert und durch eine lineare Ebene geleitet werden, um Einbettungen zu erzeugen. Die Positionsinformationen werden vom Modell gelernt, und sie verwenden ein mehrschichtiges Perzeptron, um die Ausgabe zu klassifizieren. Der Abschnitt vergleicht Vision Transformers mit CNNS und weist darauf hin, dass die Selbstaufmerksamkeitsschichten global sind, während nur das MLP benachbarte Pixel vergleicht. Das Transformer-Modell im Vision Transformer unterscheidet nicht zwischen Bild- und Worteingaben und ist für eine Reihe von Aufgaben verallgemeinerbar.

  • 00:15:00 In diesem Abschnitt der Vorlesung wird das Konzept der induktiven Verzerrung in maschinellen Lernmodellen diskutiert. Induktive Verzerrung bezieht sich auf die Annahmen, die ein Modell über die Daten macht, auf denen es trainiert wurde, und die Reduzierung dieser Verzerrung ermöglicht es, dass ein Modell verallgemeinerbar ist. Es ist wichtig, Modelle zu haben, die auf mehrere Aufgaben angewendet werden können, ohne Vorkenntnisse vorauszusetzen. Während CNNs Transformers bei kleineren Datensätzen übertreffen, schneidet das Vision Transformer-Modell (ViT) bei größeren und komplexeren Datensätzen besser ab, da es das menschliche Sehvermögen besser modelliert, indem es der Form Vorrang vor der Textur einräumt. Die gegnerische Robustheit wird auch als Metrik eingeführt, bei der Bilder durch Einführen von Rauschen verzerrt werden, sodass bestimmte Klassifikatoren sie nicht mehr klassifizieren können.

  • 00:20:00 In diesem Abschnitt werden die Einschränkungen von Vision Transformern bei der Bildwiederherstellung und semantischen Segmentierung erörtert. Wenn Patches einzeln weitergegeben und verarbeitet werden, können Randinformationen verloren gehen und eine feinkörnige Pixelanalyse innerhalb eines Patches ist schwach, da Informationen, die zu einem Patch gehören, als gleich behandelt werden. Im Gegensatz zu CNNs, die der Textur Vorrang vor der Form geben, priorisieren Vision Transformers jedoch die Form vor der Textur, wodurch sie auf natürliche Weise robust gegenüber visuellen Verzerrungen sind, selbst wenn einem Bild gezielt Rauschen hinzugefügt wird. Das Extrahieren von Patches ist ein Problem, das nur bei Bildern auftritt, und bei größeren Bildern steigt die Anzahl der erzeugten Bild-Tokens schnell an.

  • 00:25:00 In diesem Abschnitt erörtert der Dozent die Probleme bei der Verwendung typischer Vision-Transformer zur Objekterkennung und -segmentierung, insbesondere bei der Verarbeitung größerer Bilder, da dies viel Rechenleistung erfordert. Mit dem Transformer mit verschobenen Fenstern wurde jedoch eine Lösung eingeführt, die nicht überlappende Fenster verwendet, um die Selbstaufmerksamkeit innerhalb von Gruppen durchzuführen, und sie dann miteinander kombiniert, um die Kreuzaufmerksamkeit durchzuführen. Dies ermöglicht fensterübergreifende Aufmerksamkeitsverbindungen, was zu einer linearen Berechnungskomplexität anstelle von N-Quadrat führt, da die Größe der Patches gleich bleibt, während sie kombiniert werden. Diese Methode der Bildsegmentierung wird häufig in selbstfahrenden Technologien verwendet.

  • 00:30:00 In diesem Abschnitt wird das Konzept des Swin Transformer vorgestellt, ein Modell, das sich durch Bildklassifizierung, Objekterkennung und semantische Segmentierung auszeichnet. Das große Patch-Modell von Swin hat eine Patch-Größe von 4, eine Kapazität von 192, eine Fenstergröße von 7 und wird auf ImageNet 22k trainiert und auf ImageNet 1k fein abgestimmt. Das Modell verwendet eine Fenster-Mehrfachaufmerksamkeitsschicht und eine verschobene Fensteraufmerksamkeitsschicht und ein MLP mit verborgenen Schichten, die eine GELU-Aktivierungsfunktion verwenden. Die Ausgabe des Fenster-MSA wird durch eine Schichtnorm geleitet, um die Verteilungen der Zwischenschichten zu normalisieren, bevor sie in das MLP eintritt.

  • 00:35:00 In diesem Abschnitt erörtert der Referent die Vorteile der Verwendung von Layer Norm beim Trainieren von Modellen für die Objekterkennung und semantische Segmentierung. Layer Norm wendet einen Glättungsvorgang auf die Gradientenoberfläche an, was zu einem schnelleren Training und einer besseren Generalisierungsgenauigkeit führt. Der Referent vergleicht Layer Norm mit anderen Glättungstechniken wie Batch Norm und erklärt, wie sie sich auf die Zwischenschichten des Prozesses konzentriert. Die Diskussion verschiebt sich dann zu Windowed Multi-Head Self-Attention (WMSA)-Blöcken, die in jedem Fenster eines Bildes eine Selbstaufmerksamkeit durchführen. Die Anzahl der Patch-Vektoren in jedem Fenster ist garantiert, was zu einer linearen Komplexität der Bildgröße führt, im Gegensatz zu der quadratischen Komplexität in Vit (einer konkurrierenden Technik). Stufe zwei von WMSA beinhaltet einen Patch-Zusammenführungsprozess, bei dem benachbarte Pixelblöcke zu einem kleineren Fenster verkettet werden, wodurch neue Patch-Grenzen und neu erstellte Fenster erstellt werden.

  • 00:40:00 In diesem Abschnitt des Vortrags erläutert der Moderator die Lösung von Swin Transformer zur Bewältigung der Zunahme der Anzahl von Fenstern, die nach dem Vorrücken der Patches generiert werden. Swin Transformer kombiniert diese Fenster auf clevere Weise, indem Blöcke so neu angeordnet werden, dass sie nur noch vier Fenster haben, wodurch die Anzahl der Gesamtelemente von 64 auf 16 reduziert wird, während die Gesamtmenge an Informationen konsistent bleibt. Die Optimierungstechnik beinhaltet eine zyklische Verschiebung, und eine lineare Schicht wird verwendet, um die Tiefe oder die "C"-Dimension der Einbettungsgröße zu erhöhen, nachdem der Zusammenbruch der Patches reduziert wurde. Diese Technik spart Rechenleistung und vermeidet die naive Lösung des Auffüllens mit Nullen vor dem Ausführen der Aufmerksamkeit.

  • 00:45:00 In diesem Abschnitt diskutiert der Referent zwei Optimierungen, die von den Autoren vorgeschlagen wurden, um die Effizienz der Bildverarbeitung zu verbessern. Die erste Optimierung besteht darin, ein Bild vor der Berechnung der Aufmerksamkeit auf einen bestimmten Teil zu verschieben und es dann zurück zu verschieben, während markiert wird, dass es bereits berechnet wurde. Dies optimiert die Rechenleistung, indem vermieden wird, dass eine völlig neue Operation durchgeführt werden muss, um die gewünschten Werte zu erhalten. Die zweite Optimierung erfolgt durch Positionseinbettungen, die Patch-Positionsinformationen lernen, anstatt explizit bereitgestellt zu werden, wodurch der zu berechnende Aufmerksamkeitsbereich begrenzt wird. Diese Optimierungen helfen zusammen mit der Verwendung von Bias-Vektoren und Kanalgrößenmanipulationen bei der Durchführung von Eigenaufmerksamkeitsberechnungen bei der Bildverarbeitung.

  • 00:50:00 In diesem Abschnitt behandelt der Vortrag den Vorgang des Zusammenführens von Patches in den Stufen zwei, drei und vier des Swin-Transformatormodells. Durch Reduzieren der Dimensionalität der Patches werden sie um ein Viertel reduziert, um 3136 Patches zu erreichen, und die Codierungsgröße wird verdoppelt, um 384 Codierungen zu erhalten. Der Prozess wird in den Stufen drei und vier wiederholt, und die letzte Komponente in dem Prozess ist eine Durchschnittsbildungsschicht, gefolgt von einem Klassifikationskopf. Der Vortrag wirft Bedenken hinsichtlich der Wiedereinführung induktiver Voreingenommenheit durch die Verwendung ähnlicher Ansätze zu CNNs auf, aber Studien haben gezeigt, dass Swin-Modelle in Bezug auf Korruptionsrobustheit gut abschneiden und eine geringere Formvoreingenommenheit aufweisen als Vision Transformers. Die allgemeine Beschaffenheit der Transformer-Architektur ermöglicht die genaue Erfassung von Mustern unabhängig von Datentyp oder Domäne, und mehr Daten führen zu einer besseren Leistung.

  • 00:55:00 In diesem Abschnitt erklärt der Dozent die Vor- und Nachteile eines Modells, das jede Art von Daten aufnehmen, verarbeiten und Muster herausziehen kann, bekannt als Generalisierbarkeit. Die Idee eines allgemeinen künstlichen Intelligenzmodells, das jede Eingabe/Ausgabe handhaben kann, wird diskutiert, und die potenziellen Anwendungen in Bereichen wie selbstfahrenden Autos werden untersucht. Der Dozent merkt auch an, dass sich das Feld der gegnerischen Robustheit noch in der Entwicklung befindet und dass weitere Tests erforderlich sind, um die Wirksamkeit von Modellen wie Swin gegen fortgeschrittenere gegnerische Angriffe zu bestimmen.
 

CS 198-126: Vorlesung 17 - 3-D Vision Survey, Teil 1



CS 198-126: Vorlesung 17 - 3-D Vision Survey, Teil 1

Das Video diskutiert verschiedene visuelle 3D-Darstellungen und ihre Vor- und Nachteile, einschließlich Punktwolken, Maschen, Voxel und Strahlungsfelder. Die Vorlesung behandelt auch Raycasting, vorwärts und rückwärts, sowie das Kolorieren und Rendern von Bildern für Objekte, die sich überschneiden, mit unterschiedlichen Ansätzen für Festkörper und Transparenzen. Der Dozent geht auf die Grenzen des differenzierbaren Renderings ein und wie Radiance Fields eine Funktion für jeden XYZ-Punkt mit einer Dichte und physikalischen Farbe erstellen kann, wodurch es lernbarer wird.

  • 00:00:00 In diesem Abschnitt erörtert der Dozent die Notwendigkeit, Computer Vision auf 3D auszudehnen, da die reale Welt dreidimensional ist. Es gibt grenzenlose Anwendungen für 3D, wie z. B. Selbstfahren, Formoptimierung, virtuelle Umgebungen, Avatar-Generierung und mehr. Anschließend werden verschiedene Methoden zur 3D-Darstellung vorgestellt, darunter 2,5D, Punktwolken, Netze, Voxelgitter und Regionsfelder. Die Vorlesung befasst sich dann mit dem Lochkameramodell, das wichtig ist, um zu verstehen, wie die Bildgebung funktioniert, und anschließend, wie 3D-Objekte für die Simulation im Weltraum gerendert werden.

  • 00:05:00 In diesem Abschnitt der Vorlesung wird das Konzept der Vorwärts- und Rückwärtsverfolgung eingeführt, um die Position einer Kamera in einer Szene zu bestimmen. Der Dozent diskutiert auch RGB-D (2,5D) Bilder und wie sie Tiefeninformationen enthalten, die verwendet werden können, um Punktwolken zu erzeugen, die dann verwendet werden können, um Netze einer Oberfläche zu erstellen. Die Vorteile und Einschränkungen der Verwendung von Punktwolken für die Netzerstellung werden ebenfalls untersucht.

  • 00:10:00 In diesem Abschnitt beschreibt der Dozent verschiedene Darstellungen für 3D-Objekte. Sie beginnen mit der Erörterung von Maschenstrukturen und wie schwierig es ist, mit ihnen in maschinellen Lernumgebungen zu arbeiten, da es an Techniken für die Arbeit mit Graphen mangelt. Die Vorlesung stellt dann Voxel als diskrete 3D-Raumstruktur vor, die aus kleinen Würfeln oder "Legos" besteht, die Objekte binär oder durchscheinend darstellen können. Die Verwendung von Voxeln bei hohen Auflösungen kann jedoch aufgrund der Rechenkomplexität unerschwinglich sein. Der Vortrag schließt mit der Präsentation von Radiance Fields, einer Funktion, die RGB-Farben und Dichte an bestimmten XYZ-Koordinaten ausgibt, als Lösung zur Darstellung hochfrequenter Details in 3D-Objekten.

  • 00:15:00 In diesem Abschnitt diskutiert der Dozent verschiedene 3D-Darstellungen, darunter Punktwolken, Netze, Voxel und Strahlungsfelder. Jeder Typ hat seine Vor- und Nachteile, und es ist wichtig, die richtige Darstellung für eine bestimmte Aufgabe zu wählen. Nach der Erörterung von 3D-Darstellungen geht der Vortrag weiter zu Raycasting und den zwei Arten von Raycasting: vorwärts und rückwärts. Vorwärts-Raycasting ist nützlich zum Rendern von Punktwolken, da es uns ermöglicht, jeden Punkt in der Szene zu sehen. Umgekehrt eignet sich Rückwärts-Raycasting besser zum Rendern von Meshes oder Voxel-Raster, da es uns ermöglicht, die Oberfläche zu sehen, die den Strahl zuerst schneidet.

  • 00:20:00 In diesem Abschnitt des Videos erläutert der Sprecher den Vorgang des Kolorierens und Renderns von Bildern für verschiedene Objekte, die sich überschneiden. Dies erfolgt durch Berechnung von drei Dreiecksschnittpunkten für jedes Array, was effizient sein kann. Bei durchscheinenden Objekten wird nicht nur die Farbe des ersten geschnittenen Punktes berücksichtigt, sondern auch die Dichte des ersten und zweiten Punktes. Für Regionen ohne Oberflächen, wie z. B. Rauch, wird Ray-Sampling verwendet, um verschiedene Punkte auf der Geraden abzutasten und das Strahlungsfeld zu verwenden, um eine Funktion zu erstellen, die RGB und D für jeden Punkt ausgibt. Diese Sätze von Farben und Dichten werden dann unter Verwendung von volumetrischer Wiedergabe aggregiert, um ein Pixelvolumen zu erzeugen.

  • 00:25:00 In diesem Abschnitt diskutiert der Dozent differenzierbares Rendering und seine Grenzen. Während alles, was beim Rendern besprochen wird, differenzierbar ist, ist es nur für die sichtbaren Oberflächen differenzierbar, die wir im gerenderten Bild sehen. Strahlungsfelder lösen dabei ein Problem, da jeder einzelne Punkt, der abgetastet wird, einen Einfluss auf die endgültige Farbe hat und somit einen gewissen Ausgabegradienten hat. Der Dozent erwähnt auch, dass Strahlungsfelder schon seit einiger Zeit existieren und dazu dienen, eine Funktion für jeden XYZ-Punkt mit einer Dichte und physikalischen Farbe zu erstellen. Als nächstes wird der Dozent die Modellierung von f als neuronales Netzwerk diskutieren, um Radiance Fields erlernbar zu machen.

  • 00:30:00 In diesem Abschnitt erwähnt der Sprecher kurz eine Verzögerung bei den Transformers-Hausaufgaben um eine Woche, liefert jedoch keinen Kontext oder eine Erklärung.
 

CS 198-126: Vorlesung 18 - 3-D Vision Survey, Teil 2



CS 198-126: Vorlesung 18 - 3-D Vision Survey, Teil 2

In dieser Vorlesung zum 3D-Sehen geht der Dozent auf Strahlungsfelder ein, insbesondere auf Neural Radiance Fields (NeRFs), die eine Position im Raum einnehmen und Farbe und Dichte ausgeben. Der Referent erklärt den Prozess des Renderns, bei dem aus der Kameraperspektive abgefragt und mithilfe der Blackbox-Funktion ermittelt wird, wie das Bild aussehen wird. Die Vorlesungen diskutieren die Herausforderungen bei der Darstellung konsistenter Perspektiven von Objekten in 3D-Vision und die Verwendung von MLPs zur Aufnahme der XYZ-Daten eines Objekts und der Blickrichtung zur Ausgabe von Dichte- und RGB-Informationen. Der Vortrag behandelt auch die Herausforderungen des volumetrischen Renderings und die Verwendung von Nerf-Derivaten zur Verbesserung des Computersehens. Am Ende demonstriert der Ausbilder die Verwendung der Raumkontraktion, um realistische 3D-Bilder mithilfe eines neuronalen Netzwerks zu erzeugen.

  • 00:00:00 In diesem Abschnitt der Vorlesung besprechen die Referenten Strahlungsfelder, speziell NeRFs (Neural Radiance Fields), die eine Position im Raum einnehmen und Farbe und Dichte ausgeben. Der Prozess des Renderns umfasst die Abfrage aus der Kameraperspektive und die Verwendung der Blackbox-Funktion, um herauszufinden, wie das Bild aussehen wird. Die Farbe ist ein gewichteter Durchschnitt aller Proben, und die Sichtbarkeit ist proportional zur Dichte und umgekehrt proportional zur Menge der Objekte vor der Kamera. Die Instruktoren geben Beispiele, um die Intuition hinter Strahlungsfeldern zu erklären, einschließlich, wie das Objekt, das der Kamera am nächsten ist, am meisten zur Farbe und zur Wirkung der Dichte auf das Gewicht beiträgt.

  • 00:05:00 In diesem Abschnitt erklärt der Referent, wie man ein neurales Strahlungsfeld erstellt, um neue Ansichten eines Objekts basierend auf mehreren Bildern dieses Objekts zu erzeugen. Das Ziel ist es, ein neuronales Strahlungsfeld zu entwickeln, das an bestimmten Punkten in der Szene abgefragt werden kann, um neue Bilder zu erstellen. Allerdings kann es eine schwierige und zeitraubende Aufgabe sein, die dafür erforderlichen Bodentruppenpositionen und Anweisungen zu erhalten. Es gibt Programme, die bei diesem Prozess helfen können, aber der Sprecher merkt an, dass es als Betrug angesehen werden kann, sich ausschließlich auf diese Tools zu verlassen.

  • 00:10:00 In diesem Abschnitt erörtert der Dozent die Verwendung von 3D-Vision zum Generieren neuer Ansichten einer Szene. Sie erklären, dass das Lernen eines neuronalen Strahlungsfelds eine Formkonsistenz über verschiedene Ansichten hinweg ermöglicht, was wichtig ist, um neue Ansichten eines Objekts mit Deep Learning zu rendern. Ohne diesen Engpass ist es schwierig, Konsistenz zu gewährleisten, wie in einem Beispiel mit StyleGAN gezeigt wird, das in verschiedenen Ansichten inkonsistente Formen erzeugt. Der Dozent argumentiert, dass das Erlernen einer 3D-Darstellung eines Objekts notwendig ist, um neue Ansichten des Objekts mit konsistenter Form zu erzeugen.

  • 00:15:00 In diesem Abschnitt erörtert der Referent die Herausforderungen bei der Darstellung konsistenter Perspektiven von Objekten in 3D-Vision. Die Verwendung von Strahlungsfeldern wird als Möglichkeit zur Darstellung feiner Details im Erscheinungsbild des Objekts erläutert, z. B. Blendung und Reflexionen aus verschiedenen Winkeln, die sonst nur schwer zu erfassen wären. Der Referent geht detailliert darauf ein, wie dieser Prozess die Aufnahme von Positions- und Blickrichtungsdaten beinhaltet, um eine genauere Darstellung des beobachteten Objekts zu erstellen. Das Konzept der Verwendung von Dichte- und Farb-MLPs zur Darstellung der unterschiedlichen Aspekte des Objekts wird ebenfalls erläutert.

  • 00:20:00 In diesem Abschnitt erörtert der Referent die Verwendung von MLPs (Dense Neural Networks), um die XYZ-Daten eines Objekts und seine Blickrichtung aufzunehmen, um Dichte- und RGB-Informationen auszugeben. Das Netzwerk verwendet eine Positionscodierung, um scharfe Entscheidungsgrenzen zu erstellen, wodurch die Schärfe des neu erstellten Bildes verbessert wird. Die Verwendung von binärer Darstellung und logischen Gattern ermöglicht scharfe Änderungen und hochfrequente Details im neu erstellten Bild. Der Referent merkt an, dass er bei Bedarf eine tiefergehende Erläuterung der Positionskodierung geben kann.

  • 00:25:00 In diesem Abschnitt geht der Redner detaillierter auf die verschiedenen Aspekte der Implementierung eines Nerf-Modells (Neural Radiance Fields) für 3D-Vision ein, einschließlich der Verwendung von Positionscodierung für scharfe Grenzen und Ansichtsabhängigkeit für Effekte wie Blendung und Reflexion. Der Referent diskutiert auch die Optimierung des Sampling-Prozesses in zwei Runden und die Verwendung eines separaten MLP, um die feineren Details der Kanten zu lernen. Darüber hinaus erklärt der Referent die Verlustfunktion, die zum Trainieren des Netzwerks verwendet wird, was den Vergleich der RGB-Werte von Ground-Truth-Bildern und das Rendern einer begrenzten Anzahl von Strahlen aufgrund von GPU-Beschränkungen beinhaltet. Es gibt keinen direkten Verlust an Dichte, aber das Netzwerk lernt trotzdem die richtige Dichte durch die indirekte Beziehung zwischen Dichte und Farbrichtigkeit.

  • 00:30:00 In diesem Abschnitt des Vortrags spricht der Referent über den Prozess des volumetrischen Renderns und wie er die richtige Farbe und Dichte erfordert, um genaue Vorhersagen zu treffen. Der Referent erklärt, dass die Verwendung von genügend Kameras eine Triangulation verschiedener Punkte auf dem Objekt ermöglicht und der einfachste Weg für das Netzwerk, geringe Verluste zu erzeugen, darin besteht, die richtige Farbe und hohe Dichte für den Schnittpunkt auszugeben. Der Referent stellt auch ein Projekt vor, an dem er arbeitet und das Vorverarbeitungsskripte und eine Bibliothek namens nerfacto für Echtzeit-Rendering-Training verwendet. Der Referent merkt an, dass die Vorverarbeitung schwierig ist und manchmal zu falschen Richtungen führen kann.

  • 00:35:00 In diesem Abschnitt erörtert der Referent das 3D-Sehen und die Herausforderungen, die mit der Erfassung von Bildern in allen Richtungen verbunden sind. Das Video konzentriert sich auf die Verwendung von Nerf-Derivaten zur Verbesserung des Computersehens und wie diese Technik verwendet werden kann, um den Raum um eine Szene herum zu verengen, wodurch es für das Netzwerk einfacher wird, gute Werte zu lernen. Der Referent erklärt, dass der Begrenzungsrahmen um das Bild hilft, den Raum einzuschränken, sodass das Netzwerk nur Werte zwischen -1 und 1 erhält. Das Video veranschaulicht, wie die Kontraktion des Raums mit einer Formel funktioniert, die einen Punkt im Raum nimmt und auf ihn abbildet ein Einheitsball, wodurch der Punkt und die Werte der Szene für das Netzwerk leichter zu erlernen sind.

  • 00:40:00 In diesem Abschnitt des Videos demonstriert der Sprecher die Verwendung von Raumkontraktion, um mithilfe eines neuronalen Netzwerks realistische 3D-Bilder zu erzeugen. Er zeigt ein Bild einer Campanilla und erklärt, dass das Netzwerk immer schlechter wird, wenn es den Rand der Trainingsdaten erreicht. Der Referent erwähnt auch einige Fortschritte bei der Generierung von 3D-Bildern, die Sekunden statt Tage dauern. Obwohl er nicht genug Zeit hatte, um zu diskutieren, warum die Dichtefunktion lernbar ist, bietet er an, nach dem Vortrag mit dem Publikum zu diskutieren.
 

CS 198-126: Vorlesung 19 - Advanced Vision Pretraining



CS 198-126: Vorlesung 19 - Advanced Vision Pretraining

Dieses Video behandelt verschiedene Techniken, die für das selbstüberwachte Vortraining im fortgeschrittenen Sehen verwendet werden, darunter kontrastives Lernen, Entrauschen von Autoencodern, Kontextencodern und dem Mae-Netzwerk. Der Referent gibt einen Überblick über jede Methode, diskutiert ihre Stärken und Schwächen und hebt die Vorteile der Kombination von Kontrastmittel- und Rekonstruktionsverlusten in der BYOL-Methode hervor, die beide einzeln übertrifft. Das Video bietet nützliche Einblicke in die neuesten Forschungstrends zum selbstüberwachten Lernen und ihr Potenzial zur Verbesserung der Leistung von Computer-Vision-Modellen.

  • 00:00:00 In diesem Abschnitt stellt der Kursleiter das Konzept des selbstüberwachten Lernens (SSL) vor, bei dem es sich um einen Zweig des nicht überwachten Lernens handelt, bei dem Bezeichnungen aus Datensätzen erstellt werden, denen keine Bezeichnungen zugeordnet sind. Dieser Ansatz ist nützlich, wenn Sie mit kleinen Datensätzen arbeiten oder Modelle für große und vielfältige Datensätze vorab trainieren, um Darstellungen zu extrahieren, die an nachgelagerte Aufgaben übertragen werden können. Der Kursleiter liefert auch eine Analogie von John McCune, um zu erklären, wie SSL mehr Überwachung als unüberwachtes Lernen und weniger als überwachtes Lernen bietet, was es zu einem wertvollen Ansatz für verschiedene Aufgaben in Computer Vision macht.

  • 00:05:00 In diesem Abschnitt wurde das Konzept des unüberwachten Lernens als Grundlage für Intelligenz im Zusammenhang mit Computer Vision eingeführt. Selbstüberwachtes Lernen wurde als Möglichkeit diskutiert, Etiketten von Grund auf als Hauptform des Lernens zu erstellen, während überwachtes Lernen und bestärkendes Lernen nur kleine Teile des Prozesses waren. Das Konzept des kontrastiven Lernens wurde als beliebter unüberwachter Ansatz eingeführt, der sich auf Ähnlichkeit als Optimierungsziel konzentriert, und das Ziel der Verlustfunktion wurde erklärt, indem die Einbettung für die positive Stichprobe so nah wie möglich an die Einbettung für die Eingabe verschoben wird gleichzeitiges Schieben der Einbettung für die negative Probe weiter weg von der Eingabeeinbettung.

  • 00:10:00 In diesem Abschnitt erklärt das Video das Konzept des Triplettverlusts, das zum Trainieren von Gesichtserkennungsnetzwerken verwendet wird, und wie es mithilfe einer Kontrastverlustfunktion verbessert werden kann. Die Kontrastverlustfunktion geht das Problem an, die Eingabe von allen möglichen negativen Abtastwerten wegzuschieben, was aufgrund der großen Anzahl negativer Abtastwerte nicht machbar ist. Die Implementierung dieser Verlustfunktion ähnelt einem Klassifizierungsproblem, bei dem die positive Probe als korrektes Etikett dient und alle negativen Proben als falsche Etiketten dienen. Das Video stellt dann den MOCO-Algorithmus vor, der kontrastives Lernen als differenzierbares Wörterbucheinkommen definiert und die Sammlung aller Perioden und Abfragen an einem Ort ermöglicht.

  • 00:15:00 In diesem Abschnitt erklärt der Moderator den Prozess des kontrastiven Lernens und wie man Ähnlichkeit durch neuronale Netze definiert. Der Autor definiert, was ähnlich bedeutet, und hebt hervor, dass es durch dieselbe Stichprobe unter Verwendung desselben Netzwerks geleitet wird, was als Instanzdiskriminierung bezeichnet wird. Um eine gute Darstellung für nachgelagerte Aufgaben zu erstellen, stammen der Schlüssel und die Abfrage aus demselben Netzwerk, sodass die Verwendung mehrerer Netzwerke nicht sehr nützlich ist und stattdessen ein riesiger Pool von Negativen benötigt wird, um bessere Darstellungen zu fördern. Es kann jedoch rechnerisch herausfordernd und unpraktisch sein, ein einzelnes Positiv aus einem riesigen Pool von Negativen auszuwählen, was die Stapelgröße begrenzt. Der Präsentator diskutiert dann eine Idee zur Vorberechnung aller Schlüssel und Abfragen aus einem einzigen Modell.

  • 00:20:00 In diesem Abschnitt des Vortrags erörtert der Referent die Idee, Einbettungen vorab zu berechnen und in einer Warteschlange zu speichern, während ein Modell in einem einzigen Netzwerk trainiert wird, das sich im Laufe der Zeit aktualisiert. Dieser Ansatz trägt dazu bei, die Konsistenz über die Zeit aufrechtzuerhalten und zu verhindern, dass Einbettungen sehr weit zurück im Trainingsprozess gespeichert werden. Dieses Verfahren löst jedoch nur das Problem der Berechnung von Einbettungen im Vorwärtsdurchlauf, nicht im Rückwärtsdurchlauf. Der Redner schlägt vor, den Key-Encoder mit einem gleitenden Durchschnitt der Abfrage- und Key-Encoder-Raten zu aktualisieren, um zu vermeiden, dass sich die Gewichtungen des Key-Encoders zu schnell ändern, während die Konsistenz beibehalten wird.

  • 00:25:00 In diesem Abschnitt des Videos erläutert der Moderator die Moco- und SimCLR-Modelle, die beide kontrastive Lernmethoden zum Erstellen guter Bilddarstellungen ohne Beschriftungen sind. Das Moco-Modell umfasst Schlüsselcodierer, die im Laufe der Zeit aktualisiert werden, wenn das Training fortschreitet, um gute Darstellungen zu erzeugen, die für nachgelagerte Aufgaben verwendet werden können. Das SimCLR-Modell vereinfacht diesen Prozess, indem es einen einzigen Encoder verwendet und die Einbettungen durch ein kleines MLP leitet, um noch bessere Ergebnisse zu erzielen. Diese Methode eliminiert die Notwendigkeit, gleitende Durchschnitte oder verschiedene Netzwerke zu pflegen, und ist zu einer beliebten kontrastiven Lernmethode in der Deep-Learning-Forschung geworden.

  • 00:30:00 In diesem Abschnitt lernen wir das SimCLR-Modell kennen, eine selbstüberwachte Methode zum Trainieren von Bilddarstellungen. Das Modell verwendet Kontrastverlust und Temperaturskalierung, um Einbettungen zu berechnen, und führt den Begriff der Ähnlichkeit ein, dass dasselbe Bild ähnlich ist und unterschiedliche nicht. Die im Modell verwendeten Datenerweiterungstechniken werden gezeigt, und überraschenderweise liefern farbbasierte Erweiterungen die besten Ergebnisse. Längere Trainingseinheiten und größere Chargen zeigen auch bessere Ergebnisse. SimCLR war die erste Modellmethode, die eine vollständig überwachte Basislinie zur Bildklassifizierung übertraf, und erzielt die besten Ergebnisse, wenn sie mit nur 1 % und 10 % der ImageNet-Labels fein abgestimmt wird.

  • 00:35:00 In diesem Abschnitt wird die Byol-Methode zur Vorschulung fortgeschrittener Sehkraft behandelt. Das Verfahren umfasst das Anwenden verschiedener Datenerweiterungen auf ein Eingangsbild, das Generieren verschiedener Ansichten, das Weiterleiten durch Encoder-Netzwerke und das Entnehmen der Darstellungen von diesen, die dann auf ein kleines Netzwerk projiziert werden, um Projektion C und C prime zu erhalten. Die Methode ist keine streng kontrastive Lernmethode wie simclr, sondern eine Kombination von Elementen aus simclr und moco zu einer einzigen Zielfunktion. Der Ansatz verwendet Bootstrapping, die Verwaltung von zwei verschiedenen Netzwerken und die Anpassung eines Modells auf der Grundlage von Metriken, die von einem anderen geschätzt werden, anstatt echte Metriken aus dem Datensatz zu verwenden.

  • 00:40:00 In diesem Abschnitt erfahren wir etwas über Deep Key Learning in Heavy, was dasselbe ist wie beim Deep Free Learning. Dieser Ansatz war die Inspiration für BYOL, wo das zweite Netzwerk die Überwachung für das erste Netzwerk vorantreibt und umgekehrt. Unter Verwendung dieses Bootstrapping-Prozesses lernt das Netzwerk mehr Repräsentationen, um Repräsentationen aufzubauen, und da es kein kontrastives Lernen ist, ist es robust gegenüber Änderungen in der Stapelgröße und den Organisationstypen. BYOL funktioniert auch bei kleineren Batchgrößen gut und schlägt MCLR bei denselben Benchmarks. Wir gehen dann weiter zur zweiten Klasse von Methoden, wo die Eingabe zerstört wird und wir das Originalbild rekonstruieren müssen, und diese Methoden funktionieren gut mit einer auf Autoencoder basierenden Struktur. Die Präsentation stellt den Denoising Model Encoder vor, bei dem einem Bild Rauschen hinzugefügt wird und das Ziel darin besteht, das entrauschte Bild vorherzusagen. Der Stack Denoising Model Encoder war sehr beliebt, weil er wirklich gut funktioniert und das Netzwerk sogar mit zerstörten Bildern etwas Sinnvolles lernt.

  • 00:45:00 In diesem Abschnitt erörtert der Referent die Schwierigkeiten beim Training neuronaler Netze in der Vergangenheit und wie Entrauschungs-Autoencoder (DAE) als Workaround verwendet wurden. Der Vortrag fährt dann mit dem Konzept des Ausblendens von Teilen eines Bildes fort, um den verborgenen Bereich vorherzusagen, der als Kontextcodierer bezeichnet wird. Die 2016 im Labor von Berkeley eingeführte Methode konnte gute Ergebnisse bei der Erkennung und Segmentierung erzielen, jedoch nicht bei der Klassifizierung. Der Referent überprüft die Implementierung des Kontextcodierers und wie das Hinzufügen eines Diskriminators zur Zielfunktion zu besseren Darstellungen führte.

  • 00:50:00 In diesem Abschnitt wird das Mae-Netzwerk besprochen, das im Gegensatz zu den CNN-Backbones, die bei anderen Methoden verwendet werden, ein Transformer-Backbone verwendet. Das Netzwerk wird durch ein Vit ersetzt und verwendet das gleiche Ziel wie ein Kontextdecodierer, indem es Patches aus einem Bild maskiert und den unmaskierten Bereich an einen Codierer weiterleitet. Die codierten Einbettungen werden dann an einen Decoder weitergegeben, mit dem Ziel, das Originalbild zu rekonstruieren. Dieser Prozess lernt sinnvolle Merkmale in diesem Format, und das Netzwerk wird mit mehreren Beispielen aus dem Mae-Papier veranschaulicht. Zur Klassifizierung kann das Klassentoken verwendet werden, das Informationen über die gesamte Sequenz erfasst.

  • 00:55:00 konzentriert sich auf selbstüberwachtes Vortraining mit der Mischung aus kontrastivem Lernen und autoencoderbasierter Rekonstruktion und übertrifft beide Strategien einzeln. Sie kombinieren die Methoden, indem sie eine neue Verlustfunktion verwenden, die zwischen Kontrastmittel- und Rekonstruktionsverlusten ausgleicht. Es ist ein vielversprechender Ansatz, der das Potenzial zur Verbesserung der Leistung selbstüberwachter Methoden aufzeigt, und es ist ein aktuelles Forschungsgebiet, die zugrunde liegenden Gründe für diese Ergebnisse zu verstehen.

  • 01:00:00 In diesem Abschnitt erörtert der Referent das neu veröffentlichte MasS – ein Modell, das Bildrekonstruktion und kontrastives Lernen gleichzeitig durch ein einziges Modell kombiniert. MassS erzeugt zwei Ansichten desselben Bildes, maskiert die zwei unterschiedlichen Ansichten und fügt ihnen Rauschen hinzu, wodurch das Entrauschungsziel kombiniert wird. Die von MasS verwendete Verlustfunktion ist eine bessere Kombination der Endpunkte, des Rekonstruktionsverlusts und des Rauschunterdrückungsverlusts, was zu einer besseren Leistung als bei früheren Modellen führt. Der Referent merkt an, dass es viele andere Modelle im Bereich des Repräsentationslernens gibt, die gut funktionieren, und dass das Feld derzeit heiß für die Forschung ist.
 

CS 198-126: Vorlesung 20 - Stilisierung von Bildern



CS 198-126: Vorlesung 20 - Stilisierung von Bildern

Das Video diskutiert verschiedene Techniken zur Bildstilisierung, darunter neuronale Stilübertragung, GANs und Pix2Pix, die gepaarte Daten erfordern, und CycleGAN, das ungepaarte Daten für die Bild-zu-Bild-Übersetzung verwendet. Die Einschränkungen von CycleGAN können von StarGAN angegangen werden, das Informationen aus mehreren Domänen verwenden kann, um Generatoren für Bildübergangsaufgaben in mehreren Domänen zu trainieren. Der Referent erörtert auch die multimodale, unbeaufsichtigte Bild-zu-Bild-Übersetzung unter Verwendung von Domäneninformationen und niedrigdimensionalen latenten Codes, um verschiedene Ausgaben zu erzeugen, beispielhaft dargestellt durch das BicycleGAN-Modell. Abschließend werden die potenziellen Vorteile der Verwendung von Vision Transformers mit GANs für Bildübersetzungsaufgaben erwähnt, und der Vortrag endet mit lustigen Bildbeispielen und einer Gelegenheit für Fragen und Diskussionen.

  • 00:00:00 In diesem Abschnitt erörtert der Redner die Bild-zu-Bild-Übersetzung und insbesondere die Übertragung neuronaler Stile. Die Aufgabe besteht darin, Bilder aus der Quelldomäne in das entsprechende Bild in der Zieldomäne umzuwandeln, während der Inhalt des ursprünglichen Bildes erhalten bleibt. Neural Style Transfer ist eine Technik, die verwendet wird, um zwei Bilder zusammenzufügen, indem das Ausgabebild so optimiert wird, dass es mit dem Inhalt eines Bildes und der Stilreferenz eines anderen übereinstimmt. Faltungsnetze werden verwendet, um relevante Informationen aus beiden Bildern zu extrahieren und ein neues Bild mit dem gewünschten Stil zu erstellen. Der Referent geht detailliert auf die erforderlichen Eingaben und die für diese Technik verwendete Architektur ein.

  • 00:05:00 In diesem Abschnitt behandelt der Vortrag das Konzept der Verwendung von Deep CNNs zur Darstellung von Inhalt und Stil von Bildern. Beginnend mit Merkmalen auf niedriger Ebene wie Kanten und Texturen abstrahiert das CNN Merkmale auf höherer Ebene, bevor es Objektdarstellungen erzeugt. Die Vorlesung untersucht dann, wie die Ähnlichkeit des Stils über verschiedene Feature-Maps hinweg durch die Verwendung einer Gramm-Matrix-Berechnung gemessen werden kann. Der Vortrag erklärt, wie man Inhalt und Stil von CNNs erhält, und die Verlustberechnungsmethode für jeden, die das Modell anpasst, um die gewünschte Ausgabe zu erzeugen.

  • 00:10:00 In diesem Abschnitt des Vortrags geht der Referent auf verschiedene Techniken der Bildverarbeitung ein. Zuerst diskutieren sie den Prozess der Generierung eines Ausgabebildes durch Hinzufügen von sowohl Inhalts- als auch Stilverlust in einem Optimierer. Sie zeigen ein Beispiel dafür, wie ein Inhaltsbild und ein Stilbild kombiniert werden, um das endgültige Bild zu erstellen, wobei Funktionen auf niedrigerer Ebene aus dem Inhaltsbild und Funktionen auf höherer Ebene aus dem Stilbild stammen. Als Nächstes besprechen sie kurz GANs, wobei der Schwerpunkt auf den Diskriminator- und Generatorteilen liegt. Sie erwähnen auch StyleGAN und seine Fähigkeit, Attribute auf höherer und niedrigerer Ebene im Bild zu trennen. Schließlich diskutieren sie ein Modell namens Pix2Pix, das ein bedingtes GAN verwendet, um Ausgabebilder basierend auf zusätzlichen Informationen zu generieren, die vom Benutzer bereitgestellt werden.

  • 00:15:00 In diesem Abschnitt behandelt das Video verschiedene Techniken zur Bildstilisierung, darunter GANs und pix2pix, die gepaarte Daten erfordern, und CycleGAN, das ungepaarte Daten für die Bild-zu-Bild-Übersetzung verwendet. CycleGAN weist jedoch Einschränkungen auf, die von StarGAN behoben werden können, einem Modell, das Informationen aus mehreren Domänen zum Trainieren von Generatoren verwenden kann, wodurch Bildübergangsaufgaben für mehrere Domänen möglich sind. Die Schlüsselidee hinter StarGAN ist das Erlernen einer flexiblen Übersetzungsmethode, die sowohl die Bild- als auch die Domäneninformationen als Eingabe verwendet.

  • 00:20:00 In diesem Abschnitt des Vortrags erörtert der Referent das Konzept der multimodalen unüberwachten Bild-zu-Bild-Übersetzung und wie es verwendet werden kann, um mehrere realistische und vielfältige Ausgaben aus einem Eingabebild zu erzeugen. Das diskutierte Papier enthält Domäneninformationen und niedrigdimensionale latente Codes, um genauere und originalgetreuere Ausgaben zu erzeugen. Das BicycleGAN-Modell wurde als Beispiel dafür vorgestellt, wie dieser Ansatz funktionieren kann, um den Moduskollaps zu minimieren und unterschiedliche Ergebnisse zu erzielen. Zusätzlich versucht das Papier, einen Codierer zu lernen, um die Ausgabe zurück in den latenten Raum abzubilden und die Wahrscheinlichkeit zu minimieren, dass zwei unterschiedliche Codes denselben Stil oder dieselbe Ausgabe erzeugen.

  • 00:25:00 In diesem Abschnitt des Vortrags erörtert der Referent die Herausforderungen bei der Verwendung von Vision Transformern für Aufgaben wie die Bild-zu-Bild-Übersetzung und die potenziellen Vorteile ihrer Verwendung in Kombination mit GANs. Sie erwähnen neuere Techniken, die die Vorteile von Vision Transformers mit GANs nutzen, um Bildübersetzungsaufgaben zu bewältigen, obwohl es nicht so einfach ist, GANs allein für diese Aufgaben zu verwenden. Der Redner schließt mit einigen lustigen Bildern, die die Fähigkeiten dieser Techniken demonstrieren und das Wort für Fragen und Diskussionen öffnen.
 

CS 198-126: Vorlesung 21 - Generatives Audio



CS 198-126: Vorlesung 21 - Generatives Audio

In diesem Vortrag zu generativem Audio behandelt der Moderator verschiedene Themen wie Quantisierung, Aliasing, Signalverarbeitung, Projektionen, Deep Learning und Transformers. Der Dozent diskutiert, wie man kontinuierliche Signale abtastet und quantisiert und den Kompromiss zwischen der Genauigkeit der Bittiefe und der Rechenleistung. Das Shannon-Nequist-Abtasttheorem und seine Auswirkungen auf die Rekonstruktion von Signalen sowie die Bedeutung von Projektionen und ihre Verwendung für die Signalrekonstruktion werden ebenfalls erläutert. Deep Learning wird für die Audiorekonstruktion untersucht, und der Moderator stellt generatives Audio vor und wie es Musik aus verlorenen oder beschädigten Aufnahmen rekonstruieren kann. Die Verwendung von Transformern zur Audiogenerierung wird diskutiert und der Prozess der Darstellung von Musik als eine Reihe von Tokens wird erklärt. Der Redner betont auch die Bedeutung eines großen und vielfältigen Datensatzes und erörtert die Funktionsweise des Transformer-Modells für Musikvorhersagen. Der Vortrag endet mit einer Demo der generierten Musik, die die Fähigkeit des Modells zeigt, zukünftige Noten genau vorherzusagen.

  • 00:00:00 In diesem Abschnitt der Vorlesung liegt der Schwerpunkt auf generativem Audio und der Diskretisierung kontinuierlicher Signale, die für Computer zur Audioverarbeitung erforderlich sind. Der Prozess des Abtastens und Quantisierens eines kontinuierlichen Signals wird verwendet, um digitale Signale zu erzeugen. Der Vortrag erklärt, wie der Analog-Digital-Wandler die Sample-and-Hold-Schaltung verwendet und wie der Ausgang je nach erforderlicher Genauigkeit diskretisiert wird. Der Vortrag behandelt auch den Digital-Analog-Wandler und wie ein Tiefpassfilter verwendet wird, um den Durchlassbereich des Signals aufrechtzuerhalten, wobei bestimmte Grenzfrequenzen die Signalflanke bestimmen. Diese Konzepte sind essentiell für Generative Audio und legen eine wichtige Grundlage für das Verständnis des späteren Vorlesungsstoffs.

  • 00:05:00 In diesem Abschnitt behandelt die Vorlesung die Quantisierungspegel und ihre Korrelation zum Dynamikbereich des zu quantisierenden Signals. Eine höhere Bittiefe führt zu einer präziseren Signalannäherung, wodurch Fehler erheblich reduziert werden, bis eine nahezu perfekte Annäherung bei 16-Bit-Tiefe erreicht wird. Es gibt jedoch einen Kompromiss in Bezug auf die Rechenleistung, der sich fragen kann, ob eine verlustfreie Tonhöhe oder eine viel schnellere verlustbehaftete Tonhöhe für das Ohr des Zuhörers ausreichen würde. Das Abtasttheorem von Shannon-Nequist besagt, dass ein Signal nur dann ohne Informationsverlust aus seinen Abtastwerten rekonstruiert werden kann, wenn die Frequenzen des Originalsignals unterhalb der halben Abtastfrequenz liegen. Wird dieses Kriterium nicht erfüllt, führt dies zu Aliasing, was zu einer problematischen Annäherung des Signals führt.

  • 00:10:00 In diesem Abschnitt lernen wir Aliasing und seine Auswirkungen auf die Signalverarbeitung kennen, insbesondere in Bezug auf schlechtes Sampling, was zu einem modifizierten Ausgangssignal im Vergleich zum ursprünglichen Eingang führt. Wir sehen Beispiele dafür durch Wellenform-Visualisierungen und Bild-Sampling. Darüber hinaus hören wir etwas über die geometrische Signaltheorie, insbesondere die Verwendung von Projektionen zur Signalrekonstruktion, und die Verwendung von Dekonvolutionen bei der Bildsegmentierung. Abschließend präsentiert der Moderator eine unterhaltsame Demo zur Generierung von 8-Bit-Musik mit einer Zeile C-Code.

  • 00:15:00 In diesem Abschnitt geht der Dozent auf Projektionen ein und wie sie zur Rekonstruktion verwendet werden können. Die Projektionsformel ist das Skalarprodukt zweier Vektoren, und dieses Ähnlichkeitsmaß kann verwendet werden, um ein Signal unter Verwendung einer linearen Kombination von Projektionen auf einen anderen Satz von Vektoren zu rekonstruieren. Es ist jedoch eine Basis erforderlich, und die verwendeten Vektoren müssen orthogonal zueinander sein, um die maximale Menge an gewonnenen Informationen sicherzustellen. Indem wir die Projektion auf verschiedene Basen nehmen, die orthogonal zueinander sind, können wir Informationen über den projizierten Vektor gewinnen und schließlich das Signal rekonstruieren.

  • 00:20:00 In diesem Abschnitt stellt der Dozent die Verwendung von Deep Learning für die Audiorekonstruktion vor und wie es hochauflösendes Audio durch Rekonstruktion einer Wellenform mit niedriger Qualität erzeugen kann. Die Modellarchitektur ähnelt der einer Einheit, die eine eindimensionale Darstellung einer Subpixel-Faltung zum Upsampling verwendet. Die heruntergesampelte Wellenform durchläuft acht Downsampling-Blöcke unter Verwendung von Faltungsschichten mit einer Schrittweite von zwei, und die Stapelnormalisierung wird mit einer ReLU-Aktivierungsfunktion angewendet. An der Flaschenhalsschicht, die identisch wie ein Downsampling-Block aufgebaut ist, verbindet sich die Wellenform mit acht Upsampling-Blöcken. Diese Blöcke haben Restverbindungen zu den Downsampling-Blöcken und verwenden eine Subpixel-Faltung, um Informationen entlang einer bestimmten Dimension neu zu ordnen, um den Informationsgewinn zu erweitern, wodurch die Auflösung der Wellenform erhöht wird, während Merkmale der Wellenform mit niedriger Auflösung erhalten bleiben. Die letzte Faltungsschicht weist eine Umstapelungsoperation auf, die die Informationen nach der Subpixel-Entfaltung neu ordnet, und die Aufwärtsabtastung der Ausgangswellenform wird unter Verwendung der mittleren quadratischen Fehlerverlustfunktion erzeugt.

  • 00:25:00 In diesem Abschnitt erörtert der Dozent die Verwendung von generativem Audio und wie es verwendet werden kann, um Musik von Bands zu rekonstruieren, die Mitte bis Ende des 20. Jahrhunderts aufgenommen wurden und deren Aufnahmen möglicherweise nicht in voller Qualität erhalten wurden. Sie spricht über das Downsampling-Spektrum und wie es verbessert werden kann, um es an die wahre Wellenform anzupassen, indem ihm Klarheit und Farbe hinzugefügt werden. Der Dozent wechselt dann zu Transformers für die Audioerzeugung und wie die Transformer-Architektur verwendet werden kann, um Musiknoten in einer Melodie vorherzusagen. Dies erfordert das Konvertieren von Daten, bei denen es sich um Musikdateien handelt, in eine Token-Sequenz, ein einzigartiges Problem, das aufgrund der zu erfassenden Zeitreihen, wie z. B. der musikalischen Signatur, Tonart und Beats, umfassend berücksichtigt werden muss.

  • 00:30:00 In diesem Abschnitt erörtert der Sprecher den Prozess der Darstellung von Musik als eine Reihe von Tokens, die in ein Transformationsmodell für generatives Audio eingespeist werden können. Sie erklären, wie Tonhöhe, Dauer und andere Attribute verwendet werden können, um Informationen über Musiknoten zu erfassen, weisen aber auch auf die Herausforderung hin, 2D-Pianorollendaten in eine einzige Dimension zu zerlegen. Verschiedene Ansätze, wie z. B. One-to-Many-Notizen oder das Zuordnen vieler Notizen zu einem einzelnen Token, werden verglichen, und die Verwendung von Trennzeichen und eine reduzierte Vokabulargröße werden vorgestellt. Abschließend spricht der Referent Datenaugmentation als Möglichkeit an, die Diversität von Trainingsdaten für generative Audiomodelle zu erhöhen.

  • 00:35:00 In diesem Abschnitt erörtert der Referent die Bedeutung eines großen und vielfältigen Datensatzes bei der Verwendung generativer Audiomodelle. Sie erklären, wie ein einzelner Song in 12 Songs mit unterschiedlichen Tonarten umgewandelt werden kann und dass ein Modell umso besser abschneidet, je mehr Daten und Verallgemeinerbarkeit es hat. Der Redner erörtert auch die Verwendung von Positional Beat Encoding als Möglichkeit, dem Modell Metadaten bereitzustellen, um ihm ein besseres Gefühl für das musikalische Timing zu geben. Sie stellen fest, dass die Methode der Positionsstruktur, die in der Verarbeitung natürlicher Sprache verwendet wird, auch auf Musik angewendet werden kann. Der Abschnitt schließt mit einer Diskussion über das Erzwingen durch den Lehrer, eine Möglichkeit, eine Aufmerksamkeitsmaske anzuwenden, um zu verhindern, dass das Modell auf alle Informationen gleichzeitig zugreift und Informationen über die Tokens preisgibt, die es als nächstes vorhersagen soll.

  • 00:40:00 In diesem Abschnitt erläutert der Redner, wie das in generativem Audio verwendete Transformatormodell funktioniert. Der in der Implementierung verwendete Transformator XL verfügt über eine relative Positionscodierung und einen verborgenen Zustandsspeicher, die eine schnelle und genaue Inferenz für Musikvorhersagen ermöglichen. Da die Position in der Musik wichtig ist, verwendet das Modell nur die relative Position anstelle der absoluten Position. Das Modell erfasst auch zwei Attribute jeder Note, nämlich Tonhöhe und Dauer, um sie im Speicher zu speichern und zukünftige Noten genau vorherzusagen. Anschließend präsentiert der Referent eine mit dem Modell generierte Demo des Pachelbel-Kanons in D-Dur, die zeigt, dass die generierten Töne zwar von der Originalkomposition abweichen, aber dennoch gut klingen.
 

CS 198-126: Vorlesung 22 - Multimodales Lernen



CS 198-126: Vorlesung 22 - Multimodales Lernen

Multimodales Lernen beinhaltet die Darstellung von Objekten auf unterschiedliche Weise, z. B. durch Text, Bilder, Videos oder Audio, wobei dennoch erkannt wird, dass es sich um dasselbe Objekt handelt. Die Vorlesungen erläutern die Bedeutung des multimodalen Lernens bei der Erfassung diverser Datensätze und der Lösung des Verteilungsverschiebungsproblems. Das Video konzentriert sich auf CLIP, eine Contrastive Language Image Pre-Training-Methode, die Text- und Bild-Encoder verwendet, um Einbettungen für ähnliche Bild-Untertitel-Paare zu erstellen. Die Einbettungen können für Klassifizierung, Robotik, Text-zu-Bild-Generierung und 3D-Vision verwendet werden. Der Referent betont, dass die Universalität von CLIP Latents die Bedeutung des Repräsentationslernens und seine Nützlichkeit beim maschinellen Lernen zeigt. Die CLIP-Methode hat zur Entwicklung des Bereichs des multimodalen Lernens geführt.

  • 00:00:00 In diesem Abschnitt des Videos erklärt der Dozent das Konzept des multimodalen Lernens und seine Bedeutung. Multimodales Lernen beinhaltet die Darstellung von Objekten auf viele verschiedene Arten, z. B. durch Text, Bilder, Videos oder Audio, und das Erfassen ihrer Nuancen, während immer noch erkannt wird, dass es sich um dasselbe Objekt handelt. Multimodale Datensätze können alle diese Datentypen umfassen, und das Ziel ist es, alle Informationen zu speichern, um mehr Kontext für das Lernen bereitzustellen. Der Dozent argumentiert, dass multimodales Lernen wichtig ist, da Daten aus verschiedenen Quellen und Datensätzen stammen können und das Wegwerfen all dieser zusätzlichen Informationen zu weniger Informationen für das Lernen führen kann.

  • 00:05:00 In diesem Abschnitt liegt der Schwerpunkt auf dem Verteilungsverschiebungsproblem, das entsteht, wenn ein Computer-Vision-Modell mit fotorealistischen Daten trainiert und mit Cartoon-Daten getestet wird. Das Problem besteht darin, dass einzelne Datensätze im Vergleich zu dem, was möglich ist, kleine Verteilungen aufweisen. Aufgrund der Vielfalt der Daten wird das Problem der Verteilungsverschiebung zu einem erheblichen Problem, da es verschiedene Datensätze mit unterschiedlichen Objekten, Datenformaten und Beziehungen gibt. Multimodales Lernen zielt darauf ab, dieses Problem zu lösen, indem alle verfügbaren Daten und Beziehungen zwischen den Daten verwendet werden, um bessere Modelle für vielfältigere Daten zu trainieren. Das Ziel ist, aussagekräftige komprimierte Darstellungen für alles von Bildern bis hin zu Text und Audio zu lernen.

  • 00:10:00 In diesem Abschnitt erörtert das Video die Bedeutung des multimodalen Lernens und die Herausforderungen, die mit Trainingsmodellen für verschiedene Datensätze einhergehen. Das untersuchte Papier trägt den Namen CLIP, was für Contrastive Language Image Pre-Training steht, und zielt darauf ab, die Beziehungen zwischen Bildern und entsprechendem Text zu untersuchen. Die Idee hinter dem CLIP-Modell ist, dass, wenn ein Bild und eine Bildunterschrift verwandt sind, die für das Bild und die Bildunterschrift erlernten Repräsentationen ähnlich sein sollten. Das Modell verwendet zwei verschiedene Modelle: einen Vision Transformer für die Verarbeitung von Bildern und einen Transformer für die Verarbeitung natürlicher Sprache und trainiert sie von Grund auf neu. Das Trainingsverfahren umfasst das Vortrainieren sowohl der Text- als auch der Bildcodierer unter Verwendung einer großen Menge von Bild-Untertitel-Paaren aus verschiedenen Quellen, mit dem Ziel, Einbettungen für beide zu generieren, die für ein übereinstimmendes Bild-Untertitel-Paar ähnlich und für ein anderes Paar unterschiedlich sind .

  • 00:15:00 In diesem Abschnitt erklärt der Referent, wie der Bildcodierer und der Textcodierer zusammenarbeiten, um eingebettete Versionen von Bild- und Textdaten zu erstellen, die für übereinstimmende Paare sehr ähnlich und für nicht übereinstimmende Paare sehr unterschiedlich sind. Die diagonalen Elemente der resultierenden Matrix stellen das Skalarprodukt zwischen den Einbettungen für übereinstimmende Paare dar, die idealerweise sehr groß sind, während die nicht-diagonalen Elemente die Ähnlichkeiten zwischen Einbettungen darstellen, die nicht übereinstimmen und sehr klein oder negativ sein sollten. Der Referent erklärt, dass dieser Ansatz einer Klassifizierungsaufgabe ähnelt, bei der die Verlustfunktion versucht, die diagonalen Elemente so groß wie möglich zu machen, während die nicht-diagonalen Elemente minimiert werden. Der Text-Encoder und der Bild-Encoder arbeiten zusammen, um dieses Ziel zu erreichen und ähnliche Einbettungen für übereinstimmende Paare zu erstellen.

  • 00:20:00 In diesem Abschnitt lernen wir eine Anwendung des multimodalen Lernens namens CLIP oder Contrastive Language-Image Pre-training kennen. CLIP verwendet einen Text-Encoder und einen Bild-Encoder, um Einbettungen von Bildern und Bildunterschriften zu erstellen. Anschließend wird ein Skalarprodukt der Einbettungen durchgeführt, um zu sehen, wie gut das Bild mit der Beschriftung übereinstimmt. Auf diese Weise kann CLIP ohne Feinabstimmung vorhersagen, was das Bild ist, was als Zero-Shot-Vorhersage bezeichnet wird. Dieses Verfahren zeigt, dass die codierten Darstellungen von Text und Bildern aussagekräftig sind und sich gut auf neue Daten verallgemeinern lassen.

  • 00:25:00 In diesem Abschnitt des Vortrags geht der Referent auf die Anwendbarkeit und Bedeutung des Repräsentationslernens über CLIP Latents ein. Die latenten Daten sind verallgemeinerbare und aussagekräftige Ausgaben der Bildcodierung durch ein eingefrorenes vortrainiertes Modell. Diese latenten Daten haben mehrere Anwendungsfälle, einschließlich der Klassifizierung von Objekten und der Robotik, wo sie bei der eingebetteten Darstellung von Bildern helfen können. Der Referent betont, dass Repräsentationslernen überall anwendbar ist und bei der Text-to-Image-Generierung und 3D-Vision nützlich sein kann. Das Strahlungsfeld kann mit der Verlustfunktion optimiert werden, wobei das gerenderte Bild mit dem latenten Clip übereinstimmt, der den Eingabeuntertiteln entspricht. Der Prozess der Optimierung ist differenzierbar, was ihn zu einem effektiven Werkzeug zur Bildrekonstruktion macht.

  • 00:30:00 In diesem Abschnitt erörtert der Referent das Konzept der Verwendung von Bildeinbettung zur Erzeugung von Strahlungsfeldern basierend auf einer gegebenen Eingabeaufforderung. Obwohl dieses Verfahren teuer ist, demonstriert es die Universalität von Clip-Latents, die auf dem Vortrainieren einer Vielzahl von Daten und der Verwendung von Repräsentationen oder Beziehungen basieren, um verwendbare Latents für jeden Bereich zu erzeugen. Diese multimodale Lerntechnik hat sich bewährt und gilt als wichtiges Teilgebiet des maschinellen Lernens. Der Redner stellt fest, dass die Clip-Methode zwar nur der Anfang ist, aber zu einer weiteren Entwicklung auf diesem Gebiet geführt hat.
 

Tensorflow für die Deep-Learning-Forschung - Vorlesung 1



Tensorflow für die Deep-Learning-Forschung - Vorlesung 1

Das Video „Tensorflow for Deep Learning Research – Lecture 1“ stellt das Tutorial zu TensorFlow vor, indem es die Notwendigkeit eines Deep-Level-Tutorials abdeckt und die Grundlagen und praktischen Anwendungen der Bibliothek erklärt. Die Vorlesung behandelt das Erstellen und Strukturieren von Modellen mit TensorFlow aus Deep-Learning-Perspektive. Das Tutorial behandelt auch die Tools, die in TensorBoard zum Visualisieren eines Berechnungsdiagrammmodells verwendet werden, einschließlich der Arbeit mit Knoten, Kanten und Sitzungen, die effiziente Berechnungsoptionen durch Ausführen von Unterdiagrammen bieten. Der Dozent empfiehlt, TensorFlow von Grund auf zu lernen, um benutzerdefinierte Modelle zu erstellen und effizient mit Ressourcen umzugehen, mit der Möglichkeit, auf CPU, GPU, Android oder iOS zu laufen und gleichzeitig die Möglichkeit zu bieten, Modelle bereitzustellen.

  • 00:00:00 In diesem Abschnitt stellt der Referent das Tutorial zu TensorFlow vor, indem er erklärt, dass Video-Tutorials benötigt werden, die nicht zu oberflächlich sind und die Punkte ansprechen, die andere Tutorials vermissen. Er kündigt an, dass die Vorlesung den Inhalten von CS 20 der Stanford University folgen wird, und verwendet die von Chip Huyen erstellten Folien mit seinen persönlichen Gedanken. Darüber hinaus weist er darauf hin, dass TensorFlow eine von Google entwickelte Bibliothek für numerische Berechnungen ist, die Graphen und numerische Berechnungen ermöglicht und sich daher zum Erstellen verschiedener Modelle für maschinelles Lernen eignet, die von logistischer Regression bis hin zu Deep-Learning-Modellen reichen. TensorFlow bietet auch die Möglichkeit, Modelle auf CPU, GPU, Android oder iOS bereitzustellen.

  • 00:05:00 In diesem Abschnitt geht der Referent auf das Konzept der Checkpoints ein – gespeicherte Zustände von Modellen, die bei Unterbrechungen eine Fortsetzung am gleichen Punkt ermöglichen. Die Bedeutung der Differenzierung in Deep-Learning-Frameworks wird hervorgehoben, und der Redner schlägt vor, zu versuchen, Backpropagation-Layer manuell zu schreiben, um zu verstehen, wie einfach Tensorflow den Prozess macht. Die Popularität von Tensorflow wird seiner Verwendung durch eine große Community zugeschrieben, und verschiedene Projekte wie Bildstilübertragung, Handschriftengenerierung und StackGANs werden diskutiert. Die Vorlesung zielt darauf ab, das Computergraphenmodell von Tensorflow, das Erstellen von Funktionen und das Strukturieren von Modellen aus einer Deep-Learning-Perspektive zu behandeln. Abschließend rät der Referent, die Tensorflow-Website als Quelle für die neuesten APIs und Bibliotheken zu nutzen.

  • 00:10:00 In diesem Abschnitt erläutert der Referent, wie wichtig es ist, TensorFlow von Grund auf neu zu lernen. Während Abstraktionen auf hoher Ebene komplexere Aufgaben bewältigen können, ist das Verständnis der Funktionsweise hinter dem Code für die Erstellung benutzerdefinierter Modelle von entscheidender Bedeutung. Der Referent erklärt, dass TensorFlow die Definition der Berechnung von ihrer Ausführung trennt, indem ein Berechnungsdiagramm erstellt und eine Sitzung zum Ausführen von Operationen verwendet wird. In diesem Abschnitt wird erläutert, wie durch das Definieren von Operationen in TensorFlow ein Diagramm erstellt wird, das mit dem integrierten Tool TensorBoard visualisiert werden kann. Der verwendete Beispielcode zeigt Knoten für Operatoren und Tensoren, wobei die Kantenwerte Tensorwerte darstellen.

  • 00:15:00 In diesem Abschnitt erörtert der Dozent die Knoten und Kanten in einem TensorFlow-Diagramm sowie die Verwendung von Sitzungen zum Ausführen von Berechnungen innerhalb des Diagramms. Knoten können Operatoren, Variablen oder Konstanten sein, während Kanten Tensoren sind. Eine Sitzung wird verwendet, um den Graphen zu instanziieren und Berechnungen auszuführen, wobei die Sitzung sich um die erforderlichen Ressourcen kümmert. Wenn Sie einen bestimmten Knoten im Diagramm mit einer Sitzung ausführen, wird das Diagramm berechnet und der Wert des Knotens zurückgegeben, und der Dozent demonstriert dies anhand eines Beispiels mit Addition. Das Sitzungsobjekt kapselt die Ressourcenumgebung für Operatoren und Tensorobjekte, die darin ausgeführt werden sollen. Der Dozent erwähnt auch die Verwendung der „with“-Anweisung als Alternative zum expliziten Schließen der Sitzung.

  • 00:20:00 In diesem Abschnitt erklärt das Video das Konzept der verzögerten Bewertung in Tensorflow. Es besagt, dass ein Diagramm, das in Tensorflow erstellt wird, nicht vorberechnet oder irgendwo zwischengespeichert wird, sondern Berechnungen nach Bedarf durchgeführt werden. Die Kraft der faulen Bewertung ergibt sich aus der Tatsache, dass nicht alles berechnet werden muss, sodass eine Menge Berechnungen eingespart werden, wenn wir tiefer in die Modelle einsteigen. Beim Aufrufen der Punktlaufmethode der Sitzung ist das erste Argument eine Liste von Knoten innerhalb der Fetches-Liste, die berechnet werden müssen, und Tensorflow berechnet all diese verschiedenen Knoten und gibt die Ergebnisse als Liste zurück.

  • 00:25:00 In diesem Abschnitt erörtert der Dozent die Vorteile der Modellierung von Berechnungen als Diagramm in TensorFlow, einschließlich der Möglichkeit, Unterdiagramme parallel über mehrere CPUs oder GPUs hinweg auszuführen. Sie erklären, wie Sie mit dem Befehl TF-Geräte-GPU einen bestimmten Graphen angeben, der auf einer bestimmten GPU ausgeführt werden soll, und wie Sie mehrere Graphen in TensorFlow erstellen, was in Fällen wie Ensemble-Lernen nützlich sein kann, bei denen möglicherweise verschiedene Modelle parallel ausgeführt werden. Der Dozent weist auch darauf hin, dass Sitzungen in TensorFlow in Bezug auf die Ressourcennutzung gierig sein können, sodass es erforderlich sein kann, Ressourcen sorgfältig zu verwalten, wenn mehrere Diagramme verwendet werden.

  • 00:30:00 In diesem Abschnitt erläutert der Dozent, wie man Diagramme in TensorFlow erstellt und manipuliert. Sie erklären, dass mehrere Sitzungen erstellt werden können, es jedoch komplex sein kann, Daten zwischen ihnen zu übertragen. Es wird empfohlen, der Einfachheit halber nur eine Sitzung zu verwenden. Um einem Graphen Knoten hinzuzufügen, wird die TF dot Graph API verwendet, wobei der instanziierte Graph als Standard festgelegt werden kann. Wenn die Sitzung instanziiert wird, kann der Graph als Argument übergeben werden, und die gesamte Ausführungsumgebung wird darum herum erstellt. Es ist wichtig, das Mischen von zwei Graphen zu vermeiden, und um einen Handle auf den Standardgraphen zu erhalten, wird der API-TF-Punkt-Get-Unterstrich-Standardwert verwendet.

  • 00:35:00 In diesem Abschnitt erörtert der Referent die Vorteile der Verwendung von Diagrammen in TensorFlow. Einer der Vorteile ist die Möglichkeit, Teilgraphen und sogar eine einzelne Operation auszuführen, anstatt den gesamten Graphen ausführen zu müssen, wodurch Berechnungen effizienter werden. TensorFlow verfügt auch über einen verteilten Modus, der es ermöglicht, Berechnungen auf verschiedenen Geräten und Maschinen auszuführen, wenn die Berechnung mithilfe von Untergraphen beschrieben wird. Die Erkenntnis aus diesem Abschnitt ist, wie wichtig es ist, Berechnungsgraphen einzurichten und Untergraphen innerhalb einer Sitzung auszuführen.
Grund der Beschwerde: