Maschinelles Lernen und neuronale Netze - Seite 36

 

Vrije Universiteit Amsterdam Machine Learning 2019 - 1 Einführung in das maschinelle Lernen (MLVU2019)



Vrije Universiteit Amsterdam Machine Learning 2019 - 1 Einführung in das maschinelle Lernen (MLVU2019)

Dieses Video bietet eine Einführung in maschinelles Lernen und behandelt verschiedene damit verbundene Themen. Der Kursleiter erklärt, wie man sich auf den Kurs vorbereitet und geht auf allgemeine Bedenken ein, dass maschinelles Lernen einschüchternd ist. Er stellt die verschiedenen Arten des maschinellen Lernens vor und unterscheidet es von der traditionellen regelbasierten Programmierung. Das Video behandelt auch die Grundlagen des überwachten Lernens und zeigt Beispiele, wie maschinelles Lernen für Klassifizierungs- und Regressionsprobleme verwendet werden kann. Die Konzepte des Merkmalsraums, der Verlustfunktion und der Residuen werden ebenfalls erklärt.

Der zweite Teil des Videos bietet eine Einführung in maschinelles Lernen und erklärt sein Hauptziel, Muster zu finden und genaue Modelle zu erstellen, um Ergebnisse aus einem Datensatz vorherzusagen. Der Referent erörtert die Bedeutung der Verwendung spezifischer Algorithmen und der Datenaufteilung, um eine Überanpassung zu vermeiden und eine Verallgemeinerung zu erreichen. Er stellt auch das Konzept der Dichteschätzung und seine Schwierigkeiten mit komplexen Daten vor. Der Referent verdeutlicht den Unterschied zwischen maschinellem Lernen und anderen Feldern und spielt auf eine Strategie an, große Datenmengen aufzuschlüsseln, um genaue Vorhersagen treffen zu können. Das Video erwähnt auch die Zunahme von Menschen, die im maschinellen Lernen mit der Entwicklung von Deep Learning arbeiten, und gibt Anfängern Tipps für den Einstieg in das Feld.

  • 00:00:00 In diesem Abschnitt spricht der Referent über die Vorbereitung auf den Machine Learning-Kurs. Sie schlagen vor, dass die Schüler die Hauptkursmaterialien sorgfältig lesen und sich auf das Notwendige konzentrieren sollten. Zusätzlich gibt es ein Quiz, mit dem die Schüler ihr Verständnis testen und sich merken können, was der Lehrer ihnen sagt. Die Schüler erhalten Hausaufgaben und dürfen ein gedrucktes Blatt mit Formeln verwenden, um Notizen in den verbleibenden Bereich mit Stift zu schreiben.

  • 00:05:00 In diesem Abschnitt geht der Redner auf Bedenken ein, dass maschinelles Lernen beängstigend und einschüchternd ist, insbesondere für diejenigen ohne Hintergrundwissen in Informatik. Er erklärt, dass der Zweck des Projekts darin besteht, Einzelpersonen dabei zu helfen, sich mit maschinellem Lernen vertraut zu machen, indem Datensätze und Ressourcen zum Erkunden und Experimentieren bereitgestellt werden. Der Referent betont die Bedeutung der Zusammenarbeit und ermutigt zur Verwendung der bereitgestellten Arbeitsblätter und Computertools, um das Lernen zu erleichtern.

  • 00:10:00 In diesem Abschnitt geht der Referent auf die Bedeutung von Gruppendynamik und Kommunikationsfähigkeit im Bereich maschinelles Lernen ein. Er betont, dass die Fähigkeit, effektiv in Gruppen zu arbeiten und zu kommunizieren, genauso wichtig ist wie die Fähigkeit zum technischen Schreiben. Der Redner ermutigt die Teilnehmer auch, sich für Gruppensitzungen anzumelden und sich an andere Teilnehmer des Programms zu wenden, um effektive Arbeitsbeziehungen aufzubauen. Er rät den Teilnehmern, die verfügbaren Ressourcen wie Online-Diskussionsforen zu nutzen, um sich mit anderen Mitgliedern des Programms zu vernetzen und produktive, kooperative Beziehungen aufzubauen.

  • 00:15:00 In diesem Abschnitt stellt der Referent die verschiedenen Arten des maschinellen Lernens vor, beginnend mit dem überwachten maschinellen Lernen. Sie erklären, dass sie zwei Arten des überwachten maschinellen Lernens – Klassifikation und Regression – durchgehen werden, wobei die Regression nach der Pause diskutiert wird. Der Referent erwähnt auch, dass sie kurz auf unüberwachtes maschinelles Lernen eingehen und erklären werden, warum maschinelles Lernen anders ist als normale Maschinen.

  • 00:20:00 In diesem Abschnitt unterscheidet der Referent zwischen traditioneller regelbasierter Programmierung, die im Wesentlichen einer Reihe vorgegebener Anweisungen folgt, und maschinellem Lernen, bei dem es sich um einen Prozess handelt, bei dem große Datensätze verwendet werden, um Vorhersagemodelle zu erstellen, die verwendet werden können Entscheidungen auf der Grundlage neuer Daten zu treffen. Maschinelles Lernen ist in Situationen nützlich, in denen die Entscheidungsfindung schnell, zuverlässig und unbestechlich sein muss. Es ist jedoch wichtig, sich daran zu erinnern, dass maschinelle Lernmodelle nicht perfekt sind und unerwartet fehlschlagen können, sodass menschliche Eingaben immer noch erforderlich sind, um endgültige Entscheidungen zu treffen. Klinische Entscheidungsunterstützung ist ein Beispiel dafür, wie maschinelles Lernen eingesetzt werden kann, um Ärzten zusätzliche Informationen zur Verfügung zu stellen, die ihnen bei ihrer Entscheidungsfindung helfen.

  • 00:25:00 In diesem Abschnitt erklärt der Referent das Konzept des Online- oder inkrementellen Lernens beim maschinellen Lernen. Sie geben an, dass Online-Lernen in Situationen effektiv sein kann, in denen es einen konstanten Datenstrom gibt und das Modell ständig neue Informationen aktualisieren und vorhersagen muss, was eine schwierige Aufgabe ist. Daher empfehlen sie, sich auf die Anwendung von Online-Lernen zu konzentrieren, indem die Basisdaten getrennt und nachgestellt werden, damit das Modell leichter Vorhersagen treffen kann. Darüber hinaus erörtert der Redner, wie Wissenschaftler in den 1950er und 60er Jahren einfache künstliche Gehirne namens Perzeptrons verwendeten, um zu untersuchen, wie das Gehirn lernt, und verwendet Beispiele wie das Trainieren eines Perzeptrons, um den Unterschied zwischen Männern und Frauen zu erkennen.

  • 00:30:00 In diesem Abschnitt des Videos erörtert der Sprecher die Grundlagen des maschinellen Lernens und stellt das Konzept des überwachten Lernens vor, bei dem eine Maschine darauf trainiert wird, Daten anhand von Eingabemerkmalen in bestimmte Kategorien zu klassifizieren. Es wird ein Beispiel für die Klassifizierung von E-Mails als Spam oder Nicht-Spam gegeben, indem Merkmale wie die Häufigkeit bestimmter Wörter gemessen werden. Das Ziel besteht darin, diese Daten einem Lernalgorithmus zuzuführen, der ein Modell erstellt, das dann die Klasse neuer, ungesehener Beispiele genau vorhersagen kann. Es gibt viele verschiedene Klassifizierungsalgorithmen, die für diese Art von Problem verwendet werden können.

  • 00:35:00 In diesem Abschnitt gibt der Referent zwei Beispiele dafür, wie maschinelles Lernen für Klassifizierungsprobleme verwendet werden kann. Das erste Beispiel betrifft das Erkennen mehrstelliger Zahlen in Arizona-Verträgen mithilfe der Bildklassifizierung. Sie verwenden 28x28-Pixel-Bilder der Ziffern als Merkmale und das Ziel ist es, vorherzusagen, welche Ziffer sich im Bild befindet. Das zweite Beispiel beinhaltet die Verwendung von maschinellem Lernen, um einem Auto das Fahren beizubringen, wobei Daten über Sensoren im Lenkrad gesammelt und in Frames zerlegt und 960 Merkmale verwendet werden, um die Richtung des Autos zu klassifizieren.

  • 00:40:00 In diesem Abschnitt erläutert der Referent, wie ein Algorithmus zur Lösung eines Regressionsproblems erstellt wird. Das angegebene Beispiel ist die Vorhersage der Dauer einer Busfahrt basierend auf der Anzahl der Fahrgäste. Der Redner erwähnt auch, dass es eine Seite mit einem vollständigen Zeitplan für den Kurs gibt, was aufgrund der zeitlichen Änderungen zwischen den Gruppen und gelegentlichen visuellen Änderungen wichtig ist. Schließlich spricht der Sprecher über die Verwendung von zwei Merkmalen zur Vorhersage der Größe einer Person, was ein Beispiel für ein überwachtes Lernproblem ist.

  • 00:45:00 In diesem Abschnitt stellt der Referent das Konzept der Darstellung von Daten in einem Merkmalsraum unter Verwendung einer Achse vor, was die visuelle Darstellung von Elementen und ihren Schnittstellen ermöglicht. Durch das Zeichnen einer Linie in diesem Raum kann ein Klassifikator erstellt werden, der den Raum in zwei Bereiche unterteilt, wobei ein Bereich alles oberhalb der Linie darstellt und der andere Bereich alles darunter darstellt. Der logistische Schnuller ist die beste Wahl, wenn Linien verwendet werden, und jede Linie kann durch drei Zahlen beschrieben werden, die eine Eigenschaft auf der Ebene des 3D-Raums definieren. Eine Verlustfunktion, die eine kommutierbare Funktion ist, ermöglicht die Berechnung der Anzahl von Beispielen, bei denen ein Modell falsch liegt, und ein niedrigerer Wert bedeutet eine bessere Anpassung des Modells.

  • 00:50:00 In diesem Abschnitt gibt der Referent Beispiele für Räume und wie sie zum Erstellen von Modellen verwendet werden können. Er erklärt das Konzept von Entscheidungsbäumen und wie sie in einem großen Raum kompliziert sein können. Er demonstriert auch, wie der Klassifizierungsprozess einfach und leistungsstark gestaltet werden kann, indem er einige Variationen der Spezifikation und Diversifizierung verwendet. Abschließend geht der Redner auf die Multi-Klassen- und Multi-Label-Klassifizierung ein und wie sie in Fällen nützlich sein können, in denen sich Objekte nicht gegenseitig ausschließen.

  • 00:55:00 In diesem Abschnitt erklärt der Referent, wie man den richtigen Klassenwahrscheinlichkeitswert und den Ausgaberaum bestimmt, indem man Features basierend auf wichtigen Daten erstellt. Zur Bewertung der Linien-Theta- und Muskelverlustfunktion wird eine Residuenmethode eingesetzt, die den Abstand zwischen dem vorhergesagten Wert des Modells und dem tatsächlichen Ausgabewert misst. Durch Verwendung der Regression zum Zeichnen des Residuums und Berechnen der Summe der quadrierten Residuen kann die Vorhersagegenauigkeit verbessert werden, da die Linie basierend auf dem richtigen quadrierten Abstand zu den Daten gezogen wird.

  • 01:00:00 In diesem Abschnitt erörtert der Referent die Bedeutung der Verwendung spezifischer Algorithmen, wie z. B. der multiplen linearen Regression, um Daten zu analysieren und Modelle zu erstellen. Er erklärt, dass diese Modelle aufgrund von Overfitting nicht immer genau sind, weshalb die Daten in verschiedene Chunks aufgeteilt und entsprechend analysiert werden sollten. Der Referent betont auch, dass Generalisierung der wichtigste Aspekt bei der Erstellung von Algorithmen für maschinelles Lernen ist, um sicherzustellen, dass das Modell in der Lage ist, Ergebnisse mit neuen Daten genau vorherzusagen.

  • 01:05:00 In diesem Abschnitt behandelt das Video maschinelles Lernen und wie es aus einer großen Datenmenge lernt. Modelle für maschinelles Lernen werden erstellt, indem Daten in eine Reihe von Merkmalen und Bezeichnungen eingefügt werden, mit dem Ziel, Muster zu finden und ein Modell zu erstellen, das eine Bezeichnung basierend auf den Merkmalen genau vorhersagen kann. Techniken wie k-Means-Clustering können verwendet werden, um Datenpunkte mit ähnlichen Merkmalen zu gruppieren, was dazu beitragen kann, genauere Modelle zu erstellen. Darüber hinaus ist es wichtig zu verstehen, dass das Finden eines optimalen Modells viel Trial-and-Error erfordert und es keinen einfachen Weg gibt, vorher zu wissen, was am besten funktioniert.

  • 01:10:00 In diesem Abschnitt stellt der Referent das Konzept der Dichteschätzung vor und erklärt, wie es bei der Ermittlung der Wahrscheinlichkeitsverteilung von Daten hilft. Die Dichteschätzung erfolgt durch Annahme einer interessierenden Verteilung und deren Erfassung basierend auf den Probendaten. Das Modell sagt eine Wahrscheinlichkeitsdichte für jeden Punkt in Merkmalen voraus und weist eine Zahl zu, um die Wahrscheinlichkeit unterschiedlicher Raten darzustellen. Bei komplexen Daten wie Bildern von Menschen wird die Dichteabschätzung jedoch aufgrund von hochdimensionalen Merkmalen schwierig, und es wird ein alternativer Ansatz benötigt, um eine weitere ähnliche Probe bereitzustellen.

  • 01:15:00 In diesem Abschnitt erwähnt der Redner, dass es andere Bereiche als maschinelles Lernen gibt, die Menschen glauben machen können, dass sie Maschinen beinhalten, wie z. B. Stadtplanung oder Bäderplanung. Diese Felder erfordern jedoch nicht unbedingt viel Aufwand oder Zeit. Der Referent spielt auch auf eine Strategie an, die in der nächsten Woche eingehender diskutiert wird und bei der es darum geht, große Datensätze in kleinere Gruppen zu zerlegen, um genaue Vorhersagen zu treffen. Diese Strategie wird häufig in Bereichen wie der Spracherkennung oder der Zeichenerkennung verwendet.

  • 01:20:00 In diesem Abschnitt diskutiert der Referent die unterschiedlichen Denkweisen über maschinelles Lernen und die bestehenden Techniken und Modelle, die dafür verwendet werden können. Er geht auch darauf ein, wie Deep Learning dazu beigetragen hat, dass die Zahl der Geschmacksrichtungen von Menschen, die mit maschinellem Lernen arbeiten, zugenommen hat. Darüber hinaus gibt er Tipps für Anfänger, die mit maschinellem Lernen beginnen möchten, und erwähnt die Verfügbarkeit von Ressourcen, die ihnen bei ihrer Lernreise helfen.
 

2 Lineare Modelle 1: Hyperebenen, Zufallssuche, Gradientenabstieg (MLVU2019)



2 Lineare Modelle 1: Hyperebenen, Zufallssuche, Gradientenabstieg (MLVU2019)

Dieses Video behandelt die Grundlagen von linearen Modellen, Suchmethoden und Optimierungsalgorithmen. Lineare Modelle werden sowohl in 2 Dimensionen als auch in mehreren Dimensionen erklärt, und der Prozess der Suche nach einem guten Modell durch Methoden wie Zufallssuche und Gradientenabstieg wird diskutiert. Die Bedeutung der Konvexität beim maschinellen Lernen wird erklärt und die Nachteile der zufälligen Suche in nicht-konvexen Landschaften werden angesprochen. Das Video stellt auch evolutionäre Methoden und die Verzweigungssuche als Suchmethoden vor. Schließlich wird die Verwendung von Kalkül und Gradientenabstieg zur Optimierung der Verlustfunktion erläutert, einschließlich des Prozesses zum Finden der Richtung des steilsten Abstiegs für eine Hyperebene.

Der zweite Teil diskutiert den Gradientenabstieg und seine Anwendung auf lineare Modelle, bei denen der Algorithmus die Parameter aktualisiert, indem er Schritte in Richtung des negativen Gradienten der Verlustfunktion unternimmt. Die Lernrate ist entscheidend dafür, wie schnell der Algorithmus zum Minimum konvergiert, und lineare Funktionen ermöglichen es, das optimale Modell zu erarbeiten, ohne suchen zu müssen. Komplexere Modelle erfordern jedoch die Verwendung eines Gradientenabstiegs. Das Video führt auch Klassifizierungs- und Entscheidungsgrenzen ein, bei denen das Ziel darin besteht, blaue Punkte von roten Punkten zu trennen, indem eine Linie gefunden wird, die dies optimal tut. Zu den Einschränkungen linearer Modelle gehört ihre Unfähigkeit, nichtlinear trennbare Datensätze zu klassifizieren, aber sie sind rechnerisch billig und funktionieren gut in hochdimensionalen Merkmalsräumen. Der Kursleiter gibt auch eine Vorschau auf zukünftige Themen, die besprochen werden, wie z. B. die Methodik des maschinellen Lernens.

  • 00:00:00 In diesem Abschnitt erläutert der Referent das Grundrezept für maschinelles Lernen, das die Abstraktion eines Problems, die Auswahl von Instanzen und Merkmalen, die Auswahl einer Modellklasse und die Suche nach einem guten Modell umfasst. Dann führen sie lineare Modelle als ausgewählte Modellklasse ein und diskutieren, wie man sie in mathematischer Sprache schreibt. Sie sprechen über Suchmethoden, einschließlich Gradientenabstieg, und betonen, dass diese Methoden nicht spezifisch für lineare Modelle sind und in anderen Zusammenhängen auftauchen werden. Die Notation zur Beschreibung von Datensätzen wird ebenfalls eingeführt, wobei hochgestellte Zeichen verwendet werden, um Instanzen und entsprechende Werte abzugleichen. Abschließend wird in der Vorlesung ein einfacher Regressionsdatensatz als laufendes Beispiel verwendet.

  • 00:05:00 In diesem Abschnitt erörtert der Sprecher lineare Modelle und wie sie verwendet werden können, um einen Raum einem anderen Raum zuzuordnen. Ein lineares Modell verwendet dazu eine Funktion, die eine Linie beschreibt. Die Linienfunktion hat zwei Parameter, W und B, die die Steigung bzw. den Bias darstellen. Der Referent erklärt, dass die Anzahl der Merkmale in einem Datensatz beliebig sein kann und das Modell mit einer beliebigen Anzahl von Merkmalen arbeiten muss. Bei mehreren Features wird jede Instanz als Vektor in Fettschrift dargestellt, und jeder dieser Vektoren wird einem einzelnen Wert zugeordnet.

  • 00:10:00 In diesem Abschnitt erklärt der Referent, wie man das lineare Modell von einer Ebene zu einer Hyperebene erweitert, indem man jedem Merkmal Gewichtungen zuweist und einen einzigen B-Wert beibehält. Diese Funktion kann als Skalarprodukt von W und X plus B ausgedrückt werden, was eine einfache Operation zweier Vektoren gleicher Länge ist. Das Skalarprodukt kann auch ausgedrückt werden als die Länge der beiden Vektoren im Raum multipliziert mit dem Kosinus des Winkels zwischen ihnen. Der Referent erwähnt auch ein interessantes Prinzip, nämlich dass ein Modell durch das Hinzufügen einfacher Funktionen leistungsfähiger werden kann. Um schließlich ein gutes Modell zu finden, wird eine Verlustfunktion verwendet und eine Möglichkeit, den Raum aller Modelle nach einem Wert zu durchsuchen, der diese Verlustfunktion minimiert.

  • 00:15:00 In diesem Abschnitt erörtert der Referent die mittlere quadrierte Fehlerverlustfunktion, die in der linearen Regression verwendet wird. Die Funktion misst den Abstand zwischen der Modellvorhersage und dem tatsächlichen Wert, quadriert den Abstand und summiert alle Residuen, um den Verlust zu bestimmen. Je niedriger der Wert, desto besser das Modell. Der Referent erklärt, warum die Funktion die Werte quadriert, anstatt absolute Werte zu verwenden, um zu vermeiden, dass sich positive und negative Werte aufheben. Das Quadrat belegt auch die Ausreißer mit einer zusätzlichen Strafe, wodurch sie in der Verlustfunktion stärker gewichtet werden. Der Abschnitt diskutiert auch kurz Modell- und Merkmalsräume und wie die Suche nach niedrigen Verlustwerten in der Verlustlandschaft dazu führt, dass ein Modell an die Daten angepasst wird.

  • 00:20:00 Einfaches Modell, Zufallssuche kann verwendet werden, um die optimalen Parameterwerte zu finden, indem man mit einem zufälligen Punkt beginnt und eine Schleife verwendet, um einen anderen Punkt auszuwählen, der sehr nahe daran liegt, und den Verlust für beide Punkte berechnet, und wenn der Verlust für den neuen Punkt ist besser, Wechsel zum neuen Punkt. Der Prozess wird fortgesetzt, bis er die optimalen Parameterwerte erreicht. Dies ähnelt einem Wanderer, der durch einen Schneesturm navigiert, indem er kleine Schritte in jede Richtung macht, um festzustellen, wo der Berghang am stärksten nach oben führt, und Schritte in diese Richtung macht, bis er das Tal erreicht. In maschinellen Lernumgebungen, in denen der Raum mehrdimensional ist, ist es jedoch nicht möglich, das gesamte Bild auf einmal zu sehen, sodass der Prozess einem Wanderer in einem Schneesturm entspricht, bei dem die kleinen Schritte in einer festen Entfernung liegen eine zufällige Richtung bis zum Erreichen der optimalen Werte.

  • 00:25:00 In diesem Abschnitt erörtert das Video das Konzept der Konvexität beim maschinellen Lernen und seine Auswirkungen auf die Verwendung der Zufallssuche als Modellsuchmethode. Eine konvexe Verlustfläche oder eine, die mathematisch wie eine Schüssel geformt ist, hat nur ein Minimum, wodurch es möglich ist, ein globales Minimum zu finden. Wenn jedoch eine Verlustfläche nicht konvex ist und mehrere lokale Minima aufweist, kann die zufällige Suche hängen bleiben und auf ein lokales Minimum konvergieren. Um dies anzugehen, wird simuliertes Glühen als Suchmethode eingeführt, die eine Wahrscheinlichkeit für eine Bergaufbewegung zulässt, wodurch das Potenzial ermöglicht wird, lokalen Minima zu entkommen und das globale Minimum zu finden.

  • 00:30:00 In diesem Abschnitt behandelt das Video die Verwendung von Blackbox-Optimierungsmethoden wie Zufallssuche und Simulated Annealing, um einen kontinuierlichen oder diskreten Modellraum zu optimieren, indem die Verlustfunktion als Blackbox betrachtet wird, die keine benötigt Kenntnisse über die interne Funktionsweise des Modells. Es wird angemerkt, dass diese Verfahren auch parallelisiert werden können, um mehrere Suchen gleichzeitig auszuführen, um die Chancen zu erhöhen, das globale Optimum zu finden. Darüber hinaus erwähnt das Video, dass diese Optimierungsmethoden oft von natürlichen Phänomenen wie evolutionären Algorithmen, Partikeln und Kolonien inspiriert sind.

  • 00:35:00 In diesem Abschnitt stellt der Referent den grundlegenden Algorithmus für eine evolutionäre Suchmethode vor, die sich von der Evolution inspirieren lässt. Diese Methode beginnt mit einer Population von Modellen, berechnet ihren Verlust, ordnet sie, tötet die Hälfte der Population und züchtet die andere Hälfte, um eine neue Population zu bilden. Die neuen Modelle werden basierend auf den Eigenschaften der alten ausgewählt und der Population wird durch Mutation eine gewisse Variation hinzugefügt. Der Sprecher erläutert auch ein Verzweigungssuchverfahren, eine Variante der Zufallssuche, bei der statt der Auswahl einer zufälligen Richtung K zufällige Richtungen ausgewählt werden und die Richtung mit dem geringsten Verlust ausgewählt wird. Der Redner schließt mit der Feststellung der Flexibilität und Leistungsfähigkeit evolutionärer Methoden, warnt jedoch vor deren hohen Rechenkosten und Anforderungen an die Parameterabstimmung.

  • 00:40:00 In diesem Abschnitt diskutieren die Referenten verschiedene Suchmethoden, um das optimale Modell für ein bestimmtes Problem zu finden. Mit zunehmender Anzahl von Modellen verbringen sie mehr Zeit damit, die lokale Krümmung zu untersuchen, was zu einer direkteren Linie zum Optimum führt. Anstatt einen zufälligen Schritt zu machen, können sie mehr Zeit damit verbringen, die lokale Nachbarschaft zu verstehen und die optimale Richtung herauszufinden, bevor sie sich bewegen. Die Autoren führen dann den Gradientenabstieg ein, bei dem die Verlustfunktion betrachtet und die Richtung, in der die Funktion am schnellsten abnimmt, durch Kalkül berechnet wird. Diese Methode erfordert, dass die Funktion differenzierbar, glatt und kontinuierlich ist, und ist kein Black-Box-Modell mehr.

  • 00:45:00 In diesem Abschnitt diskutiert der Referent Steigungen und Tangenten in Bezug auf die Verlustfunktion. Die Verlustfläche ist keine lineare Funktion, aber die Steigung der Tangente, die die Ableitung der Verlustfunktion darstellt, kann einen Hinweis auf die Richtung und Geschwindigkeit geben, mit der die Funktion abnimmt. In höheren Dimensionen ist das Äquivalent der Tangentenlinie die Tangentenhyperebene, die uns auch die Richtung geben kann, in der die Verlustfläche am schnellsten abnimmt. Die Vorlesung berührt auch die Interpretation von Vektoren als Raumpunkt oder Richtung, was nützlich ist, wenn man sich mit linearen Funktionen wie Hyperebenen beschäftigt.

  • 00:50:00 In diesem Abschnitt erörtert der Sprecher, wie man die Ableitung in mehrere Dimensionen verallgemeinert und wie man die Richtung des steilsten Abfalls für eine Hyperebene findet. Das Äquivalent zur Ableitung in mehreren Dimensionen ist die Berechnung des Gradienten, der ein Vektor ist, der aus der partiellen Differentialableitung in Bezug auf X, Y und Z besteht. Diese drei Werte definieren zusammen drei Parameter für eine Ebene, und drei Werte definieren zusammen a Hyperebene. Die Richtung W des steilsten Abfalls kann gefunden werden, indem die Norm von W multipliziert mit dem Kosinus von a maximiert wird, was maximiert wird, wenn der Abstand zwischen X und W gleich dem Winkel zwischen X und W ist oder wenn X und W gleich sind. Die Richtung des steilsten Gefälles ist also W.

  • 00:55:00 In diesem Abschnitt erklärt der Sprecher einen einfachen Algorithmus zum Finden des Minimums einer Verlustfunktion, der Gradientenabstieg genannt wird. Der Algorithmus beginnt mit einem zufälligen Punkt im Modellraum, berechnet den Verlustgradienten an diesem Punkt, multipliziert ihn mit einem kleinen Wert namens anta und subtrahiert diesen dann vom Modell. Es gibt keine Zufälligkeit, nur rein deterministische Schritte. Der Gradient gibt sowohl die Richtung als auch die Schrittweite an. Anschließend berechnet der Referent den Gradienten für eine Verlustlandschaft rechnerisch, erläutert die Summen- und Kettenregeln und erhält am Ende den zweidimensionalen Vektor der Ableitung der Verlustfunktion nach W und B.

  • 01:00:00 In diesem Abschnitt erörtert der Sprecher die Implementierung des Gradientenabstiegs in Python und wie es einen Schritt in Richtung des Vektors ermöglicht, der Krümmung der Oberfläche folgend, um das Minimum zu finden und dort zu bleiben. Um dies zu demonstrieren, stellen sie eine Website namens Playground.tensorflow.org vor, die es Benutzern ermöglicht, mit einem einfachen linearen Modell mit Gradientenabstieg zu experimentieren. Der Sprecher weist jedoch auch darauf hin, dass der Gradientenabstieg einige Einschränkungen hat, wie z. B. die Notwendigkeit, die Lernrate auszuwählen, und das Potenzial, in einem lokalen Minimum stecken zu bleiben.

  • 01:05:00 In diesem Abschnitt behandelt das Video den Gradientenabstieg ausführlicher und seine Anwendung auf lineare Modelle. Beim Gradientenabstieg aktualisiert der Algorithmus die Parameter, indem er Schritte in Richtung des negativen Gradienten der Verlustfunktion unternimmt, und dieser Vorgang wiederholt sich, bis er ein Minimum erreicht. Die Lernrate bestimmt, wie groß jeder Schritt ist, und es ist entscheidend, eine Lernrate zu finden, die nicht zu groß oder zu klein ist, da sie beeinflusst, wie schnell der Algorithmus zum Minimum konvergiert. Lineare Funktionen ermöglichen es, das optimale Modell zu erarbeiten, ohne suchen zu müssen. Komplexere Modelle erfordern jedoch die Verwendung eines Gradientenabstiegs. Der Gradientenabstieg ist schnell, speicherarm und genau, entgeht jedoch lokalen Minima nicht und funktioniert nur in kontinuierlichen Modellräumen mit glatten Verlustfunktionen. Schließlich führt das Video Klassifizierungs- und Entscheidungsgrenzen ein, bei denen das Ziel darin besteht, blaue Punkte von roten Punkten zu trennen, indem eine Linie gefunden wird, die dies im Merkmalsraum optimal tut.

  • 01:10:00 In diesem Abschnitt erläutert der Referent den Prozess zum Finden eines Klassifikators für einen einfachen Klassifikationsdatensatz, der aus sechs Instanzen besteht. Dazu suchen sie nach einer Verlustfunktion, mit der potenzielle lineare Modelle oder Ebenen im Datensatz bewertet werden können, mit dem Ziel, die Anzahl der falsch klassifizierten Punkte zu minimieren, um eine gute Bewertung zu erhalten. Die anfänglich verwendete Verlustfunktion ist jedoch nicht geeignet, um das optimale Modell zu finden, da sie eine flache Struktur hat, was eine zufällige Suche und einen Gradientenanstieg unwirksam macht. Der Sprecher stellt dann fest, dass sich die Verlustfunktion manchmal von der Bewertungsfunktion unterscheiden sollte, und präsentiert eine Verlustfunktion, die um den gewünschten Punkt herum ein Minimum hat, aber überall glatt ist.

  • 01:15:00 In diesem Abschnitt demonstriert der Dozent, wie das bei der Regression verwendete Prinzip der kleinsten Quadrate auf die Klassifizierung angewendet werden kann, indem Punktwerte zugewiesen und das Problem als Regressionsproblem behandelt werden. Dieser Ansatz funktioniert gut beim Clustern von linear trennbaren Punkten, aber es gibt keine Garantie dafür, dass er Cluster trennen wird, die nicht linear trennbar sind. Sie zeigen, wie der Gradientenabstiegsalgorithmus funktioniert, indem bestimmte Schritte im Merkmalsraum unternommen werden, um die Verlustfunktion zu minimieren. Das verwendete Beispiel ist ein Datensatz mit linear trennbaren Punkten, und der Dozent hebt auch hervor, wie begrenzt lineare Modelle sind, was sie ausdrücken können, wie das Beispiel des Kerndatensatzes zeigt, der komplexe Grenzen hat.

  • 01:20:00 In diesem Abschnitt erörtert der Kursleiter die Einschränkungen linearer Modelle und wie sie möglicherweise nicht linear trennbare Datensätze klassifizieren, z. B. einen Datensatz mit einem Spiralmuster. Lineare Modelle können jedoch in hochdimensionalen Merkmalsräumen gut funktionieren und sind auch rechengünstig. Der Kursleiter erklärt, dass der stochastische Gradientenabstieg ein leistungsfähiges Optimierungswerkzeug ist, aber eine glatte Verlustfunktion als Proxy für diskrete Verlustfunktionen benötigt. Der Kursleiter schließt mit einer Vorschau auf zukünftige Themen, die diskutiert werden, wie z. B. die Methodik des maschinellen Lernens.
 

3 Methodik 1: Area-under-the-curve, Bias und Varianz, kein kostenloses Mittagessen (MLVU2019)



3 Methodik 1: Area-under-the-curve, Bias und Varianz, kein kostenloses Mittagessen (MLVU2019)

Das Video behandelt die Verwendung der Area-under-the-Curve (AUC)-Metrik bei der Bewertung von Modellen für maschinelles Lernen sowie die Einführung der Konzepte von Bias und Varianz und des Theorems „No Free Lunch“. Die AUC-Metrik misst die Leistung des Klassifizierungsmodells durch Berechnung der Fläche unter der ROC-Kurve. Darüber hinaus werden Bias und Varianz diskutiert, da sie eine entscheidende Rolle dabei spielen, wie gut das Modell zu den Trainingsdaten passt und auf neue Daten verallgemeinert werden kann. Auch das Theorem „kein kostenloses Mittagessen“ unterstreicht die Notwendigkeit, den geeigneten Algorithmus für jedes spezifische Problem auszuwählen, da es keinen universell anwendbaren Algorithmus für alle Probleme des maschinellen Lernens gibt.

Dieses Video behandelt drei wichtige Konzepte des maschinellen Lernens: AUC (Area-under-the-Curve), Bias und Varianz sowie das Theorem „No Free Lunch“. AUC ist eine Metrik, die zur Bewertung binärer Klassifizierungsmodelle verwendet wird, während Bias und Varianz sich auf Unterschiede zwischen den vorhergesagten Werten eines Modells und den wahren Werten in einem Datensatz beziehen. Das „no free lunch“-Theorem unterstreicht die Bedeutung der Auswahl des geeigneten Algorithmus für ein gegebenes Problem, da es keinen einzelnen Algorithmus gibt, der bei allen möglichen Problemen und Datensätzen optimal funktionieren kann.

  • 00:20:00 In diesem Abschnitt erörtert der Referent die erste Methodik zur Bewertung von Machine-Learning-Modellen, die Area-under-the-Curve (AUC)-Metrik. Die AUC misst die Leistung von Klassifizierungsmodellen durch Berechnung der Fläche unter der Receiver Operating Characteristic (ROC)-Kurve. Der Referent stellt auch die Konzepte Bias und Varianz vor, die messen, wie gut ein Modell zu den Trainingsdaten passt bzw. wie gut es sich auf neue Daten verallgemeinern lässt. Abschließend erläutert der Referent das „no free lunch“-Theorem, das besagt, dass es keinen einheitlichen Algorithmus für alle Probleme des maschinellen Lernens gibt, und betont, wie wichtig es ist, für jedes spezifische Problem den geeigneten Algorithmus auszuwählen.

  • 01:10:00 In diesem Abschnitt stellt der Referent drei Schlüsselkonzepte der Methodik des maschinellen Lernens vor: Fläche unter der Kurve (AUC), Bias und Varianz und das Theorem „kein kostenloses Mittagessen“. AUC ist eine Metrik, die zur Bewertung der Leistung von binären Klassifizierungsmodellen verwendet wird und die Wahrscheinlichkeit darstellt, dass ein Modell ein zufällig ausgewähltes positives Beispiel höher einstuft als ein zufällig ausgewähltes negatives Beispiel. Verzerrung bezieht sich auf die Differenz zwischen dem erwarteten Wert der Vorhersagen eines Modells und den wahren Werten im Datensatz, während Varianz sich auf die Abweichung in den Vorhersagen eines Modells bezieht, wenn es auf verschiedenen Datensätzen trainiert wird. Das „no free lunch“-Theorem besagt, dass es keinen Algorithmus gibt, der bei allen möglichen Problemen und Datensätzen die beste Leistung erbringen kann, was unterstreicht, wie wichtig es ist, den geeigneten Algorithmus für ein bestimmtes Problem auszuwählen.
 

4 Methodik 2: Datenbereinigung, Hauptkomponentenanalyse, Eigenfaces (MLVU2019)



4 Methodik 2: Datenbereinigung, Hauptkomponentenanalyse, Eigenfaces (MLVU2019)

Dieser erste Teil des Videos behandelt verschiedene wichtige Aspekte der Datenvorverarbeitung und -bereinigung vor der Anwendung von maschinellen Lernalgorithmen, beginnend mit der entscheidenden Bedeutung des Verständnisses von Datenverzerrungen und -verzerrungen. Der Referent erörtert dann Methoden zum Umgang mit fehlenden Daten, Ausreißern, Klassenungleichgewicht, Merkmalsauswahl und Normalisierung. Das Video geht weiter auf das Konzept der Basis und der MVN-Verteilung ein und erklärt, wie man Daten mithilfe von Whitening in eine Normalverteilung für die Normalisierung umwandelt, und schließt mit der Verwendung der Hauptkomponentenanalyse (PCA) zur Dimensionsreduktion. Von der Manipulation des Trainingssets bis hin zur Verwendung von Imputationsmethoden projiziert PCA Daten in einen niedrigerdimensionalen Raum, während Informationen aus den ursprünglichen Daten erhalten bleiben.

In diesem zweiten Teil des Videos wird die Verwendung der Hauptkomponentenanalyse (PCA) bei der Datenbereinigung und Dimensionsreduktion für maschinelles Lernen erörtert. Das Verfahren beinhaltet Mittelwertzentrierung der Daten, Berechnung der Stichprobenkovarianz und Zerlegung unter Verwendung der Eigenzerlegung, um die Eigenvektoren zu erhalten, die an der Achse ausgerichtet sind, die die größte Varianz erfasst. Die Verwendung der ersten K-Hauptkomponenten bietet eine gute Datenrekonstruktion und ermöglicht eine bessere maschinelle Lernleistung. Das Konzept der Eigenfaces wird ebenfalls eingeführt, und PCA erweist sich als effektiv bei der Komprimierung der Daten auf 30 Dimensionen, während die meisten der erforderlichen Informationen für maschinelles Lernen erhalten bleiben. Verschiedene Anwendungen von PCA werden diskutiert, einschließlich ihrer Verwendung in der Anthropologie und bei der Untersuchung komplexer Datensätze wie DNA und Gesichter.

  • 00:00:00 In diesem Abschnitt des Videos erläutert der Moderator die Grundlagen der Datenbereinigung und -vorverarbeitung, bevor maschinelle Lernalgorithmen angewendet werden. Wie wichtig es ist, Daten nicht für bare Münze zu nehmen, wird durch die Erörterung der Überlebensverzerrung betont, bei der die alleinige Konzentration auf die überlebende Population zu verzerrten Ergebnissen führen kann. Der Moderator erörtert dann Techniken wie den Umgang mit fehlenden Daten, Ausreißern, Klassenungleichgewicht, Merkmalsauswahl und Normalisierung. Schließlich konzentriert sich die zweite Hälfte des Videos auf die Erörterung der Dimensionsreduktion mithilfe des Hauptkomponentenanalysealgorithmus.

  • 00:05:00 In diesem Abschnitt stellt das Video praktische Tipps für die Datenbereinigung und den Umgang mit fehlenden Daten in einem Datensatz vor, einschließlich des Entfernens fehlender Features oder Instanzen, die nicht signifikant sind, und des Sicherstellens, dass das Entfernen die Datenverteilung nicht ändert. Anstatt fehlende Werte zu entfernen, ist es möglicherweise sinnvoller, sie für die Trainingsdaten beizubehalten und die Antworten des Modells zu testen. Um die Menge der Trainingsdaten zu maximieren, steht für die fehlenden Daten eine Imputationsmethode zur Verfügung, die Schätzungen einfügt, z. B. die Verwendung des Modus oder des Mittelwerts. Das Leitprinzip für den Umgang mit fehlenden Daten besteht darin, den realen Anwendungsfall oder die Produktionsumgebung zu berücksichtigen, um das Modell so vorzubereiten, dass es auf die relevanteste und praktischste Weise mit erwarteten fehlenden Daten umgeht.

  • 00:10:00 In diesem Abschnitt erörtert der Referent zwei Arten von Ausreißern in Daten: mechanische und natürliche Ausreißer. Mechanische Ausreißer treten aufgrund von Fehlern wie fehlenden Daten oder Fehlern bei der Dateneingabe auf und sollten als fehlende Daten behandelt werden, die bereinigt werden müssen. Andererseits treten natürliche Ausreißer aufgrund von Nicht-Normalverteilung bestimmter Variablen auf und sollten im Datensatz beibehalten werden, um eine bessere Anpassung zu gewährleisten. Der Referent nennt Beispiele für beide Arten von Ausreißern, darunter ungewöhnliche Gesichtsmerkmale in einem Datensatz von Gesichtern und extrem hohe Einkommen in einem Datensatz zur Einkommensverteilung.

  • 00:15:00 In diesem Abschnitt wird die Bedeutung der Prüfung auf Normalitätsannahmen in Daten erörtert. Die lineare Regression basiert beispielsweise auf diesen Annahmen, daher ist es wichtig, auf Normalität zu prüfen und sich bewusst zu sein, dass sich Annahmen in Modellen verbergen können, ohne dass sie bekannt sind. Ausreißer sollten auch bei der Modellierung und Validierung von Daten berücksichtigt werden, und es ist wichtig, Modelle mit einem Trainingssatz zu testen, der Produktionssituationen darstellt, um sicherzustellen, dass die Modelle mit Ausreißern angemessen umgehen können. Darüber hinaus wird die Bedeutung der Transformation von Daten in kategoriale oder numerische Merkmale für maschinelle Lernalgorithmen und der potenzielle Informationsverlust bei solchen Transformationen diskutiert.

  • 00:20:00 In diesem Abschnitt erörtert der Referent die Bedeutung der Auswahl der richtigen Funktionen für maschinelle Lernalgorithmen und wie aussagekräftige Informationen aus Daten extrahiert werden können. Sie erklären, dass es nicht sinnvoll ist, Zahlen wie Telefonnummern einfach als numerische Werte zu interpretieren, und schlagen stattdessen vor, nach kategorialen Merkmalen wie Vorwahlen oder Mobilfunk- vs. Festnetzstatus zu suchen. In Fällen, in denen ein maschineller Lernalgorithmus nur numerische Merkmale akzeptiert, empfiehlt der Referent die Verwendung einer heißen Codierung anstelle einer ganzzahligen Codierung, um eine willkürliche Reihenfolge der Daten zu vermeiden. Das Ziel besteht darin, die erforderlichen Informationen zu extrahieren, ohne wesentliche Details zu verlieren, und Funktionen auszuwählen, die die für die jeweilige Aufgabe erforderlichen Informationen genau und effektiv vermitteln.

  • 00:25:00 In diesem Abschnitt erörtert der Sprecher den Wert der Erweiterung von Funktionen, um ein Modell leistungsfähiger zu machen. Am Beispiel eines Datensatzes zur E-Mail-Spam-Klassifizierung erklärt der Referent, dass zwei zusammenhängende Merkmale nicht interpretiert werden können, ohne den Wert des anderen zu kennen, was es einem linearen Klassifikator unmöglich macht, Grenzen zwischen den Klassen zu ziehen. Um diese Einschränkung zu beheben, diskutiert der Redner das Hinzufügen eines Kreuzproduktmerkmals, das die Werte der vorhandenen Merkmale multipliziert, wodurch eine Klassifikationsgrenze in einem höheren Merkmalsraum gezogen werden kann, obwohl sie im ursprünglichen Raum nicht linear trennbar ist. Der Sprecher gibt dann ein Beispiel für eine Klasse von Punkten mit einer kreisförmigen Entscheidungsgrenze, um die Bedeutung der Erweiterung von Merkmalen weiter zu veranschaulichen.

  • 00:30:00 In diesem Abschnitt erklärt der Referent, wie das Hinzufügen zusätzlicher Merkmale einem linearen Klassifikator helfen kann, Klassifikationsprobleme zu lösen. Durch Hinzufügen des Quadrats der x- und y-Koordinaten als Merkmale zu einem Entscheidungsgrenzproblem kann ein linearer Klassifikator verwendet werden, um zwischen zwei Klassen von Punkten zu unterscheiden. Der Referent zeigt anhand des TensorFlow Playground, wie das Training des Klassifikators zu einer Entscheidungsgrenze führt, die für das menschliche Auge kreisförmig erscheint. Die Gewichte der Merkmale werden ebenfalls gezeigt und es wird demonstriert, dass nur ein Merkmal notwendig ist, um dieses Klassifizierungsproblem zu lösen.

  • 00:35:00 In diesem Abschnitt des Videos erläutert der Sprecher, wie die Erweiterung des Funktionsraums zu einem leistungsfähigeren Modell führen kann, sogar für die Regression. Sie veranschaulichen diesen Punkt, indem sie zeigen, wie das Hinzufügen einer quadrierten Variablen zu einem linearen Regressionsmodell zu einer Parabel führt, die besser zu den Daten passt. Der Referent gibt auch Ratschläge zum Umgang mit Klassenungleichgewichten und schlägt vor, den Trainingssatz durch Techniken wie Oversampling oder Datenerweiterung zu manipulieren. Schließlich führen sie in das Thema der Normalisierung ein und liefern ein motivierendes Beispiel dafür, wie sich Unterschiede in Einheiten auf die Leistung eines K-Nearest-Neighbour-Klassifikationsmodells auswirken können.

  • 00:40:00 In diesem Abschnitt des Videos erörtert der Sprecher die Bedeutung der Normalisierung von Daten für maschinelle Lernalgorithmen. Sie erläutern drei Möglichkeiten zur Normalisierung von Daten: Normalisierung, Standardisierung und Aufhellung. Bei der Normalisierung wird der Datenbereich in den Bereich zwischen Null und Eins gedrückt, während bei der Standardisierung sichergestellt wird, dass der Mittelwert der Daten Null und die Varianz Eins ist. Die dritte Methode, das Aufhellen, ist eine etwas schönere Normalisierung, die alle Korrelationen in den Daten berücksichtigt und sie auf eine Kugel im Merkmalsraum reduziert. Der Referent erklärt, dass das Aufhellen zur Reduzierung der Dimensionalität nützlich ist.

  • 00:45:00 In diesem Abschnitt erläutert der Referent das Konzept der Whitening-Daten, bei dem die Daten in einen unkorrelierten Merkmalssatz umgewandelt werden. Der Referent verwendet lineare Algebra, um zu demonstrieren, wie man eine andere Basis für die Daten wählt, indem man zwei andere Vektoren für ein neues Achsensystem auswählt. Der blaue Punkt, ursprünglich als (3,2) im Standardkoordinatensystem dargestellt, wird in Bezug auf das neue Basissystem neu berechnet und hat die neuen Koordinaten (2,5, 0,5). Dies führt zu der verallgemeinerten Notation, die Basisvektoren als Spalten in eine Matrix zu stecken.

  • 00:50:00 In diesem Abschnitt erörtert der Sprecher das Konzept der Basis und wie es verwendet werden kann, um mit Hilfe der Matrix-Transponierung zwischen verschiedenen Basen zu transformieren. Die Matrixumkehroperation ist teuer und numerisch ungenau, daher wird eine orthonormale Basis bevorzugt, bei der die Basisvektoren die Länge eins haben und orthogonal zueinander sind. Der Referent erklärt dann, wie die multivariate Normalverteilung eine Verallgemeinerung der Normalverteilung auf mehrere Dimensionen ist und bei der Interpretation von Daten helfen kann. Der Mittelwert der Verteilung ist ein Vektor und die Varianz wird zu einer Kovarianzmatrix in einer multivariaten Normalverteilung. Der Referent erläutert auch kurz die Formel zur Berechnung der Stichprobenkovarianz zur Anpassung einer multivariaten Normalverteilung an die Daten.

  • 00:55:00 In diesem Abschnitt wird das Konzept der multivariaten Normalverteilung (MVN) eingeführt, die einen Mittelwert von null, eine Varianz von eins in jeder Richtung und keine Korrelationen hat und in jede andere MVN-Verteilung transformiert werden kann. Der Vorgang des Aufhellens von Daten wird weiter erläutert, wobei die Transformation einer MVN-Verteilung umgekehrt wird, um Daten zur Normalisierung in eine Normalverteilung zu transformieren. Der Abschnitt konzentriert sich auch auf die Reduzierung der Dimensionalität von hochdimensionalen Daten durch die Hauptkomponentenanalyse (PCA), eine Methode, die sowohl eine Aufhellung als auch eine Reduzierung der Dimensionalität durchführt. Durch das Auffinden neuer Merkmale, die von ursprünglichen Merkmalen abgeleitet sind und so viele relevante Informationen wie möglich enthalten, projiziert PCA Daten in einen niedrigerdimensionalen Raum, während wesentliche Informationen aus den ursprünglichen Daten erhalten bleiben.

  • 01:00:00 In diesem Abschnitt des Videos erläutert der Moderator die Hauptkomponentenanalyse (PCA) und wie sie Dimensionen nach erfasster Varianz ordnet, was eine nützliche Datenrekonstruktion und Dimensionsreduktion ermöglicht. Der Moderator erklärt Eigenvektoren und wie sie spezielle Vektoren sind, deren Richtung sich bei einer Transformation nicht ändert, und wie sie verwendet werden können, um die maximale Varianz in den Originaldaten zu finden. Der Moderator erklärt auch, wie man Eigenvektoren für eine Diagonalmatrix findet und wie man eine Matrix dreht, um die Eigenvektoren entlang der Achse auszurichten.

  • 01:05:00 In diesem Abschnitt lernen wir die Verwendung der Hauptkomponentenanalyse (PCA) zur Vorverarbeitung von Daten für maschinelle Lernalgorithmen kennen. Wir zentrieren zuerst die Daten, um die Übersetzung zu entfernen, berechnen dann die Stichprobenkovarianz und zerlegen sie unter Verwendung der Eigenzerlegung. Dann transformieren wir die Daten zurück in einen standardmäßigen multivariaten Normalraum (MVN) und verwerfen alle bis auf die ersten K Merkmale. Die aus der Zerlegung erhaltenen Eigenvektoren werden an der Achse ausgerichtet, wodurch wir die Richtung mit der größten Varianz beibehalten können. Dies führt zu einer erheblichen Verringerung der Dimensionalität, was eine bessere maschinelle Lernleistung ermöglicht.

  • 01:10:00 In diesem Abschnitt erläutert der Moderator das Konzept der Dimensionsreduktion mithilfe der Hauptkomponentenanalyse (PCA). Das Ziel der Dimensionsreduktion besteht darin, die Invarianz aufrechtzuerhalten und gleichzeitig so viele Daten wie möglich beizubehalten. Das Maximieren der Varianz in der Projektion ist dasselbe wie das Minimieren des Rekonstruktionsfehlers, der eine Verlustfunktion ist, die verwendet wird, um die Differenz zwischen den ursprünglichen und den projizierten Daten zu messen. Die erste Hauptkomponente ist die Linie, die die größte Varianz erfasst, und die folgenden Komponenten erfassen die verbleibende Varianz. Die Verwendung der ersten K Hauptkomponenten liefert eine gute Datenrekonstruktion.

  • 01:15:00 In diesem Abschnitt erörtert der Referent die Verwendung der Hauptkomponentenanalyse (PCA) in Forschungsanwendungen. Eine solche Anwendung liegt im Bereich der Anthropologie, wo sie zur Quantifizierung und Demonstration der Eigenschaften fossiler Knochen verwendet werden kann. Indem Messungen verschiedener Aspekte des Knochens vorgenommen und ein hochdimensionaler Merkmalsraum zum Vergleich erstellt werden, kann PCA dann verwendet werden, um die Dimensionen der Daten auf zwei Hauptkomponenten zu reduzieren, was eine visuelle Clusterbildung und die Identifizierung von Ausreißern ermöglicht. Darüber hinaus wurde PCA auf die Untersuchung von DNA in europäischen Populationen angewendet, wobei die DNA in einen hochdimensionalen Merkmalsvektor umgewandelt wird und PCA verwendet werden kann, um Muster und Cluster in den Daten aufzudecken.

  • 01:20:00 In diesem Abschnitt erörtert der Referent, wie die Hauptkomponentenanalyse (PCA) auf einen Datensatz von DNA-Merkmalen angewendet werden kann und wie sie verwendet werden kann, um die grobe Form Europas zu bestimmen. Anhand der beiden Hauptkomponenten eines nach Herkunftsland gefärbten DNA-Datensatzes kann man bestimmen, wie weit nördlich oder westlich/östlich eine Person oder ihre Vorfahren gelebt haben. PCA wird oft als magische Methode angesehen, da sie Einblicke in komplexe Datensätze bietet, wie z. B. die Eigenvektoren eines Datensatzes von Gesichtern, die in Eigenfaces angewendet werden. Durch Berechnen des Mittelwerts eines Datensatzes von Gesichtern und Betrachten der Eigenvektoren der Kovarianz dieses Datensatzes kann PCA Richtungen in einem hochdimensionalen Raum von Gesichtsbildern liefern.

  • 01:25:00 In diesem Abschnitt erörtert der Referent das Konzept der Eigenfaces und wie die Hauptkomponentenanalyse (PCA) bei der Datenbereinigung hilft. Indem er dem mittleren Gesicht einen winzigen Betrag des ersten Eigenvektors hinzufügt, demonstriert der Sprecher, wie dies dem Alter in den Gesichtszügen entspricht. Der zweite und der vierte Eigenvektor entsprechen der Beleuchtung bzw. dem Geschlecht. Der fünfte Eigenvektor gibt an, wie offen oder geschlossen der Mund ist. Die Eigenvektoren fungieren als Basis für den neuen Raum, und die Komprimierung der Daten auf 30 Dimensionen liefert eine gute Darstellung des ursprünglichen Gesichts. Der Wendepunkt tritt bei etwa 30 Eigenvektoren auf, wo die restlichen Details verworfen werden können, wobei die meisten für das maschinelle Lernen erforderlichen Informationen beibehalten werden.
 

Vorlesung 5 Wahrscheinlichkeit 1: Entropie, (Naive) Bayes, Kreuzentropieverlust (MLVU2019)



5 Wahrscheinlichkeit 1: Entropie, (Naive) Bayes, Kreuzentropieverlust (MLVU2019)

Das Video behandelt verschiedene Aspekte der Wahrscheinlichkeitstheorie und ihre Anwendung beim maschinellen Lernen. Der Referent führt in die Entropie ein, die das Ausmaß der Unsicherheit in einem System misst, und erklärt, wie sie mit naivem Bayes und Cross-Entropie-Verlust zusammenhängt. Die Konzepte des Stichprobenraums, des Ereignisraums, der Zufallsvariablen und der bedingten Wahrscheinlichkeit werden ebenfalls diskutiert. Der Satz von Bayes wird erklärt und als grundlegendes Konzept des maschinellen Lernens betrachtet. Das Video behandelt auch das Maximum-Likelihood-Schätzprinzip und die Bayes'sche Wahrscheinlichkeit sowie die Verwendung von Präfix-freiem Code zur Simulation von Wahrscheinlichkeitsverteilungen. Abschließend erörtert der Referent diskriminative versus generative Klassifikatoren für die binäre Klassifikation, einschließlich des Naive-Bayes-Klassifikators.

Der zweite Teil erläutert das Konzept der Berechnung von Wahrscheinlichkeiten für einen neuen Punkt, der zu einer bestimmten Klasse gehört, unter Verwendung eines multivariaten Normalverteilungsmodells. Es erörtert die bedingte Unabhängigkeit von Merkmalen, um Wahrscheinlichkeitsverteilungen für einen Klassifikator effizient anzupassen, und die Notwendigkeit, Pseudobeobachtungen zu glätten oder abzustimmen, um Null-Instanzen zu handhaben. Der Referent führt auch den Entropieverlust als effektivere Verlustfunktion für lineare Klassifikatoren als die Genauigkeit ein und erörtert die Fähigkeit der Cross-Entropie-Verlustfunktion, den Unterschied zwischen vorhergesagten und tatsächlichen Daten zu messen, wobei die Sigmoidfunktion die Symmetrien der Funktion kollabiert, um sie zu vereinfachen. Schließlich weist das Video darauf hin, dass der nächste Vortrag den SVM-Verlust als endgültige Verlustfunktion behandeln wird.

  • 00:00:00 In diesem Abschnitt des Videos zur Wahrscheinlichkeit beginnt der Sprecher damit, dass er den Schülern rät, sich einem Gruppenprojekt anzuschließen, falls sie dies noch nicht getan haben, und sich nicht zu viele Gedanken darüber zu machen, eine perfekte Gruppe zu finden, sondern stattdessen das Beste daraus zu machen was sie bekommen. Der Referent stellt dann Wahrscheinlichkeitstheorie und Entropie vor, die eng miteinander verbunden und beim maschinellen Lernen nützlich sind. Er erklärt, dass Entropie in diesem Zusammenhang bedeutet, das Maß an Unsicherheit oder Zufälligkeit in einem System zu messen. Das Konzept der Entropie ist wichtig beim maschinellen Lernen und wird verwendet, um Naive Bayes und Kreuzentropieverlust zu erklären, was später in der Vorlesung besprochen wird. Die Vorlesung behandelt auch die Grundlagen der Klassifikation und der linearen Klassifikatoren.

  • 00:05:00 In diesem Abschnitt geht der Referent auf Verlustfunktionen ein und stellt den Kreuzentropieverlust vor, der als sehr gute Verlustfunktion gilt. Sie präsentieren ein Beispiel für das Online-Glücksspiel eines Teenagers und erklären, wie Wahrscheinlichkeiten in diesem Szenario funktionieren. Der Referent geht auch auf das Konzept von Häufigkeit und Wahrscheinlichkeit ein und wie es in realen Situationen angewendet wird.

  • 00:10:00 In diesem Abschnitt diskutiert der Sprecher den Unterschied zwischen subjektiven und objektiven Wahrscheinlichkeiten. Sie erklären, dass die subjektive Wahrscheinlichkeit auf persönlichen Überzeugungen und Erfahrungen basiert, während die objektive Wahrscheinlichkeit auf der frequentistischen Wahrscheinlichkeit basiert, die aus Experimenten und Beobachtungen abgeleitet wird. Der Referent merkt an, dass beim maschinellen Lernen der Fokus auf der Minimierung von Verlusten im Test-Set auf der Grundlage des Trainings-Sets liegt und dass die Wahrscheinlichkeitstheorie als mathematischer Rahmen zur Beschreibung von Wahrscheinlichkeiten verwendet wird. Der Referent stellt auch das Konzept der Zufallsvariablen und des Abtastraums vor.

  • 00:15:00 In diesem Abschnitt erklärt das Video die Konzepte des Stichprobenraums und des Ereignisraums in der Wahrscheinlichkeitstheorie. Der Stichprobenraum umfasst alle möglichen Ergebnisse, wobei keine zwei Ergebnisse ein anderes Ergebnis dazwischen haben. Der Ereignisraum umfasst eine Reihe von Teilmengen des Stichprobenraums, die es ermöglichen, Wahrscheinlichkeiten verschiedener Ereignisse zu identifizieren, z. B. das Erzielen einer ungeraden oder geraden Zahl bei einem Würfelwurf. Wahrscheinlichkeiten können sowohl diskreten als auch kontinuierlichen Abtasträumen zugewiesen werden. Darüber hinaus erwähnt das Video die Verwendung von Zufallsvariablen und Funktionen zur Modellierung von probabilistischen Datensätzen, die helfen, die Wahrscheinlichkeit von Ereignisergebnissen zu erklären.

  • 00:20:00 In diesem Abschnitt führt der Referent in die Grundkonzepte der Wahrscheinlichkeit ein, einschließlich Zufallsvariablen und deren Darstellung als Funktionen. Der Referent erklärt, dass eine Zufallsvariable durch eine einzelne Zahl dargestellt und als Variable instanziiert werden kann. Sie diskutieren auch die Verwendung der Gleichheitsnotation und wie auf Zufallsvariablen entweder durch die Funktion oder durch einen bestimmten Wert verwiesen werden kann. Der Sprecher gibt dann ein Beispiel für einen Ereignisraum, der durch zwei Zufallsvariablen X und Y definiert ist, und führt das Konzept der bedingten Wahrscheinlichkeit ein.

  • 00:25:00 In diesem Abschnitt diskutiert der Sprecher Wahrscheinlichkeiten und wie sie umgeschrieben und projiziert werden können, um die Wahrscheinlichkeit verschiedener Ereignisse zu bestimmen. Sie erklären, dass, wenn zwei Variablen unabhängig sind, die Kenntnis des Wertes der einen die Wahrscheinlichkeit der anderen nicht ändert. Der Referent verwendet dann das Beispiel von zwei Personen, die in verschiedenen Stadtteilen leben, um zu veranschaulichen, dass die Wahrscheinlichkeit, dass eine Person pünktlich zur Arbeit kommt, die Wahrscheinlichkeit, dass die andere Person pünktlich ist, nicht beeinflusst. Sie stellen jedoch fest, dass es eine seltene Möglichkeit gibt, bei der die Wahrscheinlichkeiten der beiden Personen miteinander verbunden sein könnten.

  • 00:30:00 In diesem Abschnitt erörtert der Referent die Wahrscheinlichkeit und das Theorem von Bayes, das ein grundlegendes Konzept des maschinellen Lernens ist. Der Sprecher verwendet ein Beispiel eines Verkehrsstaus, um die bedingte Unabhängigkeit zu erklären, und wie das Wissen, dass Alice zu spät zur Arbeit kommt, die Überzeugung leicht erhöht, dass Bob auch zu spät kommt. Der Satz von Bayes gilt als die wichtigste Formel auf dem Gebiet und erklärt, wie man die bedingte Wahrscheinlichkeit umkehrt. Abschließend erläutert der Referent, wie maschinelles Lernen eine Wahrscheinlichkeitsverteilung an Daten anpasst und wie der frequentistische Ansatz anhand der verfügbaren Informationen die besten Parameter ermittelt.

  • 00:35:00 In diesem Abschnitt erörtert der Sprecher das Maximum-Likelihood-Schätzprinzip und die Bayes'sche Wahrscheinlichkeit. Das Maximum-Likelihood-Schätzprinzip basiert auf der Annahme, dass die beobachteten Datenpunkte unabhängig sind und die Wahrscheinlichkeit dieser Punkte die Likelihood-Rate maximiert. Die Bayes'sche Wahrscheinlichkeit hingegen beinhaltet die Aktualisierung der eigenen Überzeugungen auf der Grundlage von Vorwissen und beobachteten Daten. Die Bayessche Wahrscheinlichkeit verwendet einen Kompromiss zwischen zwei Parteien, Frequentisten und Bayesianern, um die Glaubensverteilung auszudrücken, was beim maschinellen Lernen gut funktioniert.

  • 00:40:00 In diesem Abschnitt erörtert der Referent das Konzept von Wahrscheinlichkeitsverteilungen und wie sie ohne einen Baum mit einem einzigen Ergebnis simuliert werden können. Die Verwendung eines präfixfreien Codes oder Präfixbaums wird als Mittel zur Erzeugung eines breiten Bereichs von Wahrscheinlichkeitsverteilungen vorgestellt. Der Referent erklärt, dass dieser Ansatz für die Kommunikation und das Finden der Wahrscheinlichkeit bestimmter Ergebnisse in verschiedenen Szenarien verwendet werden kann. Das Beispiel der Verwendung einer Münze, um einen 3-seitigen Würfel zu simulieren und eine gleichmäßige Verteilung zu erreichen, wird ebenfalls bereitgestellt.

  • 00:45:00 In diesem Abschnitt diskutiert der Sprecher eine Familie von Wahrscheinlichkeitsverteilungen, die mit einem Präfix-freien Codealgorithmus beschrieben werden können. Dieser als Naive Bayes bekannte Algorithmus ist effizient für Daten und bietet eine gute Verbindung zwischen Beschreibungsmethoden und Wahrscheinlichkeitsverteilung. Die Hauptanwendung dieses Algorithmus besteht darin, die Entropie zu erklären, die das Maß der Unsicherheit in einer Zufallsvariablen ist. Der Referent erklärt, wie dieser Algorithmus verwendet werden kann, um Daten aus einer bestimmten Wahrscheinlichkeitsverteilung zu codieren und eine Wahrscheinlichkeitsverteilung zu erhalten, die gut zu den gegebenen Daten passt.

  • 00:50:00 In diesem Abschnitt diskutiert der Referent Entropie und Kreuzentropieverlust als Maß für die Einheitlichkeit von Daten. Entropie kann verwendet werden, um die Einheitlichkeit von Daten zwischen verschiedenen Elementen darzustellen, wobei eine kleinere Entropie einheitlichere Daten anzeigt. Kreuzentropie wird verwendet, um die erwartete Codelänge darzustellen, wenn ein anderer Code verwendet wird, und ist immer gleich oder größer als die Entropie, mit einem Mindestwert von Null. Diese Maße helfen, den Abstand zwischen zwei Wahrscheinlichkeitsverteilungen zu verstehen, und liefern eine theoretische Grundlage für die Analyse von Datensätzen als Folge von Zufallsvariablen.

  • 00:55:00 In diesem Abschnitt erläutert der Referent die Konzepte von diskriminativen und generativen Klassifikatoren für die binäre Klassifikation. Die diskriminierende Klassifikation unterscheidet einfach Instanzen, während die generative Klassifikation die Wahrscheinlichkeit der einer Klasse gegebenen Daten modelliert. Generative Klassifikatoren reichen vom optimalen Bayes-Klassifikator bis zum Naive-Bayes-Klassifikator, der eine bedingte Unabhängigkeitsannahme macht und als nicht korrekt angesehen wird, aber dennoch sehr gut funktioniert und billig ist.

  • 01:00:00 In diesem Abschnitt erklärt der Referent, wie man die Wahrscheinlichkeit berechnet, dass ein neuer Punkt zu einer bestimmten Klasse gehört, indem man ein multivariates Normalverteilungsmodell verwendet. Sie erklären, dass wir, indem wir die Wahrscheinlichkeitsverteilungen schätzen und ausfüllen, jeder Klasse Wahrscheinlichkeiten auf der Grundlage der höchsten Wahrscheinlichkeit zuweisen können. Bei hoher Dimensionalität sind jedoch möglicherweise nicht genügend Daten vorhanden, um das Modell genau anzupassen. In diesem Fall kann stattdessen eine kategoriale Verteilung verwendet werden, um die Features mit der Bernoulli-Verteilung zu modellieren.

  • 01:05:00 In diesem Abschnitt wird das Konzept der bedingten Unabhängigkeit von Merkmalen erläutert, das eine effiziente Anpassung der Wahrscheinlichkeitsverteilung für einen Klassifikator ermöglicht. Ein einzelner Wahrscheinlichkeitswert von Null kann sich jedoch stark auf die Genauigkeit des Klassifikators auswirken, was durch Glätten oder Optimieren von Pseudobeobachtungen behoben werden kann, um sicherzustellen, dass es mindestens eine Beobachtung für jedes Merkmal gibt. Dadurch wird sichergestellt, dass die Wahrscheinlichkeit niemals Null wird und die Genauigkeit des Klassifikators nicht negativ beeinflusst wird.

  • 01:10:00 In diesem Abschnitt erörtert der Referent Möglichkeiten zur Vermeidung verzerrter Ergebnisse in maschinellen Lernmodellen, indem sichergestellt wird, dass es mindestens eine Instanz mit einem Wert für jede mögliche Klasse und Funktion gibt. Sie fassen generative Klassifikatoren so zusammen, dass sie Unabhängigkeitsannahmen haben, die gut mit großen und hochdimensionalen Datensätzen funktionieren, aber eine Laplace-Glättung erfordern, um null Instanzen zu handhaben. Der Referent stellt das Konzept des Entropieverlusts als effektivere Verlustfunktion für lineare Klassifikatoren im Vergleich zur Genauigkeit vor.

  • 01:15:00 In diesem Abschnitt erklärt der Referent, wie anstelle der Zuweisung von Werten zu Klassifikatormodellen Wahrscheinlichkeiten mithilfe der logistischen Sigmoidfunktion zugewiesen werden können. Das lineare Modell wird immer noch verwendet, aber es wird in den Bereich zwischen 0 und 1 gezwängt. Diese Methode ermöglicht eine genauere Interpretation positiver und negativer Instanzen.

  • 01:20:00 In diesem Abschnitt erläutert der Moderator die Cross-Entropie-Loss-Funktion, die verwendet wird, um den Unterschied zwischen dem, was ein maschinelles Lernmodell vorhersagt, und dem, was die Daten sagen, zu messen. Die Verlustfunktion wurde entwickelt, um die Größe der Linien zwischen den Vorhersagen und den Daten zu maximieren, mit dem Ziel, die blauen Linien nach oben zu verschieben und den negativen Logarithmus aller Linien zu minimieren, um letztendlich die Größe dieser Linien zu maximieren.

  • 01:25:00 In diesem Abschnitt erörtert der Sprecher, wie die Cross-Entropie-Loss-Funktion funktioniert, indem größere Residuen stärker bestraft werden als kleine Residuen. Die Funktion von P gegenüber M zeigt auch, dass kleine Balken viel zum Verlust beitragen, was der Quadrierung in früheren Modellen entspricht. Der Sprecher diskutiert dann die Ableitung des Logarithmus und wie der konstante Multiplikator in die Gleichung aufgenommen wird. Um die Mathematik zu vereinfachen, kann der konstante Multiplikator vernachlässigt oder der binäre Logarithmus durch den natürlichen Logarithmus definiert werden.

  • 01:30:00 In diesem Abschnitt diskutiert der Redner den Kreuzentropieverlust und die Rolle, die die Sigmoidfunktion bei der Vereinfachung spielt. Die Symmetrien der Sigmoidfunktion ermöglichen den Zusammenbruch der Verlustfunktion, was sie letztendlich einfacher macht. Das logistische Sigmoid kann bei Anwendung auf die logistische Regression problemlos Punkte behandeln, die weit von der Entscheidungsgrenze entfernt sind. Die logistische Regression kann im Unsicherheitsbereich zu mehreren guten Lösungen führen.

  • 01:35:00 In diesem Abschnitt erklärt der Dozent das Konzept der Wahrscheinlichkeit und klassifiziert Punkte basierend auf ihren Wahrscheinlichkeitswerten entweder als blau oder rot. Er weist weiter darauf hin, dass der nächste Vortrag den SVM-Verlust als endgültige Verlustfunktion behandeln wird.
 

Vorlesung 6 Lineare Modelle 2: Neuronale Netze, Backpropagation, SVMs und Kernelmethoden (MLVU2019)



6 Lineare Modelle 2: Neuronale Netze, Backpropagation, SVMs und Kernel-Methoden (MLVU2019)

Dieser erste Teil des Videos zu linearen Modellen konzentriert sich auf die Einführung von Nichtlinearität in lineare Modelle und untersucht zwei Modelle, die auf der Erweiterung des Funktionsraums beruhen: neuronale Netze und Support-Vektor-Maschinen (SVMs). Für neuronale Netze erklärt der Referent, wie man mit Aktivierungsfunktionen wie Sigmoid oder Softmax ein Netz für Regressions- und Klassifikationsprobleme aufbaut. Die Vorlesung befasst sich dann mit Backpropagation, einer Methode zur Berechnung von Gradienten, die in neuronalen Netzwerken verwendet werden. Für SVMs führt der Referent das Konzept der Maximierung des Spielraums zu den nächstgelegenen Punkten jeder Klasse ein und demonstriert, wie es als eingeschränktes Optimierungsproblem ausgedrückt werden kann. Das Video bietet eine klare Einführung in die Prinzipien neuronaler Netze und SVMs und empfiehlt den Studenten, sich auf die erste Hälfte der Vorlesung als Ausgangspunkt für den Rest des Kurses zu konzentrieren.

Der zweite Teil des Videos behandelt die Themen Support Vector Machines (SVMs), Soft-Margin-SVMs, Kernel-Tricks und Unterschiede zwischen SVMs und neuronalen Netzen. Die Soft-Margin-SVMs werden eingeführt, um nichtlinear trennbare Daten zu handhaben, wodurch ein Strafwert zu Punkten hinzugefügt werden kann, die die Klassifizierungsbeschränkungen nicht erfüllen. Der Kernel-Trick ermöglicht die Berechnung des Punktprodukts in einem höherdimensionalen Raum, wodurch der Merkmalsraum erweitert wird, um die Leistung des Modells erheblich zu steigern. Die Unterschiede zwischen SVMs und neuronalen Netzen werden erläutert, und die Verlagerung hin zu neuronalen Netzen aufgrund ihrer Fähigkeit, fortgeschrittenere Arten der Klassifizierung durchzuführen, wird diskutiert, auch wenn sie nicht vollständig verstanden werden.

  • 00:00:00 In diesem Abschnitt erörtert der Referent, wie nichtlineare Funktionen unter Verwendung linearer Modelle gelernt werden, indem zusätzliche Funktionen hinzugefügt werden, die Funktionen sind, die von den verwendeten Funktionen abgeleitet sind, was bereits letzte Woche erklärt wurde. Der Referent konzentriert sich dann auf zwei Modelle, nämlich neuronale Netze und Support-Vektor-Maschinen, die auf der Erweiterung des Merkmalsraums beruhen. Neuronale Netze erfordern einen lernbaren Feature-Extraktor, während Support-Vektor-Maschinen den Kernel-Trick verwenden, um einen größeren Feature-Raum zu sprengen. Die Vorlesung erläutert Backpropagation, eine spezielle Methode zur Berechnung von Gradienten, die in neuronalen Netzen verwendet wird, sowie die Scharnierverlustfunktion, die in Support-Vektor-Maschinen verwendet wird. Der Referent empfiehlt, sich zum besseren Verständnis linearer Modelle auf die erste Hälfte der Vorlesung zu konzentrieren, da diese als Ausgangspunkt für den Rest der Vorlesung dient.

  • 00:05:00 In diesem Abschnitt diskutiert der Redner die Geschichte neuronaler Netze, die bis in die späten 50er und frühen 60er Jahre zurückreicht, als Forscher begannen, sich vom menschlichen Gehirn inspirieren zu lassen, um KI-Systeme zu entwickeln. Sie erstellten eine vereinfachte Version eines Neurons namens Perzeptron, das als lineares Modell funktionierte und zur Klassifizierung verwendet wurde. Das Interessante am Gehirn ist jedoch die Art und Weise, wie viele Neuronen zusammenarbeiten, also begannen die Forscher, diese Perzeptronen miteinander zu verketten, um ein Netzwerk aufzubauen.

  • 00:10:00 In diesem Abschnitt der Vorlesung über lineare Modelle erklärt der Referent, wie man Nichtlinearität in ein Netzwerk von Perzeptronen einführt, um die Fähigkeit zu haben, normalerweise nichtlineare Funktionen und interessantere Modelle zu lernen. Eine Möglichkeit, dies zu tun, ist die Verwendung einer Sigmoidfunktion, die eine Reihe von Zahlen nimmt und sie in den Bereich von 0 bis 1 drückt. Durch die Verkettung von Perzeptronen mit nichtlinearen Aktivierungsfunktionen zu einem Feed-Forward-Netzwerk oder einem mehrschichtigen Perzeptron, einem kann es in ein Regressions- oder Klassifizierungsmodell umwandeln, wobei jede Linie einen Parameter des Netzwerks darstellt, der optimiert werden muss. Der Prozess der Anpassung dieser Zahlen zur Lösung eines Lernproblems wird Backpropagation genannt, was später in der Vorlesung besprochen wird.

  • 00:15:00 In diesem Abschnitt des Videos mit dem Titel „6 Linear Models 2: Neural Networks, Backpropagation, SVMs and Kernel methods (MLVU2019)“ erklärt der Referent, wie man ein neuronales Netz für Regressions- und Klassifikationsprobleme aufsetzt. Für die Regression wird ein Netzwerk mit einer verborgenen Schicht und ohne Aktivierung auf der Ausgabeschicht eingerichtet, gefolgt von der Anwendung einer Regressionsverlustfunktion. Für die binäre Klassifizierung wird der Ausgabeschicht eine Sigmoid-Aktivierung hinzugefügt, und die erhaltenen Wahrscheinlichkeiten können als die Wahrscheinlichkeit interpretiert werden, dass die Eingabe positiv ist. Für die Mehrklassenklassifizierung wird eine Softmax-Aktivierung hinzugefügt, die einen Ausgabeknoten für jede Klasse erstellt und die Wahrscheinlichkeiten so normalisiert, dass sie sich zu Eins addieren. Die Verlustfunktion wird verwendet, um die Gewichte des Netzwerks zu trainieren, bis der Kreuzentropieverlust minimiert ist.

  • 00:20:00 In diesem Abschnitt erörtert der Referent das Grundprinzip von neuronalen Netzen, das den Gradientenabstieg verwendet. Da die Berechnung des Verlusts über den gesamten Datensatz jedoch teuer sein kann, wird ein stochastischer Gradientenabstieg verwendet, bei dem nur ein Beispiel im Datensatz zur Berechnung des Verlusts verwendet wird, wodurch das Modell für dieses einzelne Beispiel optimiert wird. Der stochastische Gradientenabstieg fügt Zufälligkeit hinzu und erzeugt ein wenig Zufälligkeit, was dazu beiträgt, lokalen Minima zu entkommen. Der Sprecher fügt dann eine versteckte Ebene im Aufmerksamkeitsblumenspielplatz für die Klassifizierung hinzu, wo die probabilistische Klassifizierung gezeigt wird. Das Modell scheint jedoch bei diesem speziellen Problem nicht gut zu funktionieren.

  • 00:25:00 In diesem Abschnitt des Videos erörtert der Sprecher Aktivierungsfunktionen für lineare Modelle und vergleicht die Sigmoid- und ReLU-Aktivierungsfunktionen. Die ReLU-Funktion passt Daten schneller an und ihre Entscheidungsgrenze ist stückweise linear, während die Sigmoid-Funktion eine kurvige Entscheidungsgrenze erzeugt. Der Referent empfiehlt, mit zusätzlichen Schichten zu experimentieren, um das Modell leistungsfähiger zu machen, obwohl die zusätzliche Komplexität das Training erschwert. Das Video befasst sich dann mit der Backpropagation, die es Computern ermöglicht, Gradienten mithilfe symbolischer Differenzierung ohne exponentielle Kosten effizient zu berechnen. Der Referent erklärt, dass die Grundidee darin besteht, die Funktion als Zusammenstellung von Modulen zu beschreiben und die Kettenregel immer wieder anzuwenden.

  • 00:30:00 In diesem Abschnitt wird der Backpropagation-Algorithmus als eine Methode erklärt, um ein beliebiges gegebenes Modell zu nehmen und es in eine Kette von Modulen zu zerlegen, um den globalen Gradienten für eine bestimmte Eingabe zu berechnen, indem die Gradienten jedes Submoduls multipliziert werden zusammen. Dieser Prozess beginnt damit, dass die Ableitung jedes Moduls in Bezug auf seine Eingabe symbolisch unter Verwendung von Stift und Papier berechnet wird, und geht dann zur numerischen Berechnung über. Ein einfaches Beispiel wird gegeben, um die Idee zu veranschaulichen, eine Funktion als eine Folge von Modulen zusammenzusetzen, lokale Ableitungen zu verwenden und wiederholt die Kettenregel anzuwenden, um die globale Ableitung abzuleiten. Die resultierenden Faktoren werden als globale bzw. lokale Ableitungen bezeichnet.

  • 00:35:00 In diesem Abschnitt behandelt das Video die Backpropagation, indem das System in Module zerlegt und auf ein zweischichtiges neuronales Netzwerk mit Sigmoid-Aktivierung angewendet wird. Der Fokus liegt darauf, die Ableitung der Verlustfunktion in Bezug auf die Gewichte zu finden, nicht auf die Eingabe. Das erste Modul ist die Verlustfunktion, gefolgt von Y, einer linearen Aktivierungsfunktion. Jeder verborgene Wert erhält ein Modul mit seiner eigenen Aktivierungsfunktion, in diesem Fall einer Sigmoid-Funktion, die darauf angewendet wird. H2 prime ist die lineare Eingabe für die Aktivierungsfunktion. Schließlich erklärt das Video, dass es wichtig ist, den Unterschied zwischen der Ableitung des Modells in Bezug auf seine Eingabe und der Ableitung der Verlustfunktion in Bezug auf die Gewichte zu erkennen.

  • 00:40:00 In diesem Abschnitt diskutiert der Sprecher die lokalen Gradienten jedes Moduls, insbesondere die Ableitung des Verlusts in Bezug auf V2 und Y über V2. Die Ableitung von L über Y wird mit der Kettenregel vereinfacht und ergibt 2 mal Y minus T, was nur der quadratische Normfehler ist. Y über V2 ist eine lineare Funktion und die Ableitung ist einfach H2. Wenn der Gradientenabstieg auf den Parameter z2 angewendet wird, wird er aktualisiert, indem der Fehler mal die Aktivierung von H2 subtrahiert wird. Der Sprecher liefert eine Analogie eines neuronalen Netzwerks als Regierung mit dem Premierminister an der Spitze, Ministern in der zweiten Schicht und Beamten in der ersten Schicht. Die Minister hören Beamten zu und schreien bei bestimmten Entscheidungen lauter, was als positives Vertrauen interpretiert wird, während Schweigen negatives Vertrauen bedeutet. Der Premierminister passt sein Vertrauensniveau basierend auf dem Fehler an und leitet ihn für Aktualisierungen über das Netzwerk zurück.

  • 00:45:00 In diesem Abschnitt erklärt der Sprecher, wie Backpropagation funktioniert, indem er allen Gewichtungen die Verantwortung für den Fehler in der Ausgabe des Modells zuweist. Er verwendet eine erfundene Analogie, um zu demonstrieren, dass der globale Fehler berechnet und mit dem Grad des Vertrauens in die Minister, die zu dem Problem beigetragen haben, multipliziert wird. Der Referent zeigt dann, wie die Aktivierungsfunktion bei der Aktualisierung des Vertrauensniveaus berücksichtigt werden muss. Backpropagation propagiert im Wesentlichen den Fehler zurück durch das Netzwerk, um die Gewichtungen des Modells zu aktualisieren. Der Referent fasst zusammen, dass neuronale Netze eine Kombination aus linearen und nichtlinearen Funktionen sind und die einfachste Version ein Feed-Forward-Netz ist.

  • 00:50:00 In diesem Abschnitt erörtert das Video die Geschichte und Herausforderungen neuronaler Netze und wie das Interesse an ihnen aufgrund ihrer Schwierigkeiten beim Training und der Unsicherheit bei der Optimierung ihrer Parameter abnahm. Support-Vektor-Maschinen, die eine konvexe Verlustfläche haben, die eine sofortige Rückmeldung darüber ermöglicht, ob das Modell funktioniert, wurden aufgrund des Mangels an Ungewissheit, die mit ihrem Training verbunden ist, immer beliebter. Das Video stellt dann Support-Vektor-Maschinen als Lösung für das Problem mehrerer Modelle vor, die bei ähnlichen Daten unterschiedlich funktionieren, wobei das Konzept verwendet wird, den Spielraum zu den nächstgelegenen Punkten zu maximieren und sie Support-Vektoren zu nennen.

  • 00:55:00 In diesem Abschnitt wird das Konzept der Support Vector Machines (SVMs) als Methode zum Finden einer Entscheidungsgrenze für ein binäres Klassifikationsproblem eingeführt. Der SVM-Algorithmus zielt darauf ab, eine Linie zu finden, die den Spielraum oder den Abstand zwischen der Entscheidungsgrenze und den nächsten Punkten jeder Klasse maximiert. Das Ziel der SVM kann als eingeschränktes Optimierungsproblem ausgedrückt werden, bei dem das Ziel darin besteht, den Spielraum zu maximieren, während Einschränkungen erfüllt werden, die sicherstellen, dass die Ausgabe des Modells +1 für positive Unterstützungsvektoren und -1 für negative Unterstützungsvektoren ist. Die SVM kann weiter vereinfacht werden, indem ein Beschriftungsparameter eingeführt wird, der codiert, ob ein Punkt positiv oder negativ ist, wodurch die beiden Ziele auf ein einziges Ziel reduziert werden können, das vollständig in Bezug auf die Hyperebenenparameter geschrieben werden kann.

  • 01:00:00 In diesem Abschnitt erörtert der Referent das Konzept der Maximierung des Spielraums zwischen Entscheidungsgrenzen in Support Vector Machines (SVMs). Die Größe des Spielraums ist abhängig von der Länge eines Vektors, die durch die Parameter des Modells bestimmt werden kann. Ziel ist es, diese Marge zu maximieren und gleichzeitig bestimmte Einschränkungen zu erfüllen. Wenn die Daten jedoch nicht linear trennbar sind, muss das Modell gelockert werden, indem ein Slack-Parameter hinzugefügt wird, der es dem Modell ermöglicht, bestimmte Einschränkungen zu verletzen, um eine bessere Anpassung zu finden. Jeder Datenpunkt hat seinen eigenen Slack-Parameter, der entweder auf Null oder einen positiven Wert gesetzt werden kann.

  • 01:05:00 In diesem Abschnitt erörtert der Dozent das Konzept der Soft-Margin-SVMs, die es ermöglichen, dass Datensätze, die nicht linear trennbar sind, behandelt werden können, indem ein Strafwert zu Punkten hinzugefügt wird, die die Klassifizierungsbeschränkungen nicht erfüllen. Dieser Nachteil wird durch eine Verlustfunktion ausgedrückt, die unter Verwendung des Gradientenabstiegsverfahrens minimiert werden kann. Als Alternative zum Kernel-Trick stellt der Dozent auch die Möglichkeit vor, die Verlustfunktion in Bezug auf die Support-Vektoren umzuschreiben, wodurch das Constraint-Optimierungsproblem gelöst werden kann. Die Gelenkverlustfunktion wird als Möglichkeit zur Implementierung dieses Strafsystems vorgestellt.

  • 01:10:00 In diesem Abschnitt erörtert der Kursleiter verschiedene Verlustfunktionen beim maschinellen Lernen, wie z. B. Genauigkeit, kleinste Quadrate, den Kreuzentropieverlust und den Soft-Margin-SVM-Verlust. Die Soft-Margin-SVM arbeitet, indem sie die Marge zwischen einer Entscheidungsgrenze und den nächsten Punkten mit Strafen maximiert. Da diese Optimierungsfunktion jedoch Einschränkungen und einen Sattelpunkt hat, kann sie nicht effektiv durch Gradientenabstieg gelöst werden. Der Kursleiter stellt die Methode der LaGrange-Multiplikatoren vor, die dabei hilft, das eingeschränkte Optimierungsproblem in eine viel einfachere Form umzuschreiben, ohne Einschränkungen zu beseitigen. Durch die Verwendung dieser Methode zeigt der Kursleiter, wie die SVM-Optimierungsfunktion für weiche Margen neu geschrieben werden kann, was die Anwendung des Kernel-Tricks ermöglicht.

  • 01:15:00 In diesem Abschnitt diskutiert der Referent Support Vector Machines (SVMs) und den Kernel-Trick, der eine Möglichkeit darstellt, die Punktprodukte von Punktpaaren in einem Datensatz durch andere Punktprodukte zu ersetzen. SVMs arbeiten, indem sie die Größe von Alphas bestrafen, angeben, welche Punkte Stützvektoren sind, und über alle Punktpaare im Datensatz summieren. Der Kernel-Trick ermöglicht die Berechnung des Skalarprodukts in einem höherdimensionalen Raum, was zu einem viel leistungsfähigeren Modell für ähnliche Kosten wie die Berechnung eines linearen Modells führt. Es wird ein Beispiel gegeben, wo die Funktionen erweitert werden, indem alle Kreuzprodukte hinzugefügt werden, was den Funktionsraum erheblich vergrößert und viel leistungsfähigere Modelle ermöglicht.

  • 01:20:00 In diesem Abschnitt wird das Konzept der Verwendung von Kernelfunktionen zur Erzielung hochdimensionaler Merkmalsräume für die Klassifizierung erörtert. Durch die Verwendung des Skalarprodukts und dessen Erweiterung auf höhere Potenzen kann der Merkmalsraum erweitert werden, um Kreuzprodukte und unendlich dimensionale Merkmalsräume einzuschließen, während gleichzeitig niedrige Kosten beibehalten werden. Diese Methode ist jedoch anfällig für Überanpassung und kann kompliziert zu implementieren sein. Die Verwendung von Kernel-Funktionen kann auch auf nicht-numerische Daten wie Text oder Proteinsequenzen ausgedehnt werden, bei denen eine direkte Merkmalsextraktion nicht einfach ist. Obwohl Kernel-Funktionen derzeit nicht im Trend liegen, können sie in bestimmten Fällen dennoch nützlich sein.

  • 01:25:00 In diesem Abschnitt werden die Unterschiede zwischen Support Vector Machines (SVMs) und neuronalen Netzen diskutiert. SVMs sind insofern begrenzt, als ihre Trainingszeit quadratisch ist, während neuronale Netze nur eine bestimmte Anzahl von Durchgängen über die Daten benötigen. Allerdings können SVMs immer noch mit Gradient Descent trainiert werden, aber diese Methode verliert den Kernel-Trick aus den Augen. Um 2005 wurde das Training von SVMs aufgrund der damit verbundenen Datenmenge immer schwieriger, was zum Wiederaufleben neuronaler Netze führte. Darüber hinaus hat sich die Kultur innerhalb des maschinellen Lernens dahingehend verlagert, dass neuronale Netze funktionieren, auch wenn die Gründe für ihren Erfolg noch nicht vollständig verstanden werden. Letztendlich ermöglichte diese Verschiebung die Verwendung von neuronalen Netzwerkmodellen, um fortgeschrittenere Arten der Klassifizierung durchzuführen, die im folgenden Abschnitt erörtert werden.
 

Deep Learning 1: Backpropagation für Tensoren, Convolutional Neural Networks (MLVU2019)



7 Deep Learning 1: Backpropagation für Tensoren, Convolutional Neural Networks (MLVU2019)

Dieser erste Teil des Videos zu Deep Learning und Backpropagation behandelt mehrere Themen, darunter die Grundlagen eines Deep-Learning-Frameworks, Tensoren, den Backpropagation-Algorithmus und das Problem des verschwindenden Gradienten. Der Referent erklärt, wie neuronale Netze unter Verwendung einer Folge linearer Algebra-Operationen implementiert werden können und wie der Backpropagation-Algorithmus verwendet werden kann, um ein Modell als eine Zusammensetzung von Funktionen zu definieren. Das Video behandelt auch die Berechnung von Ableitungen mithilfe von Matrixoperationen und untersucht Lösungen für das Problem des verschwindenden Gradienten, wie z. B. die Gewichtsinitialisierung und die Verwendung von ReLU als Aktivierungsfunktion. Schließlich berührt das Video den Mini-Batch-Gradientenabstieg und verschiedene Optimierer, die in einem komplexen neuronalen Netzwerk verwendet werden können.

Dieser zweite Teil behandelt eine Reihe von Themen im Zusammenhang mit Deep Learning, einschließlich Optimierungsalgorithmen und Regularisierungstechniken. Die Adam-Optimierung wird als beliebter Algorithmus für Deep Learning erklärt, während die L1- und L2-Regularisierung als Methoden zur Vermeidung von Overfitting untersucht werden. Das Potenzial neuronaler Netze in der Bildverarbeitung wird ebenfalls diskutiert, wobei Convolutional Neural Networks als leistungsstarkes Werkzeug für Bilderkennungsaufgaben hervorgehoben werden. Das Video befasst sich auch mit der Funktionsweise dieser Netzwerke und wie sie Funktionen zur Erkennung komplexer Bilder aufbauen, sowie mit dem Konzept des End-to-End-Lernens als Möglichkeit, die Einschränkungen der Verkettung mehrerer Module zu überwinden.

  • 00:00:00 In diesem Abschnitt des Videos über Deep Learning beginnt der Redner mit der Wiederholung von Konzepten, die in der vorherigen Sitzung besprochen wurden, wie z. B. neuronale Netze und wie sie in Schichten organisiert sind. Anschließend diskutieren sie, dass neuronale Netze im Wesentlichen nur eine Reihe von Schritten der linearen Algebra sind, mit gelegentlichen nichtlinearen Funktionen wie der Sigmoidfunktion. Dies ist wichtig, da es den Prozess der Implementierung eines neuronalen Netzwerks vereinfacht und ein effizienteres Training ermöglicht. Der Referent merkt auch an, dass neuronale Netze eine Zeitlang in Ungnade gefallen sind, weil sie schwer zu trainieren waren, aber im nächsten Abschnitt werden sie sich ansehen, wie die Rückwärtsausbreitung hilft, diese Herausforderung zu bewältigen.

  • 00:05:00 In diesem Abschnitt skizziert das Video die Grundlagen eines Deep-Learning-Systems oder -Frameworks, das ein Verständnis der Tensormatrix-Kalküle und eine Wiederholung des Backpropagation-Algorithmus erfordert. Der Referent betont, dass Deep Learning trotz des mit neuronalen Netzen verbundenen Ballasts nichts Besonderes ist, da es sich lediglich um eine Abfolge linearer Algebraoperationen handelt. Der erste Schritt bei der Entwicklung eines allgemeinen Frameworks für neuronale Netze besteht darin, die Operationen effizient und einfach zu definieren, damit sie leicht effektiv trainiert werden können. Darüber hinaus werden die Dinge durch die Verwendung von Grafikprozessoren oder Grafikkarten aufgrund ihrer Effektivität bei der Matrixmultiplikation etwa 20-mal schneller. Schließlich skizziert das Video die restlichen Themen, die in der Vorlesungsreihe behandelt werden sollen, darunter Faltungsschichten, Autoencoder und eine Diskussion über philosophische Aspekte des Deep Learning.

  • 00:10:00 In diesem Abschnitt diskutiert der Redner Tensoren, eine Datenstruktur, die verwendet wird, um eine Reihe von Zahlen zu speichern, die beim Deep Learning verwendet werden können. Tensoren werden zum Speichern von Datensätzen verwendet und müssen für alle Elemente denselben Datentyp haben, der normalerweise Gleitkommazahlen enthält. Der Redner erklärt, wie man ein Bild in einem Drei-Tensor speichert, der ein Stapel von drei Graustufenbildern ist, eines für jeden Farbkanal, und wie man einen Datensatz von Bildern in einem Vier-Tensor speichert, indem man einen weiteren Index hinzufügt, der über die Bilder iteriert der Datensatz. Abschließend erklärt der Referent, dass Funktionen bzw. Operationen im Deep Learning genauso wie in der Programmiersprache sind, jedoch mit Tensoren als Ein- und Ausgängen, und dass neben der Vorwärtsberechnung auch die Rückwärtsberechnung implementiert wird, die den lokalen Gradienten berechnet.

  • 00:15:00 In diesem Abschnitt behandelt das Video den Backpropagation-Algorithmus und wie er verwendet werden kann, um ein neuronales Netzwerkmodell als eine Zusammensetzung von Funktionen zu definieren. Der Gradient über das gesamte Netzwerk wird als Produkt aller lokalen Gradienten jeder Funktion berechnet, und Backpropagation wird verwendet, um den Verlust über den gesamten Berechnungsgraphen zu propagieren. Das Video erklärt, dass es zwei Möglichkeiten gibt, den Berechnungsgraphen zu definieren – Lazy und Eifer Execution – und obwohl Lazy Execution einfach ist, ist es nicht ideal für Debugging oder Recherche. Die eifrige Ausführung ist derzeit der Standard in Frameworks wie PyTorch und TensorFlow, da der Benutzer den Berechnungsgraphen durch Ausführen von Berechnungen definieren kann, was das Debuggen und Ändern des Modells während des Trainings erleichtert.

  • 00:20:00 In diesem Abschnitt erörtert der Sprecher den Berechnungsgraphen und wie er mit skalaren Variablen erstellt wird. Anschließend liefert er ein Beispiel dafür, wie ein neuronales Netzwerk in einem Framework unter Verwendung eines Berechnungsgraphen implementiert werden kann. Der Verlustwert wird über das neuronale Netzwerk berechnet und der Rückausbreitungsprozess wird ausgehend vom Verlustwert initiiert, um den Gradienten über die Parameter des Netzwerks zu erhalten. Sobald der Gradient erhalten ist, kann ein Schritt des Gradientenabstiegs durchgeführt werden, indem ein kleiner Teil des Gradienten von dem Wert subtrahiert wird.

  • 00:25:00 In diesem Abschnitt erörtert der Referent zwei wichtige Aspekte der Backpropagation für Deep-Learning-Systeme: Umgang mit mehreren Berechnungspfaden und Arbeiten mit Tensoren. Der Referent stellt die multivariate Kettenregel für den Umgang mit Rauten in einem Berechnungsgraphen vor, bei dem mehrere Pfade zum gleichen Wert führen. Außerdem erklärt der Referent, wie wichtig es ist, bei der Backpropagation mit Tensoren zu arbeiten, bei denen alle Zwischenwerte Tensoren statt skalare Werte sind. Das Ziel besteht darin, Ableitungen in Form von Matrixoperationen zu erarbeiten, was eine schnellere Berechnung ermöglicht. Der Referent demonstriert die Ableitung eines Vektors in Bezug auf eine Matrix anhand eines einfachen Beispiels einer Funktion, die einen Skalar ausgibt, dessen Eingabe ein Vektor ist, wodurch die Funktion so einfach wie möglich wird, indem das Punktprodukt betrachtet wird.

  • 00:30:00 In diesem Abschnitt erklärt der Referent, wie man Ableitungen von Tensoren am Beispiel eines Vektors und einer Matrix berechnet. Das erste Beispiel zeigt, dass die Ableitung eines Skalars in Bezug auf einen Vektor nur ein Zahlenvektor ist, der der Gradient ist. Dann zeigt das zweite Beispiel, dass die Ableitung eines Vektors in Bezug auf eine Matrix nur eine Matrix ist. Der Sprecher hebt hervor, dass das Nehmen aller möglichen Werte und deren Anordnung in einer Matrix die ursprüngliche Matrix P ergibt.

  • 00:35:00 In diesem Abschnitt erklärt der Referent, wie uns die Ableitung einer Funktion eine Matrix möglicher skalarer Ableitungen für Vektoreingaben und -ausgaben und einen Tensor von Ableitungen für Eingaben/Ausgaben höherer Ordnung liefert. Die Berechnung dieser Zwischenwerte kann jedoch schwierig und kompliziert sein, insbesondere wenn es sich um eine Vektor/Matrix-Kombination handelt. Um diesen Vorgang zu vereinfachen, können wir das Produkt akkumulieren, indem wir jede Ableitung sequentiell von links nach rechts berechnen, anstatt uns mit diesen Zwischenwerten zu befassen. Der Referent erklärt, wie die Rückwärtsimplementierung einer Funktion die Ableitung des Verlusts in Bezug auf ihre Ausgabe als Eingabe aufnimmt.

  • 00:40:00 In diesem Abschnitt erklärt der Referent, wie man einen Wert in Form von Matrizenberechnungen berechnet, indem man die Zwischenprodukte entfernt. Sie müssen die Ableitung über alle Eingaben in Bezug auf alle Eingaben berechnen und die multivariate Kettenregel verwenden, in der sie dem Berechnungspfad mitteilt, dass er vorbeigehen soll, und die Ergebnisse summiert. Selbst wenn K ein Tensor oder ein Tensor auf hoher Ebene ist, müssen sie jedes Element ableiten und die Summe addieren, was auf diese Weise möglicherweise ineffizient zu berechnen ist. Daher extrahieren sie die Elemente der Matrixmultiplikation zu einem Skalarprodukt der i-ten Zeile von W-mal-X mit X Punktprodukt der I-ten Reihe von W mit X. Schließlich optimieren sie am Ende jedes Vorwärts- und Rückwärtsdurchlaufs jede Verfolgungssequenz, um sie an die gegebene Zielvariable anzupassen, indem sie das Ergebnis der Verlustfunktion minimieren .

  • 00:45:00 In diesem Abschnitt des Videos über Deep Learning und Backpropagation erläutert der Sprecher, wie Ableitungen mithilfe von multivariaten Kettenregeln und Matrixoperationen berechnet werden. Die Ableitungen für jedes Element der Gewichtsmatrix W können berechnet werden, und der lokale Gradient für W wird unter Verwendung des äußeren Produkts der beiden Vektoren abgeleitet. Derselbe Vorgang kann für die anderen Eingaben durchgeführt werden. Die Vorwärtsberechnung der linearen Schicht wird unter Verwendung von WX + B berechnet, und die Rückwärtsberechnung kann erreicht werden, indem die Gradienten des Verlusts in Bezug auf W, X und B unter Verwendung einer Matrixmultiplikation berechnet werden. Der Referent weist jedoch darauf hin, dass die meisten Deep-Learning-Systeme die Rückwärtsfunktion bereits implementiert haben, sodass Benutzer sie nicht selbst berechnen müssen.

  • 00:50:00 In diesem Abschnitt erklärt der Referent, dass das Problem des verschwindenden Gradienten der größte Rückschlag für Deep Learning in den 90er Jahren war. Sie untersuchen das Problem mit Gewichtsinitialisierungen, da Gewichte nicht zu groß oder zu klein sein sollten, da sonst die Aktivierungsfunktionen nicht effektiv arbeiten, was dazu führt, dass die Ausgänge immer Null sind. Die Lösung besteht darin, die Gewichte des Netzwerks mit zufälligen orthogonalen Werten oder Stichproben aus einer gleichmäßigen Verteilung zwischen zwei positiven Werten zu initialisieren und sicherzustellen, dass die Eigenwerte eins sind. Dies garantiert, dass der Mittelwert und die Varianz der Ausgabe gleich bleiben und das Netzwerk daher effektiv lernen kann.

  • 00:55:00 In diesem Abschnitt behandelt das Video die Probleme, die bei der Verwendung von Sigmoid-Funktionen für Deep-Learning-Netzwerke auftreten, wie z. B. das Vanishing-Gradient-Problem, bei dem Gradienten immer kleiner werden und das Netzwerk nicht lernt. Stattdessen schlägt das Video vor, ReLU als einfachere Aktivierungsfunktion zu verwenden, die eine Identitätsfunktion von 1 über Eingänge größer als Null und ansonsten eine Nullableitung hat, damit der Gradient nicht abfällt. Das Video stellt auch den Mini-Batch-Gradientenabstieg als Zwischenversion des regulären und stochastischen Gradientenabstiegs vor, der den Verlust in Bezug auf einen kleinen Stapel berechnet und Zufälligkeit und parallele Verarbeitung ermöglicht. Das Video warnt jedoch vor einem Kompromiss zwischen größeren Stapelgrößen – die GPU-Speicher nutzen und schneller ausgeführt werden – und kleineren Stapeln, die effektiver sind, um optimale Ergebnisse zu erzielen. Schließlich berührt das Video verschiedene Optimierer, die das Konzept des Gradientenabstiegs verwenden, aber leicht anpassen, um die unterschiedlichen Gradienten zu berücksichtigen, die in einem komplexen neuronalen Netzwerk auftreten können.

  • 01:00:00 In diesem Abschnitt behandelt der Kursleiter drei Methoden zum Umgang mit sehr kleinen lokalen Minima und zum Glätten rauer Verlustflächen: Impuls, Nesterov-Impuls und Adam. Die grundlegende Intuition hinter Momentum besteht darin, Gradienten als eine Kraft zu behandeln – ähnlich der Schwerkraft – und die Navigation auf der Verlustoberfläche, indem das Modell als Felsbrocken behandelt wird, der einen Hügel hinunterrollt. Beim Nesterov-Impuls wird eine kleine Erkenntnis hinzugefügt, sodass zuerst der Impulsschritt angewendet und dann der Gradient berechnet werden kann. Adam integriert diese Idee zusammen mit der Idee, dass jeder Parameter in einem Modell seine eigene Verlustfläche und Präferenzen dafür hat, wie aggressiv er sich in eine bestimmte Richtung bewegen sollte, sodass ein durchschnittlicher Gradient pro Dimension im Modellraum geschätzt und Aktualisierungen entsprechend skaliert werden. Sowohl für den Gradienten als auch für die Varianz wird ein exponentieller gleitender Durchschnitt genommen, der eine Art Einfluss des vorherigen Gradienten zulässt, der sich zum Mittelwert hinzufügt.

  • 01:05:00 In diesem Abschnitt behandelt das Video Optimierer und Regularisierer beim Deep Learning. Adam wird als Optimierungsalgorithmus erklärt, der eine leichte Anpassung an den Gradientenabstieg darstellt, der beim Deep Learning gut funktioniert. Es hat mehrere Hyperparameter und die Standardeinstellungen funktionieren gut. Regularizer werden dann als eine Technik zur Vermeidung von Overfitting in großen Modellen mit viel Platz zum Speichern von Daten diskutiert. Die L2-Regularisierung beinhaltet das Hinzufügen eines Hyperparameters multipliziert mit der Länge des Gewichtstensorvektors zum Verlust, was das System dazu ermutigt, Modelle mit kleineren Gewichten zu bevorzugen. Die L1-Regularisierung folgt ebenfalls dieser Idee, berechnet jedoch den Abstand unter Verwendung der L1-Norm des Tensorvektors und gibt die Ecken der Verlustfläche an. Der L1-Regulator bevorzugt Sparse-Lösungen, bei denen das System Verbindungen entfernen kann, die keinen Einfluss auf die Ausgabe haben.

  • 01:10:00 In diesem Abschnitt erläutert der Referent das Konzept der Regularisierung beim Deep Learning, bei dem es sich um die Technik handelt, die verwendet wird, um eine Überanpassung von Modellen zu verhindern. Die Regularisierung trägt dazu bei, sicherzustellen, dass das Modell gut auf unsichtbare Daten verallgemeinert werden kann. L1 und L2 sind zwei beliebte Arten der Regularisierung, die beim Deep Learning verwendet werden. Die L2-Regularisierung zieht Modelle in Richtung des Ursprungs und verhindert, dass Gewichtungen zu groß werden, während die L1-Regularisierung eine Rille entlang der Kanten erzeugt. Auch Dropout wird diskutiert, bei dem versteckte Knoten während des Trainings zufällig deaktiviert werden und jeder Knoten gezwungen wird, mehrere Informationsquellen zu berücksichtigen. Abschließend hebt der Redner die Errungenschaften des Deep Learning hervor, darunter ein einzelnes neuronales Netzwerk, das Bilder verarbeitet und Text produziert.

  • 01:15:00 In diesem Abschnitt behandelt das Video verschiedene Bildverarbeitungstechniken mit neuronalen Netzen. Eine interessante Technik ist die Stilübertragung, bei der ein neuronales Netzwerk ein Foto unter Verwendung des Stils eines bestimmten Gemäldes umwandeln kann. Die Bild-zu-Bild-Übersetzung ist eine weitere Technik, bei der ein Netzwerk lernt, fehlende Teile eines Bildes basierend auf einem Training mit entsättigten oder kantenerfassten Bildern zu erzeugen. Faltungsschichten tragen dazu bei, das Netzwerk effizienter zu machen, indem sie Gewichte teilen und den Parameterraum reduzieren, was besonders wichtig für die Verarbeitung von Bildern ist. Insgesamt hebt das Video das unglaubliche Potenzial neuronaler Netze in der Bildverarbeitung hervor, betont aber auch, wie wichtig es ist, die Architektur auf der Grundlage von Domänenwissen sorgfältig zu entwerfen, um die besten Ergebnisse zu erzielen.

  • 01:20:00 In diesem Abschnitt erklärt der Referent, wie Convolutional Neural Networks funktionieren, bei denen es sich um eine Art künstliches Feedforward-Neuronales Netz handelt, das üblicherweise für Bilderkennungs- und Klassifizierungsaufgaben verwendet wird. Die Schlüsselidee hinter diesen Netzwerken besteht darin, die Anzahl der Parameter durch die Verwendung gemeinsamer Gewichtungen zu begrenzen und die Auflösung des Bildes durch die Verwendung einer Max-Pooling-Schicht zu reduzieren. Sie bestehen aus einer Reihe vollständig verbundener Schichten, denen eine oder mehrere Faltungsschichten folgen, die ein als Kernel bezeichnetes Schiebefenster verwenden, um das Eingangsbild zu filtern und das Ausgangsbild mit modifizierten Kanälen zu erzeugen. Durch die Verkettung dieser Faltungs- und Max-Pooling-Schichten und das Hinzufügen einiger vollständig verbundener Schichten kann ein grundlegendes Bildklassifizierungsnetzwerk erstellt werden, das hochgenaue Ergebnisse liefert.

  • 01:25:00 In diesem Abschnitt erörtert der Referent die Visualisierung dessen, was ein Convolutional Neural Network tatsächlich tut, indem er Knoten hoch oben im Netzwerk betrachtet, um zu sehen, welche Art von Eingabe eine hohe Reaktion auslöst. Die erste Schicht des Netzwerks reagiert hauptsächlich auf die Kantenerkennung, während die nächste Schicht die einzelnen Kanten zu Merkmalen zusammensetzt. Dieser Prozess setzt sich fort, baut schrittweise Darstellungen auf und endet mit ganzen Gesichtern. Um weiter zu untersuchen, wie das neuronale Netzwerk funktioniert, beschreibt der Referent die Optimierung der Eingabe, um ein bestimmtes Neuron zu aktivieren, was zu abstrakten, kunstähnlichen Bildern führt. Durch die Untersuchung dieser Bilder kann der Sprecher feststellen, auf welche Merkmale das Neuron reagiert, beispielsweise auf vogelähnliche Merkmale oder Hunde. Abschließend erklärt der Referent, dass ein wesentlicher Unterschied zwischen traditionellem maschinellem Lernen und Deep Learning die Idee des End-to-End-Lernens ist, bei dem eine Pipeline nicht erforderlich ist und das Netzwerk beispielsweise Zeitungen analysieren und die Verarbeitung natürlicher Sprache ohne eine durchführen kann mehrstufiges Verfahren.

  • 01:30:00 In diesem Abschnitt erläutert der Referent die Einschränkungen bei der Verkettung mehrerer Module mit hoher Genauigkeit bei der Durchführung von maschinellen Lernaufgaben. Die kumulativen Fehler von jedem Modul können eine verrauschte Eingabe für nachfolgende Module erzeugen, was die Genauigkeit des Gesamtsystems erheblich verringert. End-to-End-Lernen wird dann als Lösung für dieses Problem eingeführt. Anstatt das Training für jedes Modul zu isolieren, wird die gesamte Pipeline als Ganzes trainiert, um mithilfe einer Gradientenabstiegsmethode End-to-End aus Rohdaten zu lernen. Dies macht den Ansatz flexibler und ermöglicht es dem Deep-Learning-System, eine breitere Palette von Problemen zu lösen.
 

8 Wahrscheinlichkeit 2: Maximum Likelihood, Gaußsche Mischungsmodelle und Erwartungsmaximierung (MLVU2019)



8 Wahrscheinlichkeit 2: Maximum Likelihood, Gaußsche Mischungsmodelle und Erwartungsmaximierung (MLVU2019)

Dieser Abschnitt des Videos konzentrierte sich auf Wahrscheinlichkeitsmodelle für die Dichteschätzung unter Verwendung von Maximum-Likelihood-Schätzung, Normalverteilungen, Gaußschen Mischungsmodellen und Erwartungsmaximierungsalgorithmus. Der Referent erläuterte das Maximum-Likelihood-Prinzip und zeigte seine Anwendung bei der Auswahl des besten Wahrscheinlichkeitsmodells. Sie untersuchten Normalverteilungen, erklärten den Unterschied zwischen Wahrscheinlichkeits- und Wahrscheinlichkeitsdichtefunktionen und führten Gaußsche Mischungsmodelle ein. Der Referent erörterte auch die Methode der Stichprobenziehung aus einer univariaten und multivariaten Normalverteilung und wie das Gaußsche Mischungsmodell dabei hilft, verschiedene Cluster innerhalb einer Population zu identifizieren. Zusätzlich wurde der Erwartungsmaximierungsalgorithmus eingeführt, um Gaußsche Mischungsmodelle an Datensätze anzupassen. Der Referent erläuterte auch, wie man den Erwartungsmaximierungs-Ansatz mithilfe der Q-Funktions-Approximation formalisiert und bewies, dass er gegen ein lokales Optimum konvergiert.

Dieses Video behandelt die Themen Maximum Likelihood, Gaussian Mixture Models und Expectation Maximization (EM). Der Referent erklärt den EM-Algorithmus, seinen Beweis und warum er konvergiert. Sie diskutieren auch den M-Schritt, bei dem sie L maximieren, indem sie Theta wählen, während Q fest bleibt. Das Anpassen eines Gaußschen Mischungsmodells an Daten erfordert die Verwendung des EM-Algorithmus, und der Referent erklärt seine Anwendungen wie Clustering und explorative Analyse und wie es für die Klassifizierung verwendet werden kann, indem ein Gaußsches Mischungsmodell an jede Klasse angepasst wird. Das Video erwähnt auch die bevorstehende Vorlesung über das Anpassen von Wahrscheinlichkeitsmodellen an komplizierte neuronale Netze.

  • 00:00:00 In diesem Abschnitt des Videos stellt der Sprecher das Konzept der Verwendung probabilistischer Modelle zur Dichteschätzung vor, indem Wahrscheinlichkeitsverteilungen an Daten angepasst werden. Sie konzentrieren sich speziell auf die Maximum-Likelihood-Schätzung und wenden sie auf vier verschiedene Modelle an, die auf der Normalverteilung oder der Gaußschen Verteilung basieren. Das Video zeigt auch ein Beispiel für die Verwendung des Maximum-Likelihood-Prinzips, um zu bestimmen, welche Münze in einer zufälligen 12-Münzen-Wurfsequenz verwendet wurde, bei der eine Münze gebogen und die andere gerade ist. Anschließend führen sie das Gaußsche Mischungsmodell ein, das ein leistungsfähiges, aber schwierig mit maximaler Wahrscheinlichkeit anzupassendes Modell ist, und tauchen in den Erwartungsmaximierungsalgorithmus ein, um Gaußsche Mischungsmodelle anzupassen.

  • 00:05:00 In diesem Abschnitt wird das Prinzip der maximalen Wahrscheinlichkeit erläutert, das bei der Modellauswahl für maschinelles Lernen verwendet wird. Dabei wird ein Modell an beobachtete Daten angepasst, um das Modell auszuwählen, das diese Daten mit der höchsten Wahrscheinlichkeit liefert. Der Logarithmus der Wahrscheinlichkeit wird normalerweise der Einfachheit halber genommen, und es ist eine monotone Funktion, die sich nicht ändert, wenn die Funktion ihren höchsten Punkt erreicht. Normalverteilungen werden ebenfalls eingeführt, mit Mittelwert und Varianz oder Standardabweichung als Parameter, und sie werden in verschiedenen Modellen verwendet, einschließlich Regression und multivariater Normalverteilung. Gaußsche Mischungsmodelle werden auch als Kombination mehrerer Normalverteilungen diskutiert.

  • 00:10:00 In diesem Abschnitt erörtert der Referent verschiedene Arten von Verteilungen und die Bedeutung einer eindeutigen Skala, die Normalverteilungen bieten. Der Redner geht auch auf den Unterschied zwischen Wahrscheinlichkeitsfunktionen und Wahrscheinlichkeitsdichtefunktionen ein und betont, dass einzelne Ereignisse eine Wahrscheinlichkeitsdichte haben und die Wahrscheinlichkeit durch Integration über diese Dichte erhalten wird. Der Referent führt dann die Normalverteilungsformel ein und zeigt, wie sie die grundlegende Anforderung, eine eindeutige Skala zu haben, durch exponentiellen Abfall erreicht. Die Formel wird weiter verbessert, indem ein quadratischer Term hinzugefügt wird, der den Zerfall noch mehr beschleunigt.

  • 00:15:00 In diesem Abschnitt des Videos erklärt der Moderator, wie eine Wahrscheinlichkeitsdichtefunktion der Normalverteilung durch Neuskalieren und Verschieben einer Grundfunktion erstellt wird. Er zeigt, wie die Wendepunkte verwendet werden können, um die Wahrscheinlichkeitsmasse dort zu platzieren, wo sie am dringendsten benötigt wird, und wie die Größe der Skala gesteuert wird, sowie wie die Funktion verschoben werden kann, um den Mittelwert anzupassen. Abschließend erörtert er die Maximum-Likelihood-Schätzung von Parametern zur Erstellung einer Normalverteilung aus Daten.

  • 00:20:00 In diesem Abschnitt erörtert der Sprecher die Maximum-Likelihood-Schätzung und ihre Anwendung beim Finden des höchsten Punkts in einem Wahrscheinlichkeitsraum. Sie stellen ein Ziel dar, die Summe des Logarithmus der Wahrscheinlichkeiten für die Parameter einer 1D-Gaußschen Verteilung zu maximieren. Sie nehmen dann die Ableitung in Bezug auf den Mittelwert und lösen sie für das Maximum auf. Sie stellen fest, dass der Maximum-Likelihood-Schätzer für den Mittelwert einer Normalverteilung nur der Mittelwert der Daten ist, und der gleiche Ansatz kann angewendet werden, um die Standardabweichung für alle diese Funktionen zu ermitteln. Der Referent erwähnt auch die Existenz einer analytischen Lösung zum Finden des Optimums.

  • 00:25:00 In diesem Abschnitt diskutiert das Video die Normalitätsannahme bei der Regression nach der Methode der kleinsten Quadrate. Das Modell geht davon aus, dass die Daten generiert werden, indem einer Linie ein wenig Rauschen hinzugefügt wird, und die Wahrscheinlichkeitsverteilung der Daten kann als Normalverteilung betrachtet werden. Um die Wahrscheinlichkeit der Parameter des linearen Modells zu maximieren, müssen sie die Wahrscheinlichkeit von Y bei gegebenen X, W und B maximieren. Durch Ausfüllen dieser Gleichung und Berechnen des Logarithmus verschwindet der normalisierende Teil, und die verbleibende Funktion ist am wenigsten ähnlich Quadrate Zielfunktion. Die multivariate Verteilung wird ebenfalls diskutiert, wobei der Mittelwert am Ursprung liegt und die Wahrscheinlichkeitsdichte mit zunehmender Entfernung exponentiell abnimmt.

  • 00:30:00 In diesem Abschnitt erörtert der Sprecher die Verwendung einer linearen Transformation, um einen Einheitskreis, der den größten Teil der Wahrscheinlichkeitsmasse einer normalisierten Glockenkurve enthält, im Raum zu verschieben, um ihn an die Daten anzupassen. Die lineare Transformation definiert eine Matrix und einen Vektor T, der auf den zuerst normierten Einheitskreis angewendet wird, so dass das Gesamtvolumen unter der Kurve berechnet und durch ihn dividiert wird. Die Anwendung dieser Transformation dehnt den Kreis in eine bestimmte Richtung aus und sprengt die Wahrscheinlichkeitsdichte. Um dies zu korrigieren, wird die Determinante der Matrix durch das vergrößerte Volumen dividiert, um die Wahrscheinlichkeitsdichte eines bestimmten Punkts unter der transformierten Gauß-Funktion zu erhalten.

  • 00:35:00 In diesem Abschnitt erörtert der Referent die Methode der Stichprobenziehung aus einer nicht standardmäßigen univariaten Normalverteilung mit einem gegebenen Mittelwert und Sigma. Dazu kann man x aus der Standardnormalverteilung abtasten, mit der Varianz multiplizieren und den Mittelwert addieren, um eine Stichprobe aus der gewünschten Verteilung zu erhalten. In ähnlicher Weise umfasst die Stichprobenziehung aus einer multivariaten Normalverteilung mit einem gegebenen Mittelwert und Sigma die Zerlegung des Sigmas, die Stichprobenziehung aus der Standardverteilung und die Anwendung einer linearen Transformation. Der Referent stellt auch das Konzept eines Gaußschen Mischungsmodells vor, das nach der Pause im Mittelpunkt der Diskussion stehen wird. Der Referent verwendet ein Beispiel für Notenverteilungen, um das Konzept verschiedener Grundgesamtheiten innerhalb einer Stichprobe zu veranschaulichen.

  • 00:40:00 In diesem Abschnitt erörtert der Referent das Gaußsche Mischungsmodell und wie es dabei helfen kann, verschiedene Cluster innerhalb einer Population zu identifizieren. Indem drei separate Normalverteilungen mit unterschiedlichen Gewichtungen und Skalierungen erstellt werden, weist die resultierende Wahrscheinlichkeitsdichtefunktion drei Spitzen oder Modi auf. Um dieses Modell an die Daten anzupassen, wird das Maximum-Likelihood-Ziel verwendet, um die besten Gaußschen Mischungsmodellparameter zu bestimmen. Obwohl der Gradient in einigen Fällen nützlich sein kann, ist es aufgrund der Summe im Logarithmus nicht einfach, damit zu arbeiten. Stattdessen wird der Erwartungsmaximierungsalgorithmus verwendet, der dem k-Means-Clustering-Algorithmus ähnlich ist, um die optimale Clusterung der Daten zu finden.

  • 00:45:00 In diesem Abschnitt erörtert das Video die Verwendung von Gaußschen Mischungsmodellen, bei denen es sich im Wesentlichen um ein Modell mit verborgenen Variablen handelt, bei dem ein zufälliger Wertesatz abgetastet und verwendet wird, um einen Wert X aus verschiedenen Komponenten mit ihren jeweiligen Gewichtungen abzutasten. Das Problem ist jedoch, dass nur die X-Werte betrachtet und die Z-Werte ausgeblendet werden. Die Lösung besteht in der Verwendung des Erwartungsmaximierungsalgorithmus (EML), der den Prozess der zufälligen Vermutung der Komponenten wiederholt, jedem Punkt weiche Verantwortlichkeiten zuweist, Verteilungen an die Datenteilmengen anpasst und die Verteilung anhand der gegebenen Werte herleitet X-Werte. Durch diesen iterativen Prozess kann der Algorithmus die Modellparameter schätzen und die Wahrscheinlichkeit der Daten maximieren.

  • 00:50:00 In diesem Abschnitt behandelt das Video den EM-Algorithmus (Expectation-Maximization), der verwendet wird, um Gaußsche Mischungsmodelle an Datensätze anzupassen, bei denen einige Punkte wichtiger sind als andere. Der Algorithmus funktioniert, indem er jedem Punkt zunächst weiche Verantwortlichkeiten zuweist, was bedeutet, dass jeder Punkt einen Teil der Verantwortung von jeder Komponente hat. Diese Verantwortlichkeiten werden dann verwendet, um ein Gaußsches Modell an den gewichteten Datensatz anzupassen, wobei der Mittelwert und die Varianz unter Verwendung von gewichteten Mittelwerten und Varianzen berechnet werden. Der Prozess iteriert durch Erwartungs- und Maximierungsschritte, bis eine gute Anpassung erreicht ist. Das Video zeigt eine Visualisierung dieses Prozesses und zeigt, wie sich das Modell zu den wichtigeren Punkten hin verschiebt, bis eine gute Anpassung gefunden ist.

  • 00:55:00 In diesem Abschnitt erörtert der Sprecher die Formalisierung der intuitiven Natur der Erwartungsmaximierung und wie man beweist, dass sie gegen ein lokales Optimum konvergiert. Durch die Verwendung von Q-Funktionen als Annäherungen an die wahre Wahrscheinlichkeit kann die Wahrscheinlichkeitsfunktion in zwei Terme zerlegt werden: die KL-Divergenz und die L-Funktion, die misst, wie gut die Annäherung ist. Durch Logarithmieren dieser Terme zeigt der Sprecher, dass die L-Funktion berechnet werden kann, indem der Logarithmus des angenäherten Q-Satzes vom Logarithmus des Likelihood-Funktionssatzes bei gegebenen optimalen Parametern subtrahiert wird. Diese Zerlegung ist nützlich, um die Konvergenz des Erwartungsmaximierungsansatzes zu verstehen und zu beweisen.

  • 01:00:00 In diesem Abschnitt diskutiert der Sprecher den Beweis des EM-Algorithmus und warum er konvergiert. Es wird gezeigt, dass durch Umordnen der gemeinsamen Verteilung und der bedingten Verteilung der Erwartungswert des Logarithmus von x bei gegebenem Theta als eine Konstante in Bezug auf Q geschrieben werden kann. Dann erklärt der Sprecher, wie der EM-Algorithmus in Bezug auf die KL-Divergenz neu definiert werden kann und Auswählen des Hinweises bei gegebenen Daten und willkürlichem Theta, um die KL-Divergenz 0 zu machen, während die Daten fest gehalten werden, was dazu führt, dass L den gesamten Raum abdeckt und die maximale Wahrscheinlichkeit erreicht wird.

  • 01:05:00 In diesem Abschnitt erklärt der Sprecher den M-Schritt, bei dem er L maximiert, indem er Theta wählt, um L zu maximieren, während Q fest bleibt. Sie erklären, wie dieser Schritt zu einer Erhöhung der Wahrscheinlichkeit führt und warum die E/M-Iteration die Wahrscheinlichkeit ständig erhöht. Der Referent erklärt auch, wie sie den M-Schritt in ein Maximierungsziel einarbeiten und Maximum-Likelihood-Schätzer für den Erwartungsmaximierungsalgorithmus ableiten können. Sie diskutieren die Anwendungen dieser Technik, wie z. B. Clustering und explorative Analyse, und wie sie zur Klassifizierung verwendet werden kann, indem ein Gaußsches Mischungsmodell an jede Klasse angepasst wird.

  • 01:10:00 In diesem Abschnitt erörtert der Referent Gaußsche Mischungsmodelle und wie sie viele Formen annehmen können, wodurch sie viel leistungsfähiger sind als Normalverteilungen. Das Anpassen eines Gaußschen Mischungsmodells an Daten erfordert die Verwendung des Erwartungsmaximierungsalgorithmus, da es keine analytische Lösung in geschlossener Form für die Maximum-Likelihood-Anpassung gibt. Sobald das Modell jedoch angepasst ist, kann es auf verschiedene Weise verwendet werden, z. B. unter Verwendung des Basisklassifikators, um neue Punkte basierend auf ihrer Wahrscheinlichkeitsdichte zu klassifizieren. Im nächsten Vortrag plant der Referent, versteckte Variablenmodelle in neuronalen Netzen zu diskutieren und wie Wahrscheinlichkeitsmodelle an komplizierte neuronale Netze angepasst werden können.
 

Vorlesung 9 Deep Learning 2: Generative Modelle, GANs, Variational Autoencoders (VAEs) (MLVU2019)



9 Deep Learning 2: Generative Modelle, GANs, Variational Autoencoders (VAEs) (MLVU2019)

Das Video behandelt verschiedene Themen im Zusammenhang mit Deep Learning, darunter aufgeteilte Daten für Deep-Learning-Projekte, Transfer Learning und einen Schwerpunkt auf generative Modelle. Der Referent untersucht das Konzept der Verwendung neuronaler Netze zur Generierung zufälliger Ergebnisse und Wahrscheinlichkeitsverteilungen und erläutert verschiedene Methoden zum Training von Generatoren wie Generative Adversarial Networks und Autoencoder. Sie befassen sich auch mit der Bedeutung von GANs, bedingten GANs, Steganographie und Auto-Encodern in verschiedenen Anwendungen des maschinellen Lernens wie Datenmanipulation und Dimensionsreduktion. Der Redner diskutiert die Manipulation von Daten im latenten Raum für High-Level-Manipulationen von Daten ohne stark gekennzeichnete Daten und die Notwendigkeit eines alternativen Ansatzes wie Variations-Autoencoder.

Dieser zweite Teil des Videos untersucht Variational Autoencoder (VAEs), eine Art generatives Modell, das darauf abzielt, das Problem des Mode Collapse zu lösen, das häufig bei anderen Modellen auftritt. Zwei neuronale Netze werden verwendet, um Eingaben in den latenten Raum zu codieren und sie zurück in den Eingaberaum zu decodieren, was eine Optimierung sowohl der Codierung als auch der Decodierung ermöglicht. Der Sprecher zerlegt die Verlustfunktion in einen KL-Divergenzterm und einen erwarteten Log-Likelihood-Term, der zum Optimieren des Netzwerks verwendet werden kann. Die Herausforderungen bei der Maximierung einer Erwartung in VAEs werden erläutert, und der Reparametrierungstrick wird als Möglichkeit zur Überwindung dieses Problems diskutiert. Der Referent vergleicht VAEs mit anderen Techniken wie GANs und PCA und kommt zu dem Schluss, dass VAEs zwar leistungsfähiger, aber auch schwieriger zu trainieren sind.

  • 00:00:00 In diesem Abschnitt erinnert der Sprecher die Zuhörer daran, ihre Daten in Trainings- und Testsätze aufzuteilen, bevor sie sich die Daten ansehen, da sie, sobald sie gesehen wurden, nicht mehr ungesehen bleiben können. Für diejenigen, die an Deep-Learning-Projekten arbeiten, schlagen sie vor, Transfer Learning zu verwenden, um leistungsstarke Modelle ohne teures Training zu erstellen, indem sie ein vortrainiertes Netzwerk von Unternehmen wie Google verwenden und ihre eigenen Schichten darüber hinzufügen. Dies ist eine gute Option für diejenigen, die keinen Zugang zu großen Maschinen mit großen GPUs haben. Darüber hinaus empfiehlt der Referent, die Rubrik für das Projekt zu überprüfen, um sicherzustellen, dass alle wichtigen Aspekte für ein einfaches Bestehen abgedeckt sind.

  • 00:05:00 In diesem Abschnitt behandelt das Video Deep Learning für die generative Modellierung, bei der ein neuronales Netzwerk darauf trainiert wird, eine Wahrscheinlichkeitsverteilung zu erzeugen, aus der neue Dinge abgetastet werden können, z. B. Bilder oder Sprachbestandteile. Der erste Schritt besteht darin, ein neuronales Netzwerk namens Generator aufzubauen, das diese neuen Dinge produzieren kann. Als Beispiel wird ein neuronales Netzwerk gezeigt, das darauf trainiert wurde, Bilder von Menschen zu erzeugen, die nicht wirklich existieren. Anschließend erläutert das Video die beiden Arten des Trainings von Generatoren, bei denen es sich um generative gegnerische Netzwerke und Autoencoder handelt, wobei der Schwerpunkt auf Variations-Autoencodern als prinzipiellerem Ansatz liegt.

  • 00:10:00 In diesem Abschnitt erklärt der Referent, wie man neuronale Netze verwendet, um zufällige Ergebnisse und Wahrscheinlichkeitsverteilungen zu generieren. Es gibt zwei Möglichkeiten, dies zu tun: indem Sie dem Netzwerk einige Eingaben zuführen und seine Ausgabe als Mittelwert und Sigma einer multivariaten Normalverteilung interpretieren, oder indem Sie zufällige Eingaben aus einer standardmäßigen multivariaten Normalverteilung abtasten und sie durch ein neuronales Netzwerk leiten, um die zu beobachten Ausgang. Der letztere Ansatz kann hochkomplexe und interessante Wahrscheinlichkeitsverteilungen erzeugen, wie das Experiment des Sprechers mit einem zweischichtigen neuronalen Netzwerk zeigt, das eine multivariate Normalverteilung in eine Nicht-Normalverteilung mit komplexer Form umwandelt. Dieser Ansatz kann verwendet werden, um hochkomplexe Verteilungen wie menschliche Gesichter zu modellieren.

  • 00:15:00 In diesem Abschnitt erklärt der Ausbilder die Trainingsschritte für generative Modelle und mögliche Probleme, wie z. Ein naiver Ansatz zum Anpassen der Wahrscheinlichkeitsverteilung, die ein neuronales Netzwerk an einen Datensatz darstellt, ist die Backpropagation, wobei der Abstand zwischen erzeugten und ursprünglichen Bildern als Verlust verwendet wird. Dieser Ansatz schlägt jedoch häufig fehl und führt dazu, dass alle Modi des Datensatzes zu einem Modus zusammenfallen. Der Dozent stellt dann zwei Beispiele für generative Modelle vor, die gut funktioniert haben: Generative Adversarial Networks (GANs) und Variational Autoencoders (VAEs). Der Kursleiter erklärt die Geschichte hinter Convolutional Neural Networks (CNNs), die GANs inspiriert haben, und wie sie durch zwei miteinander konkurrierende Netzwerke arbeiten, um die generierten Bilder zu verbessern. VAEs hingegen haben ein Encoder-Netzwerk, das das Originalbild in eine Wahrscheinlichkeitsverteilung komprimiert, und ein Decoder-Netzwerk, das aus dieser Verteilung ein neues Bild erzeugt.

  • 00:20:00 In diesem Abschnitt diskutiert der Redner eine Technik, die zur Optimierung der Eingabe verwendet wird, um Bilder zu erzeugen, die zu einem bestimmten Ausgabeneuron passen, was zur Entstehung von gegnerischen Beispielen führt, bei denen es sich um gefälschte Bilder handelt, von denen das Netzwerk getäuscht werden kann etwas ganz anderes. Diese Technik war ursprünglich ein Schlag für die Gemeinschaft der neuronalen Netze, führte jedoch zur Entwicklung eines Ad-hoc-Lernalgorithmus, bei dem kontradiktorische Beispiele generiert und als negative Beispiele zum Datensatz hinzugefügt werden. Dieser Ansatz war jedoch nicht ganz effizient, daher wurde eine End-to-End-Lösung namens Vanilla GANs entwickelt, ein grundlegender Ansatz, den der Referent verwendet, um drei weitere Möglichkeiten zu veranschaulichen, auf dem Framework aufzubauen, um beeindruckende Beispiele zu schaffen.

  • 00:25:00 In diesem Abschnitt erklären die Moderatoren, wie GANs (Generative Adversarial Networks) funktionieren. GANs bestehen aus zwei neuronalen Netzwerken, einem Generator, der Ausgaben erzeugt, und einem Diskriminator, der ein Bildklassifizierer ist, der bestimmt, welche der Ausgaben gefälscht sind. Ziel des Gan-Trainings ist es, dem Generatornetzwerk zu ermöglichen, immer realistischere Ergebnisse zu erzielen. Wie der Moderator erklärt, funktionieren der Generator und der Diskriminator wie ein Zwei-Personen-Nullsummenspiel, bei dem jedes Netzwerk versucht, das andere auszutricksen. Der Generator ist dafür verantwortlich, gefälschte Ausgaben zu erzeugen, die den Diskriminator täuschen, und die Aufgabe des Diskriminators besteht darin, diese gefälschten Ausgaben abzufangen. Die Moderatoren erklären, dass die Ausgaben des GAN nach dem Training eine Kombination aus Zieleingabe und Zufälligkeit sein werden.

  • 00:30:00 In diesem Abschnitt erörtert der Referent bedingte GANs, die darauf abzielen, die Fähigkeit zur Datengenerierung mit der Kontrolle über die Ausgabe zu kombinieren. Im Gegensatz zu normalen GANs, die Ausgaben ohne jegliche Kontrolle generieren, verwenden bedingte GANs eine Eingabe, die die Ausgabe steuert, wodurch sie für Datensätze mit mehreren Labels nützlich sind. Der Redner erörtert auch das Zyklus-GAN, das zwei Generatoren verwendet, um zwei ungepaarte Bildpakete abzubilden, und einen Zykluskonsistenzverlustterm hinzufügt, um sicherzustellen, dass, wenn ein Bild hin und her abgebildet wird, das Originalbild erhalten wird. Dies ermöglicht die Erzeugung zusätzlicher Bilder, deren Erstellung andernfalls kostspielig wäre.

  • 00:35:00 In diesem Abschnitt erläutert der Referent das Konzept der Steganografie, bei der ein Code vor aller Augen verborgen wird, und wie es sich auf generative Modelle wie GANs und VAEs bezieht, die ein Bild in einem anderen verbergen. Das Ziel dieser Modelle besteht darin, dass der Diskriminator nicht erkennen kann, dass ein Bild in einem anderen verborgen ist. Der Referent zeigt Beispiele dafür, wie diese Modelle Bilder in verschiedene Stile verwandeln können, wie zum Beispiel die Umwandlung einer Fotografie in ein Monet-Gemälde. Der Redner spricht auch über den Stil GAN, der hyperrealistische Bilder von Menschen generiert, und wie er funktioniert, indem er den latenten Vektor durch ein dekonvolutionelles neuronales Netzwerk speist, das Bilder von semantischen Eigenschaften auf niedriger bis hoher Ebene generiert.

  • 00:40:00 In diesem Abschnitt diskutiert der Redner ein Modell, das die Kontrolle über die Details der generierten Bilder ermöglicht, indem es zufälliges Rauschen in das Netzwerk auf jeder Schicht einspeist. Dieses Verfahren verringert die Arbeitsbelastung des latenten Vektors und ermöglicht auch die Erzeugung einzigartiger Bilder. Der Sprecher demonstriert diese Technik, indem er das Licht und den Vektor an bestimmten Punkten während des Generierungsprozesses ändert, was zu Bildern mit bestimmten Eigenschaften führt, die auf jeder Ebene ausgewählt werden. Dieses Modell bietet eine Steuerungsebene, die über das einfache Generieren hyperrealistischer Gesichter hinausgeht.

  • 00:45:00 In diesem Abschnitt erörtert der Sprecher, was getan werden kann, nachdem ein Generator erstellt wurde. Eine der Techniken wird als Interpolation bezeichnet, bei der zwei Punkte aus dem multivariaten Verteilungsraum genommen und eine Linie zwischen ihnen gezogen werden, gleichmäßig beabstandete Punkte ausgewählt und durch den Generator geleitet werden, um einen Blick auf die allmähliche Transformation von einem Ausgang zum zu ermöglichen nächste. Dies kann auf einem Raster aus gleich beabstandeten Punkten erfolgen, um Ecken auf beliebige Punkte im Beleuchtungsraum abzubilden und so ein Interpolationsraster zu erstellen. Diese latenten Räume sind normalerweise in sphärischen Topologien angelegt, was bedeutet, dass wir uns für die Interpolation auch durch diesen sphärischen Bereich bewegen müssen, der als sphärische Interpolation bekannt ist. Schließlich muss man, um Daten zu manipulieren oder die Dimensionalität zu reduzieren, in den latenten Raum abbilden, was die Verwendung von Autoencodern erfordert, um von der Ausgabe auf den latenten Raum abzubilden.

  • 00:50:00 In diesem Abschnitt erörtert der Referent Auto-Encoder und ihre Bedeutung in verschiedenen maschinellen Lernanwendungen wie Datenmanipulation und Dimensionsreduktion. Auto-Encoder sind neuronale Netze, die dabei helfen, Daten vom Eingang zum latenten Raum und zurück zum Ausgang abzubilden. Die Engpassarchitektur des Netzwerks ermöglicht es, die Merkmale der Eingabe in einer komprimierteren Form zu lernen und zu reproduzieren. Einmal trainiert, kann das Netzwerk eine Anhäufung von latenten Codes in einem zweidimensionalen Raum erzeugen, die semantische Merkmale auf hoher Ebene wie ein lächelndes Gesicht als Anhäufung im Raum anordnen.

  • 00:55:00 In diesem Abschnitt erörtert der Sprecher die Manipulation von Daten im latenten Raum, um Manipulationen auf hoher Ebene an den Daten vorzunehmen, ohne dass viele gekennzeichnete Daten erforderlich sind. Sie zeigen einen einfachen Algorithmus, um jemanden mit verschlüsselten Bildern zum Lächeln zu bringen, die im latenten Raum manipuliert und dann entschlüsselt werden. Der Redner erörtert auch die Einschränkungen von Auto-Encodern und die Notwendigkeit eines alternativen Ansatzes wie dem Variational Auto-Encoder (VAE), der einen Decoder zwingt, Punkte in der Nähe der ursprünglichen Eingabe zu decodieren, aber nicht ganz gleich, um eine ordnungsgemäße Interpolation im Raum sicherzustellen .

  • 01:00:00 In diesem Abschnitt des Videos erläutert der Sprecher Variational Autoencoder (VAEs), eine Art generatives Modell, das es dem Modell ermöglicht, sich auf die Punkte zwischen den Daten zu konzentrieren und sicherzustellen, dass die Daten am Ursprung zentriert sind und hat unkorrelierte Varianz in jeder Richtung. Das Maximum-Likelihood-Prinzip wird verwendet, um das Modell an die Daten anzupassen, und ein neuronales Netzwerk wird verwendet, um das wahre Posterior zu approximieren. Der Zusammenbruch des Modus ist immer noch ein Problem, da es keine Zuordnung von X zu Zed gibt, aber VAEs bieten eine bessere Lösung als frühere Modelle.

  • 01:05:00 In diesem Abschnitt erfahren wir etwas über generative Modelle und wie sie unter Moduskollaps leiden können, bei dem ähnliche Ausgaben für unterschiedliche Eingaben erzeugt werden. Um dies zu beheben, können wir Variations-Autoencoder (VAEs) verwenden, die zwei neuronale Netze verwenden, um Eingaben in eine Verteilung im latenten Raum zu codieren und die latente Raumverteilung in eine Verteilung im Eingaberaum zu decodieren. Wir können die Zerlegung der logarithmischen Wahrscheinlichkeit der Eingabe verwenden, um eine Untergrenze für die tatsächliche Wahrscheinlichkeit zu erhalten, die als Verlustfunktion verwendet werden kann. Dies ermöglicht es uns, die neuronalen Netze sowohl für die Codierung als auch für die Decodierung zu optimieren, was dazu beiträgt, das Problem des Moduskollaps zu lindern.

  • 01:10:00 In diesem Abschnitt erklärt der Referent, wie man die L-Funktion in etwas umschreibt, das in Deep-Learning-Systemen verwendet werden kann. Das Ziel besteht darin, eine Untergrenze für die Wahrscheinlichkeit zu maximieren, und durch Minimieren des negativen L können wir die Wahrscheinlichkeit so weit wie möglich erhöhen. Der Sprecher zerlegt den oberen Teil des Bruchs unter Verwendung der Definition der bedingten Wahrscheinlichkeit und vereinfacht ihn zu einer Summe von Erwartungen, die zur KL-Divergenz und der erwarteten logarithmischen Wahrscheinlichkeit wird. Diese Terme können berechnet und als Verlustfunktion im Deep-Learning-System verwendet werden. Der KL-Term zieht die gesetzten Vektoren zum Ursprung und verdickt sie zu einer Hypersphäre um den Ursprung, während der andere Term eine Erwartung erfordert, was die Implementierung etwas schwieriger macht.

  • 01:15:00 In diesem Abschnitt erörtert der Referent die Herausforderungen bei der Maximierung einer Erwartung im Zusammenhang mit dem Variational Autoencoder (VAE). Der Sprecher erklärt, dass sie sich der Erwartung annähern, indem sie eine Stichprobe nehmen und den Logarithmus der Wahrscheinlichkeitsdichte für jede Stichprobe berechnen und dann den Durchschnitt bilden. Sie setzen L auf 1, um die Dinge einfach zu halten. Sie stellen jedoch fest, dass ihre Methode beim Sampling-Schritt hängen bleibt, der nicht differenzierbar ist. Um dieses Problem zu lösen, integrieren sie den Neuparametrierungstrick, der es ihnen ermöglicht, den Abtastschritt als Teil ihres neuronalen Netzwerks zu implementieren. Dies führt zur Entwicklung des Variational Encoder, einem prinzipiellen Ansatz zum Trainieren eines Generators, der einfacher zu implementieren ist.

  • 01:20:00 In diesem Abschnitt erläutert der Referent den Unterschied zwischen einem generativen Modell namens Generative Adversarial Networks (GANs) und Variational Autoencoders (VAEs). Während GANs eine Abbildung vom latenten Raum zum Datenraum bieten, arbeiten VAEs umgekehrt vom Datenraum zum latenten Raum und zurück zum Datenraum. VAEs bieten eine Interpolation zwischen Elementen der Daten, einschließlich Sprache und diskreter Daten, und sie funktionieren besser als GANs bei der Erzeugung diskreter Variablen. Der Sprecher gibt ein Beispiel dafür, wie VAEs einen Smile-Vektor, ein vorhandenes Papier und den Subtraktions-Sonnenbrillen-Vektor verwenden können, um das Übeltäter-Experiment durchzuführen. Der Referent kommt zu dem Schluss, dass VAEs einen direkten Ansatz von Grundprinzipien bieten, GANs jedoch besser für Bilder geeignet sind.

  • 01:25:00 In diesem Abschnitt vergleicht der Referent Variational Autoencoders (VAEs) mit der Hauptkomponentenanalyse (PCA) und stellt fest, dass beide Techniken zur Dimensionsreduktion und zur Zuordnung von Daten zu einer standardisierten Verteilung verwendet werden, aber VAEs leistungsfähiger und geeigneter sind mehr Dinge. Das Training von VAEs ist jedoch viel schwieriger, da es einen Gradientenabstieg erfordert, während PCA eine analytische Lösung finden kann. Darüber hinaus bietet PCA häufig aussagekräftige Dimensionen auf der Grundlage der Daten, z. B. eine lächelnde Dimension für Gesichter, während die von VAEs erzeugten Dimensionen normalerweise keine Bedeutung haben, es sei denn, es wird auf ein bestimmtes semantisches Merkmal abgezielt.
 

Vorlesung 10 Baummodelle und Ensembles: Entscheidungsbäume, AdaBoost, Gradient Boosting (MLVU2019)



10 Baummodelle und Ensembles: Entscheidungsbäume, AdaBoost, Gradient Boosting (MLVU2019)

Dieser erste Teil des Videos stellt Entscheidungsbäume vor, ein beliebtes Modell für maschinelles Lernen, das für Klassifizierung und Regression verwendet wird und das funktioniert, indem es den Instanzraum segmentiert und eine Klasse für jedes Segment auswählt. Das Video erörtert auch, wie Entscheidungsbäume mithilfe von Informationsgewinnen trainiert werden können und wie Beschneidung dabei helfen kann, Overfitting zu mindern. Der Referent betont, wie wichtig es ist, Daten in Trainings-, Validierungs- und Testsätze aufzuteilen, um Fairness zwischen den Modellen zu gewährleisten. Darüber hinaus diskutiert das Video Ensemble-Lernen, bei dem mehrere Entscheidungsbäume oder andere Modelle trainiert und kombiniert werden, um Probleme wie hohe Varianz und Instabilität anzugehen. Boosting wird auch als Modell-Ensemble-Technik eingeführt, bei der Klassifizierer sequentiell trainiert und die Daten neu gewichtet werden, um das Ensemble zu verbessern. Abschließend wird der Adaboost-Algorithmus erläutert, der Klassifikatoren auswählt, die eine Verlustfunktion minimieren, um das Ensemble zu verbessern.

Dieser zweite Teil des Videos behandelt verschiedene Baummodelle und -ensembles, einschließlich AdaBoost und Gradient Boosting. AdaBoost ist eine beliebte Boosting-Methode für Klassifizierungsmodelle, die Dateninstanzen basierend auf der Leistung des Klassifikators gewichtet. Gradient Boosting umfasst das Initialisieren eines Modells mit einer konstanten Funktion, das Berechnen von Residuen, das Anpassen eines neuen Modells an die gekennzeichneten Residuen und das Hinzufügen zu dem Ensemble. Der Referent erklärt die Unterschiede zwischen Gradient Boosting und AdaBoost und stellt fest, dass Ensembles in der Forschung nicht oft verwendet werden, da sie die Ergebnisse verfälschen können. Darüber hinaus reduziert Bagging die Varianz und Boosting reduziert Bias.

  • 00:00:00 In diesem Abschnitt des Videos stellt der Moderator drei maschinelle Lernmodelle und modale Ensembles vor, die ein beliebter Ansatz in der Produktion und bei Wettbewerben wie Kaggle sind. Der Ansatz kombiniert die Grundidee des Entscheidungsbaumlernens, ein Klassifikationsmodell oder Regressionsmodell, und die Ensemble-Methode, die viele Modelle trainiert und sie kombiniert, um das Modell stärker zu machen. Der Moderator erklärt auch, dass Entscheidungsbäume sowohl mit numerischen als auch mit kategorialen Merkmalen funktionieren; Sie werden hauptsächlich für kategoriale Merkmale verwendet. Der Abschnitt endet mit der Einführung eines Datensatzes über Filme, der verwendet wird, um das Entscheidungsbaummodell zu demonstrieren.

  • 00:05:00 In diesem Abschnitt erläutert das Video, wie Entscheidungsbäume funktionieren und wie sie mit Datensätzen trainiert werden können. Der Lernprozess des Entscheidungsbaums umfasst das Finden eines guten Merkmals zum Aufteilen, das schrittweise Erweitern des Baums und das Erstellen von Teilmengen der Daten. Die Aufteilungen werden bestimmt, indem innerhalb jeder Teilmenge die am wenigsten gleichmäßige Verteilung von Klassenbezeichnungen erstellt wird. Ein Beispiel wird für einen Datensatz zu Filmbewertungen und Genres gegeben, bei dem die Aufteilung nach Bewertungen keine gute Verteilung der Klassen ergibt, die Aufteilung nach Genre jedoch schon.

  • 00:10:00 In diesem Abschnitt erklärt das Video, wie Entscheidungsbäume funktionieren, indem der Instanzraum segmentiert und eine bestimmte Klasse für jedes Segment ausgewählt wird. Der Baum wird erweitert, indem für jedes Blatt neue Teilungen ausgewählt werden, aber es ist nicht sinnvoll, dasselbe kategoriale Merkmal in einem Pfad von der Wurzel zum Blatt zweimal zu teilen. Die Stoppbedingungen liegen vor, wenn alle Eingaben oder alle Ausgaben gleich sind und die Ungleichmäßigkeit durch die Verteilung der Klassen auf die Segmente bestimmt wird. Dies kann bei drei oder mehr Klassen schwierig sein, da der Anteil jeder Klasse berücksichtigt werden muss.

  • 00:15:00 In diesem Abschnitt erklärt der Referent, wie die Entropie als Maß für die Gleichmäßigkeit einer Verteilung verwendet werden kann und wie der Informationsgewinn eines Merkmals in der Entscheidungsbaumklassifikation berechnet wird. Entropie ist ein Maß dafür, wie gleichmäßig eine Verteilung ist, wobei eine gleichmäßige Verteilung eine höhere Entropie hat. Der Referent demonstriert dies anhand von zwei Verteilungen und verwendet die Formel für die Entropie, um zu zeigen, dass die gleichmäßige Verteilung eine Entropie von zwei Bits hat, während die ungleichmäßige Verteilung aufgrund ihrer erhöhten Effizienz bei der Übertragung von Informationen mit kürzeren Codes eine viel geringere Entropie hat. Bedingte Entropie, die nur eine Entropie ist, die von etwas bedingt ist, wird ebenfalls erklärt, und der Informationsgewinn eines Merkmals wird berechnet, indem die generische Entropie genommen wird, bevor das Merkmal gesehen wird, abzüglich der Entropie, nachdem das Merkmal gesehen wurde.

  • 00:20:00 In diesem Abschnitt wird der Vorgang des Aufteilens des Baums anhand von Merkmalen mit dem höchsten Informationsgewinn ausführlich erläutert. Der Algorithmus beginnt mit einem unbeschrifteten Blatt und wiederholt sich, bis alle Blätter beschriftet sind. Für jedes unbeschriftete Blatt mit dem Segment überprüft der Algorithmus die Stoppbedingung, die darin bestehen könnte, dass die Features ausgehen oder dass alle Instanzen dieselbe Klasse haben. Ist die Stoppbedingung nicht erfüllt, wird das Blatt auf das Merkmal mit dem höchsten Informationsgewinn gespalten. Der Schwellenwert für numerische Merkmale wird gewählt, um den Informationsgewinn zu maximieren, und ein Entscheidungsbaum-Klassifikator mit numerischen Merkmalen kann eine kompliziertere Entscheidungsgrenze haben, da die Möglichkeit besteht, dasselbe Merkmal mehrmals mit unterschiedlichen Schwellenwerten aufzuteilen.

  • 00:25:00 In diesem Abschnitt erörtert der Referent das Problem der Überanpassung bei der Verwendung großer und komplexer Entscheidungsbäume. Sie erklären, wie die Trainingsgenauigkeit mit der maximalen Größe des Baums zunehmen kann, die Genauigkeit von Test- oder Validierungsdaten jedoch massiv abnehmen kann. Um dieses Problem anzugehen, stellt der Referent das Konzept des Pruning vor und wie es hilft, Overfitting zu mindern. Sie betonen auch die Bedeutung der Aufteilung von Daten in Trainings-, Validierungs- und Testsätze für die Hyperparameterauswahl und die Modellsuche, um Fairness zwischen den Modellen sicherzustellen. Abschließend stellt der Referent fest, dass Tools wie SK Learn während des Trainingsprozesses automatisch einige Trainingsdaten zurückhalten, um sie zu beschneiden.

  • 00:30:00 In diesem Abschnitt spricht der Referent über Regressionsbäume, die verwendet werden, wenn das Ziellabel keine Klasse, sondern ein numerischer Wert ist. Die Grundprinzipien sind die gleichen wie bei Entscheidungsbäumen, es gibt jedoch einige Unterschiede zu beachten. Erstens werden in Regressionsbäumen die Blätter mit Zahlen anstelle von Klassen beschriftet. Der Mittelwert oder Median wird häufig verwendet, um Instanzen im Segment zu kennzeichnen. Zweitens wird anstelle der Entropie die Varianz verwendet, um zu bestimmen, auf welches Merkmal bei jedem Schritt aufgeteilt werden soll, wodurch die gewonnenen Informationen maximiert werden. Der Redner diskutiert auch eine Generalisierungshierarchie für den Modellraum, wobei das am stärksten generalisierende Modell eine konstante Funktion ist und das Hinzufügen weiterer Teilungen die Komplexität des Modells erhöht.

  • 00:35:00 In diesem Abschnitt erörtert der Referent Entscheidungsbäume und Regressionsbäume als Modelle und ihre Einschränkungen wie hohe Varianz und Instabilität. Die Lösung für diese Probleme besteht darin, mehrere Entscheidungsbäume zu trainieren und sie zu einem Ensemble zu kombinieren, was eine beliebte Technik ist. Das Ziel des Ensemble-Lernens ist es, den Bias- und Varianz-Kompromiss zu lösen, wobei Bias ein strukturelles Problem ist und Varianz die Streuung von Modellfehlern ist. Ensemble-Lernen hilft, diese Probleme zu lösen, und es ist möglich, Entscheidungsbäume mit anderen Modellen zu kombinieren. Die Analogie der Benotung von Studentenprojekten mit einer Rubrik wird verwendet, um eine hohe Verzerrung und eine geringe Varianz zu erklären.

  • 00:40:00 In diesem Abschnitt erörtert der Referent das Problem von Bias und Varianz beim maschinellen Lernen und wie Bootstrapping helfen kann, dieses Problem anzugehen. Aufgrund des begrenzten verfügbaren Datensatzes kann es schwierig sein festzustellen, ob die beobachtete Entfernung vom Ziel auf eine hohe Verzerrung oder eine hohe Varianz zurückzuführen ist. Bootstrapping adressiert dieses Problem, indem es den Prozess des Samplings aus einem anderen Datensatz simuliert, indem der ursprüngliche Datensatz durch Ersetzen neu abgetastet wird, um einen neuen Beispieldatensatz zu erstellen. Durch die Analyse der kumulativen Dichtefunktion der empirischen Verteilung wird deutlich, dass das Resampling aus dem ursprünglichen Datensatz der Stichprobe aus der ursprünglichen Datenverteilung näherungsweise entspricht, wodurch die Erkennung hoher Varianzen durch die Erstellung verschiedener Datensätze zum Trainieren ermöglicht wird.

  • 00:45:00 In diesem Abschnitt erklärt das Video Bootstrap-Aggregation oder Bagging, bei dem der Datensatz neu abgetastet und mehrere Modelle für jeden Datensatz neu abgetastet werden. Die Modelle werden dann kombiniert, indem sie ihr Mehrheitsvotum erhalten, um neue Daten zu klassifizieren, und die Methode reduziert die Variabilität, aber nicht die Verzerrung. Darüber hinaus diskutiert das Video das Boosten, das dabei hilft, eine schwache Modellfamilie gemeinsam zu stärken, um eine geringere Verzerrung zu erreichen. Beim Boosten wird dem Datensatz eine kleine Spalte namens Gewicht hinzugefügt, die angibt, wie wichtig jede Funktion an einem bestimmten Punkt im Lernprozess ist. Die allgemeine Idee des Boostens besteht darin, mit einem Klassifikator, M0, zu beginnen, der alles sein kann – ein linearer Klassifikator, ein konstantes Modell oder einer, der eine Mehrheitsklasse ausgibt.

  • 00:50:00 In diesem Abschnitt wird das Konzept des Anhebens als Modell-Ensemble-Technik vorgestellt. Beim Boosten werden Klassifikatoren nacheinander trainiert und die Daten neu gewichtet, indem die Gewichtung für die Instanzen erhöht wird, die die vorherigen Klassifikatoren falsch machen, und die Gewichtung für die Instanzen verringert wird, die sie richtig gemacht haben. Den Klassifizierern wird ein Gewicht gegeben, basierend darauf, wie wichtig sie bei der Verbesserung des Ensembles sind, und das endgültige Ensemble ist eine Summe aller Modelle, die mit ihren jeweiligen Gewichten trainiert wurden. AdaBoost ist ein prinzipiellerer Ansatz zum Boosten und beinhaltet die Definition einer Fehlerfunktion zur Minimierung und die Verwendung gewichteter Trainingsdaten. Die Fehlerfunktion wird verwendet, um das Gewicht zu bestimmen, das jedem Modell in der Gesamtheit gegeben wird.

  • 00:55:00 In diesem Abschnitt des Videos erklärt der Sprecher die in Adaboost verwendete Verlustfunktion und wie sie minimiert wird, um den nächsten Klassifikator auszuwählen, der dem Ensemble hinzugefügt werden soll. Er beschreibt, wie der Fehler für jede Instanz im Datensatz berechnet wird, indem das Exponential der Differenz zwischen dem Ziellabel und dem vorhergesagten Label genommen wird, und zeigt, wie dieser Fehler über den gesamten Datensatz summiert wird, um den Fehler des aktuellen Ensembles zu ergeben . Der Sprecher erklärt dann, wie dieser Fehler weiter zu einer neuen Funktion vereinfacht wird, die minimiert werden kann, indem der nächste Klassifikator ausgewählt wird, um die Summe der Gewichte von falsch klassifizierten Instanzen zu minimieren, was der einzige Teil der Gleichung ist, der durch die Wahl von beeinflusst werden kann Klassifikator. Insgesamt funktioniert der Adaboost-Algorithmus, indem er iterativ Klassifikatoren auswählt, die diese Verlustfunktion minimieren, wodurch das Gewicht falsch klassifizierter Instanzen effektiv erhöht und die Häufigkeit von Fehlklassifizierungen in zukünftigen Iterationen reduziert wird.

  • 01:00:00 In diesem Abschnitt erläutert der Referent den AdaBoost-Algorithmus, eine beliebte Boosting-Methode für Klassifikationsmodelle. Um ein Ensemble zu erstellen, beginnt der Algorithmus mit einem bestimmten Klassifikator, und Gewichtungen werden für jede Dateninstanz entsprechend der Leistung des Klassifikators für diese Instanz berechnet. Ein neuer Klassifizierer wird darauf trainiert, die Gewichtssumme der falschen Klassifikationen zu minimieren, und diesem neuen Klassifizierer wird ein Gewicht gegeben, das berechnet wird, indem das Exponential des Fehlers genommen und dann der Wert von a ermittelt wird, der den Gesamtfehler minimiert. Dieser Vorgang wird für eine festgelegte Anzahl von Schritten wiederholt, und das endgültige Modell im Ensemble ist das Ergebnis. Der Referent erklärt auch den Unterschied zwischen Boosting und Bagging und stellt Gradient Boosting vor, eine Variante des Boostings, die für Regressionsmodelle entwickelt wurde.

  • 01:05:00 In diesem Abschnitt erörtert der Referent die Grundidee der Gradientenverstärkung, bei der ein Modell mit der konstanten Funktion initialisiert und die Residuen des bisherigen Ensembles berechnet werden. Dann wird ein neues Modell an den Datensatz angepasst, der anstelle der ursprünglichen Beschriftungen mit Residuen gekennzeichnet ist, der mit einem Gammawert gewichtet zu dem Ensemble hinzugefügt wird. Das Modell kann rekursiv als M3 = M2 + ein anderes Modell geschrieben werden, wodurch die Summe langsam erweitert wird. Es wird als Gradientenverstärkung bezeichnet, weil es die Berechnung des Gradienten in einem Super-Overfitting-Modell für die Verlustfunktion der Summe der quadrierten Fehler beinhaltet, die nur die Differenz zwischen der Modellausgabe und der Zielausgabe oder dem Restgradienten ist.

  • 01:10:00 In diesem Abschnitt erklärt der Sprecher, wie Gradient Boosting funktioniert, indem er einem Modell mitteilt, dem Gradienten im Vorhersageraum zu folgen. Gradient Boosting ermöglicht das Ersetzen der Verlustfunktion durch eine andere Verlustfunktion, wie z. B. den L1-Verlust anstelle des L2-Verlusts. Indem man die Ableitung des Verlustwerts in Bezug auf die Modellausgabe nimmt und die Kettenregel anwendet, kann man den Sinus der Residuen anstelle der Residuen selbst berechnen und den nächsten Klassifizierer im Ensemble trainieren, um den Sinus der Residuen vorherzusagen. Dieses Verfahren ermöglicht die Optimierung verschiedener Verlustfunktionen bei der Gradientenanhebung.

  • 01:15:00 In diesem Abschnitt werden die Unterschiede zwischen Gradient Boosting und ADA Boost erklärt. Beim Gradient Boosting passt jedes Modell zu den Pseudo-Residuen des vorherigen Modells, während beim ADA-Boost jedes neue Modell zu einem neu gewichteten Datensatz passt, der auf der Leistung des vorherigen Modells basiert. Gradient Boosting funktioniert besser für Modelle, die keine Verlustfunktion optimieren und nicht durch von Kalkülen inspirierte Lernmethoden arbeiten. Stacking hingegen ist eine einfache Technik, die die Beurteilungen mehrerer Modelle zu einer Ausgabe kombiniert. Diese Technik wird verwendet, um einen zusätzlichen Leistungsschub zu erzielen, nachdem Sie eine Handvoll Modelle trainiert haben und diese zu einem noch besseren Modell kombinieren möchten.

  • 01:20:00 In diesem Abschnitt erklärt der Sprecher, dass Ensembles zwar einen Vorteil gegenüber einzelnen Modellen bieten, aber in der Forschung nicht viel verwendet werden, da Modelle isoliert getestet werden müssen, um sie ohne Verstärkung zu vergleichen, was die Ergebnisse verfälschen kann. Darüber hinaus können Ensembles teuer sein, wenn sie mit riesigen neuronalen Netzen verwendet werden, und werden daher meistens mit winzigen Modellen wie Entscheidungsstempeln oder kleinen Entscheidungsbäumen verwendet. Der Redner wiederholt auch, dass das Bagging Varianten reduziert und das Boosten Verzerrungen reduziert.
Grund der Beschwerde: