Maschinelles Lernen und neuronale Netze - Seite 41

 

Vorlesung 3 – Skalierung Gaußscher Prozesse – Jonathan Wenger



Numerik von ML 3 – Skalierung Gaußscher Prozesse – Jonathan Wenger

Jonathan Wenger erläutert im Video „Numerics of ML 3“ Techniken zum Skalieren von Gaußschen Prozessen für große Datensätze. Er untersucht iterative Methoden zur Lösung linearer Systeme und zum Erlernen der Matrixinversen, mit dem primären Ziel, Verallgemeinerung, Einfachheit/Interpretierbarkeit, Unsicherheitsschätzungen und Geschwindigkeit zu erreichen. Wenger führt Annäherungen mit niedrigem Rang an die Kernmatrix ein, wie z. B. die iterative Cholesky-Zerlegung, partielle Cholesky- und konjugierte Gradientenmethoden. Er erörtert auch die Vorkonditionierung zur Beschleunigung der Konvergenz und Verbesserung der Stabilität beim Umgang mit großen Datensätzen. Schließlich schlägt er vor, eine orthogonale Matrix Z zu verwenden, um die Spur einer Matrix neu zu schreiben, was möglicherweise zu einer quadratischen Zeit zum Skalieren von Gaußschen Prozessen führen könnte.

Im zweiten Teil der Vorlesung diskutiert Jonathan Wenger in diesem Video die Skalierung von Gaußschen Prozessen (GP) für große Datensätze. Er stellt verschiedene Strategien zur Verbesserung der Konvergenzrate von Monte-Carlo-Schätzungen für die GP-Regression vor, einschließlich der Verwendung vorhandener Vorkonditionierer für die Lösung des linearen Systems, um die Kernel-Matrix und ihre Inverse zu schätzen. Er führt auch die Idee der linearen Zeit-GP durch Variationsnäherung ein und befasst sich mit der Unsicherheitsquantifizierung unter Verwendung der Induktionspunktmethode. Durch die Verwendung dieser Strategien ist mit der GPU ein Scale-up auf Datensätze mit bis zu einer Million Datenpunkten möglich, was die schnelle Optimierung von Hyperparametern erleichtert.

  • 00:00:00 In diesem Abschnitt des Videos erläutert Jonathan Wenger, wie Gaußsche Prozesse für große Datensätze mithilfe iterativer Methoden skaliert werden, um lineare Systeme zu lösen. Er erklärt, dass diese Methoden als Lernalgorithmen für die Matrixinverse angesehen werden können, die das primäre Objekt ist, das zur Berechnung des GP posterior benötigt wird. Wenger skizziert auch die Hauptziele der Regression, einschließlich Generalisierung, Einfachheit/Interpretierbarkeit, Unsicherheitsschätzungen und Geschwindigkeit. Er stellt fest, dass Allgemeinmediziner hervorragende Beispiele für Modelle sind, die all diese Ziele erreichen können, aber sie sind teuer zu trainieren und Schlussfolgerungen zu ziehen. Durch die Entwicklung moderner Methoden zur Lösung linearer Systeme mit Kernel-Matrizen kann die quadratische Zeitinferenz für GPS jedoch schneller als die kubische Zeit durchgeführt werden. Wenger deutet auch an, dass es einen Weg gibt, dies in linearer Zeit noch schneller zu machen, räumt jedoch ein, dass es einige Nachteile geben könnte, die er in der nächsten Vorlesung weiter diskutieren wird.

  • 00:05:00 In diesem Abschnitt erörtert der Referent die Grenzen der Scholesky-Zerlegung für Gaußsche Prozesse beim Umgang mit großen Datensätzen, da sie in Bezug auf Zeit- und Raumkomplexität unerschwinglich wird. Er schlägt iterative Methoden vor, um die Komplexität auf das Quadrat der Anzahl von Datenpunkten zu reduzieren, und zeigt, wie iterativ Cholesky für eine niederrangige Approximation der Kernel-Matrix verwendet wird. Das Problem besteht jedoch nicht in der Annäherung der Kernel-Matrix selbst, da die GP-Regression eine Annäherung der Umkehrung der Kernel-Matrix oder der Präzisionsmatrix erfordert, sodass die Frage ist, ob die iterative Formulierung des Cholesky als Annäherung an die Präzision interpretiert werden kann Matrix für lineare Lösungen.

  • 00:10:00 In diesem Abschnitt untersucht der Referent eine iterative Form der Cholesky-Zerlegung, die für niederrangige Annäherungen an Kernel-Matrizen verwendet werden kann. Durch Verfolgung zusätzlicher Größen ist es möglich, eine inverse Annäherung an die Matrix zu erhalten, die ebenfalls niedrigrangig ist, ähnlich wie bei Cholesky. Der Referent demonstriert, wie man diese inverse Approximation rekursiv mit den Cholesky-Faktoren und dem Residuum berechnet. Dieses iterative Verfahren kann als ungefährer Matrixinversionsalgorithmus für positiv-definite Matrizen, wie beispielsweise Kernel-Matrizen, verwendet werden und ist ein nützliches Werkzeug zum Skalieren von Gaußschen Prozessen.

  • 00:15:00 In diesem Abschnitt erörtert der Referent die Verwendung der partiellen Cholesky-Methode zur Skalierung von Gaußschen Prozessen. Das Verfahren besteht darin, die Cholesky-Zerlegung mit einem Faktor zu modifizieren und mit einem Vektor zu multiplizieren. Dies führt zu einem iterativen Prozess, der eine inverse Approximation erzeugt, indem äußere Produkte von Vektoren addiert werden. Die Komplexitätsanalyse zeigt, dass es genauso teuer ist wie die Approximation der Matrix selbst. Der Referent vergleicht auch die partielle Cholesky-Methode mit der GP-Regression und betont, wie wichtig es ist, die richtigen Datenpunkte oder Einheitsvektoren auszuwählen, um den Lernprozess zu verbessern.

  • 00:20:00 In diesem Abschnitt erörtert Jonathan Wenger die Bedeutung der Auswahl der richtigen Datenpunkte bei der Approximation der Kernel-Matrix für Gaußsche Prozesse (GP). Er veranschaulicht, wie eine zufällige Auswahl von Datenpunkten, auf die konditioniert werden soll, zu einem langsameren Lernprozess führen kann. Er führt die "Methode der konjugierten Gradienten" ein, die ursprünglich entwickelt wurde, um lineare Systeme in der GP-Regression zu lösen. Diese Methode formuliert das Problem von ax=B, wobei a eine Kernmatrix und B ein Vektor der Größe n ist, als ein quadratisches Optimierungsproblem, das der Lösung des linearen Systems ax=B entspricht. Indem man den Gradienten der quadratischen Funktion nimmt und ihn auf Null setzt, ist die Spalte zu ax gleich B, und ein Residuum kann als B minus ax definiert werden, was verwendet werden kann, um einen besseren und effizienteren Weg zu finden, um Datenpunkte zu beschleunigen den Lernprozess vorantreiben.

  • 00:25:00 In diesem Abschnitt erörtert Jonathan Wenger die Verwendung konjugierter Richtungen zur Optimierung in Gaußschen Prozessen. Er erklärt, dass wir durch Ändern der Richtung, in die wir gehen, höchstens in n Schritten konvergieren können, wenn wir konjugierte Richtungen verwenden. Zu Beginn verwendet er den negativen Gradienten als ersten Schritt in Richtung des steilsten Abfalls und modifiziert die Schritte, um die Konjugationsbedingung zu erfüllen. Er stellt den Algorithmus vor und erklärt seine übergeordneten Teile, einschließlich des Stoppkriteriums basierend auf der Gradientennorm.

  • 00:30:00 In diesem Abschnitt erörtert Jonathan Wenger die Methode der konjugierten Gradienten, die eine Methode zur Approximation der Inversen beim Lösen mehrerer linearer Systeme für die posteriore Kovarianz ist. Die Methode der konjugierten Gradienten konstruiert eine Annäherung für die Inverse, die auf die gleiche Weise wie der partielle Swarovski von niedrigem Rang ist. Die Aktualisierung für die Lösungsschätzung beinhaltet eine konjugierte Richtung di, und die Matrix CI approximiert die Inverse mit der Form aller vorherigen Suchrichtungen, die in Spalten gestapelt sind. Dieses Verfahren ermöglicht ein schnelles Lösen des Szenariosystems, und seine niederrangige Struktur macht es zu einem effizienten Verfahren zum Skalieren von Gaußschen Prozessen.

  • 00:35:00 In diesem Abschnitt vergleicht der Sprecher die partielle scholastische Methode mit der konjugierten Gradientenmethode für die Inferenz des Gaußschen Prozesses. Die konjugierte Gradientenmethode konvergiert viel schneller, und der Sprecher erklärt, dass die bei der konjugierten Gradientenmethode verwendeten "Aktionen" die Matrix auf andere Weise untersuchen, was eine bessere Konvergenz ermöglicht. Allerdings sei es wichtig, zu analysieren, wie schnell das Verfahren konvergiert, so der Referent, was ein Verständnis der Numerik, insbesondere der Maschinenpräzision und der Konditionszahl voraussetzt. Die Konditionszahl ist der maximale Eigenwert geteilt durch den minimalen Eigenwert in absoluten Zahlen und misst die unvermeidliche Fehlerverstärkung bei der Implementierung von Inversionsalgorithmen.

  • 00:40:00 In diesem Abschnitt diskutiert Jonathan Wenger die Stabilität und das Konvergenzverhalten von Methoden zur Lösung linearer Systeme mit Kernel-Matrizen, wie der konjugierten Gradientenmethode oder der Cholesky-Zerlegung. Die Stabilität wird durch die Konditionszahl der Matrix bestimmt, die von ihren Eigenwerten abhängt, und je größer die Konditionszahl ist, desto instabiler ist das Verfahren. Das Konvergenzverhalten wird bestimmt durch die Bedingungszahl der Matrix und den größten dividiert durch den kleinsten Eigenwert. Je näher die Bedingungszahl bei Eins liegt, desto langsamer ist die Konvergenz. Trotz der mäßig großen Bedingungszahl der Kernel-Matrix mit tausend Datenpunkten zeigt Wenger, dass die Methode der konjugierten Gradienten relativ zur Problemgröße immer noch schnell in einigen hundert Iterationen konvergiert.

  • 00:45:00 In diesem Abschnitt erörtert Jonathan Wenger die Skalierung von Gaußschen Prozessen und den Einfluss von Beobachtungsrauschen auf die Konvergenz. Wenn das Beobachtungsrauschen abnimmt, verlangsamt sich die Konvergenz von CG aufgrund der Vergrößerung der Bedingungszahl der Kernel-Matrix. Die Bedingungszahl ist der größte Eigenwert dividiert durch den kleinsten Eigenwert, und wenn Datenpunkte näher beieinander liegen, explodiert die Bedingungszahl. Um dieses Problem zu lösen, kann eine Vorkonditionierung verwendet werden, um die Kernel-Matrix anzunähern, vorausgesetzt, dass das Speichern der Matrix im Vergleich zum Speichern der tatsächlichen Matrix ziemlich billig ist. Durch effizientes Auswerten der Umkehrung der Approximation kann der Vorkonditionierer das ursprüngliche Problem durch ein einfacher zu lösendes ersetzen, was zu einer schnelleren Konvergenz von CG führt.

  • 00:50:00 In diesem Abschnitt erörtert Jonathan Wenger das Konzept der Vorkonditionierung bei der Skalierung von Gaußschen Prozessen für eine effizientere lineare Systemlösung. Am Beispiel probabilistischer Lernmethoden erklärt er, wie Vorwissen über ein Problem die Lösung erleichtern kann, und ähnlich transformiert die Vorkonditionierung ein Problem, das näher an der Identitätsmatrix liegt und daher leichter zu lösen ist. Durch die Verwendung eines Vorkonditionierers wird die Konditionszahl des Systems gesenkt, was den CG beschleunigt und stabiler macht. Wenger demonstriert die Effizienz der Vorkonditionierung, indem er einen Low-Rank-Plus-Diagonal-Vorkonditionierer und partielle SVD verwendet, um ein groß angelegtes lineares System mit 100.000 Datenpunkten in sieben Minuten zu lösen.

  • 00:55:00 In diesem Abschnitt erörtert der Sprecher die Verwendung eines vorkonditionierten konjugierten Gradienten (CG) zum Lösen linearer Systeme während der Hyperparameteroptimierung für Cholesky. Um den Verlust auszuwerten und seinen Gradienten zu berechnen, müssen wir lineare Systeme lösen und Spuren berechnen. Die Berechnung der Spur erfordert jedoch n Matrix-Vektor-Multiplikationen, was für große Datensätze zu teuer ist. Um dies zu lösen, schlägt der Redner vor, eine orthogonale Matrix Z zu verwenden, so dass cx Z(transponiert) = Identitätsmatrix, was es uns ermöglicht, die Spur von a als die Spur von Z(transponiert) xax Z umzuschreiben. Diese Näherungsmethode könnte möglicherweise zu quadratisch führen Zeit für die Skalierung von Gaußschen Prozessen.

  • 01:00:00 In diesem Abschnitt erörtert der Moderator die Herausforderung, die Berechnung der Spur der Kernel-Matrix hochzuskalieren, was die Durchführung mehrerer Matrix-Vektor-Multiplikationen beinhaltet. Eine mögliche Lösung besteht darin, die Berechnung zu randomisieren, indem Zufallsvektoren gezeichnet werden, die mit der Quadratwurzel der Dimension skaliert werden, und dann die Identitätskovarianz berechnet wird. Mit der angenäherten Kovarianz des Zufallsvektors kann die Spur berechnet werden, was dasselbe ist wie das Lösen des ursprünglichen Problems ohne Zufallsvektoren. Die Verwendung von Monte-Carlo-Schätzern bei dieser Methode ist jedoch für große Datensätze unzureichend, da Zehntausende von Zufallsvektoren erforderlich sind, was die Hyperparameter-Optimierung langsam macht.

  • 01:05:00 In diesem Abschnitt erörtert Jonathan Wenger die Skalierung von Gaußschen Prozessen (GP) für große Datensätze. Er erklärt, dass vorhandene Vorkonditionierer für die Lösung des linearen Systems verwendet werden können, um die Kernel-Matrix und ihre Inverse zu schätzen, um das Problem der Datenskalierung zu lösen. Die Verwendung des Vorkonditionierers mit partiellem Cholesky oder der stochastischen Spurschätzung hilft beim Schätzen der Rückspur. Unter Verwendung der gleichen Informationen kann man auch den Gradienten der logarithmischen Determinante abschätzen. Durch die Verwendung dieser Strategien ist mit der GPU ein Scale-up auf Datensätze mit bis zu einer Million Datenpunkten möglich. Wenger merkt an, dass das Vortraining die Verwendung eines kleinen Datensatzes als Sprungbrett zur Optimierung der Hybridparameter beinhaltet.

  • 01:10:00 In diesem Abschnitt diskutiert der Referent verschiedene Strategien zur Verbesserung der Konvergenzrate von Monte-Carlo-Schätzungen für die Gaußsche Prozessregression. Durch die Vererbung der Konvergenzrate der Vorkonditionierung ist es möglich, schneller exponentiell oder polynomial zum wahren Wert zu konvergieren. Die Wahl der Aktionen zum Beobachten der Kernel-Matrix durch Matrix-Vektor-Multiplikation kann auch beeinflussen, wie schnell Konvergenz erreicht werden kann. Um schnelle numerische Algorithmen für den Gaußschen Prozess zu entwickeln, ist daher Fachwissen erforderlich, das durch Vorbedingungen oder die Auswahl von Aktionen zur schnellen Konvergenz bereitgestellt werden kann. Darüber hinaus wird die Idee der linearen Zeit-GP durch Variationsnäherung eingeführt, bei der hochdimensionale Daten in einen kleineren Trainingsdatensatz komprimiert werden, um sie effektiver zusammenzufassen.

  • 01:15:00 In diesem Abschnitt erörtert Wenger die Verwendung von Gaußschen Prozessen und wie sie effektiv skaliert werden können. Die Idee besteht darin, die Trainingsdaten zusammenzufassen, um eine direkte Annäherung an das Posterior bereitzustellen, das nur I zum Quadrat von n nimmt, wobei I die Anzahl der induzierenden Eingaben und n die Größe der Trainingsdaten ist. Iterative Verfahren erfordern jedoch eine Hyperparameteroptimierung, die ebenfalls berücksichtigt werden muss. In diesem Fall können stochastische Methoden wie Batch-Optimierung oder SDD verwendet werden, die mit einem bevorzugten Optimierer schnell optimiert werden können. Alle wesentlichen Operationen sind I hoch drei oder I zum Quadrat mal n, mit Ausnahme der Auswertung der Kernel-Matrix, die die teuerste Operation ist.

  • 01:20:00 In diesem Abschnitt erörtert der Referent das Problem der Unsicherheitsquantifizierung bei der Skalierung von Gaußschen Prozessen unter Verwendung der Induktionspunktmethode, bei der die Anzahl der Induktionspunkte a priori für den Datensatz festgelegt werden muss. Wenn der Optimierer nach besseren zusammenfassenden Datenpunkten sucht, unterscheidet sich die resultierende Unsicherheitsquantifizierung erheblich vom echten Gaußschen Prozess. Während iterative Methoden die Genauigkeit der Annäherung kontrollieren können, bis die Zeit abgelaufen ist, erfordert die Induktionspunktmethode die Kontrolle der Wiedergabetreue der Annäherung vor der Optimierung. Der Referent stellt die Frage, ob ein Verfahren entworfen werden kann, bei dem der Unsicherheitsquantifizierung an jedem Punkt der Approximation unabhängig von der Rechenzeit vertraut werden kann.
 

Vorlesung 4 -- Berechnungsbewusste Gaußsche Prozesse -- Jonathan Wenger



Numerik von ML 4 - Berechnungsbewusste Gaußsche Prozesse - Jonathan Wenger

In diesem Video über die Numerik von ML diskutiert Jonathan Wenger rechenbewusste Gaußsche Prozesse und ihre Fähigkeit, den Approximationsfehler und die Unsicherheit in Vorhersagen zu quantifizieren. Er untersucht, wie wichtig es ist, die richtigen Aktionen auszuwählen, und wie konjugierte Gradienten die Unsicherheit erheblich reduzieren und das Lernen beschleunigen können. Wenger spricht auch über die Verwendung von GP-Approximationen in linearer Zeit auf der Grundlage von Induktionspunkten, hebt jedoch die Probleme hervor, die sich aus solchen Approximationen ergeben. Abschließend erörtert er die Aktualisierung von Annahmen über repräsentative Gewichte und die Verwendung von probabilistischen Lernalgorithmen zur Lösung des Fehlers in den repräsentativen Gewichten. Insgesamt demonstriert das Video die Effektivität rechenbewusster Gaußscher Prozesse bei der Verbesserung der Genauigkeit von Vorhersagen durch Berücksichtigung von Rechenunsicherheiten.

Jonathan Wenger diskutiert in diesem Video auch den rechenbewussten Gaußschen Prozess und seine Komplexität. Er erklärt, dass es nur notwendig ist, den oberen Quadranten der Kernel-Matrix zu berechnen und zu speichern, und der Rechenaufwand des Algorithmus proportional zur Größe dieses Quadranten ist. Der Gaußsche Prozess kann auf Datensätze beliebiger Größe angewendet werden, solange Berechnungen nur auf bestimmte Datenpunkte abzielen, wodurch die Grenze zwischen Daten und Berechnung verwischt wird. Wenger argumentiert, dass der GP modelliert werden kann, um diese Situation zu berücksichtigen, indem er auf projizierte Daten konditioniert wird. Er führt ein neues Theorem ein, das eine exakte Unsicherheitsquantifizierung mit einem Näherungsmodell ermöglicht. Abschließend gibt er einen Ausblick auf den Vortrag nächste Woche über die Erweiterung des GP-Modells auf Fälle, in denen ein physikalisches Gesetz teilweise die erlernte Funktion bestimmt.

  • 00:00:00 In diesem Abschnitt spricht Jonathan Wenger über den letzten Höhepunkt seiner Vorlesungen über Gaußsche Prozesse, in denen er demonstriert, wie man eine exakte Unsicherheitsquantifizierung in beliebiger Zeit durchführt. Er erklärt, dass dieser Ansatz es den Benutzern ermöglicht, immer zu quantifizieren, wie weit sie von der Funktion entfernt sind, die sie lernen möchten, unabhängig davon, wie viel Berechnung sie investieren oder wie hoch ihr Budget ist. Indem sie die Algorithmen aus den vorherigen Vorlesungen als lernende Agenten neu interpretieren, sind sie in der Lage, den Approximationsfehler zu quantifizieren, der in die Vorhersage posterior eingeführt wird. Darüber hinaus diskutieren sie, was es bedeutet, Daten durch einen Computer zu beobachten, und die philosophische Debatte darüber.

  • 00:05:00 In diesem Abschnitt erörtert Jonathan Wenger die Bedeutung der Auswahl der richtigen Aktionen beim Umgang mit rechnergestützten Gaußschen Prozessen. Er zeigt, dass die Wahl der Maßnahmen die Unsicherheit erheblich reduzieren und den Prozess des Lernens über die vorhergesagten Phänomene beschleunigen kann. Darüber hinaus untersucht er die Methode der konjugierten Gradienten, um bessere Aktionen beim Lösen linearer Systeme oder beim Minimieren quadratischer Funktionen zu finden. Durch Berücksichtigung der Geometrie des Problems können konjugierte Gradienten in wenigen Schritten zu einer Lösung konvergieren.

  • 00:10:00 In diesem Abschnitt des Videos erläutert Jonathan Wenger die berechnungsfähigen Gaußschen Prozesse und wie sie sich von anderen Näherungsmethoden unterscheiden. Er spricht über die teuerste Operation sowohl bei den partiell konjugierten Gradienten- als auch bei den inversen Partialsky-Approximationsverfahren, die die Matrix-Vektor-Multiplikation ist. Dann neckt er die Idee von linearen Zeit-GP-Approximationen, die darauf basieren, Punkte als zusammenfassende Datenpunkte zu induzieren, und er diskutiert die Probleme, die sich aus einer linearen Zeit-Approximation ergeben. Wenger stellt dann die berechnungsbewusste GP-Inferenz vor, die sich mit den Problemen der exakten Unsicherheitsquantifizierung befasst, und sagt, dass es sich um Spitzenforschung handelt, die später in diesem Jahr auf der NURBS präsentiert wird.

  • 00:15:00 In diesem Abschnitt erörtert Jonathan Wenger den berechnungsbewussten Gaußschen Prozess und die Quantifizierung des Näherungsfehlers, der sich aus der Verwendung iterativer Methoden zur Lösung eines linearen Systems repräsentativer Gewichtungen ergibt. Er erklärt, dass die Kernfunktionen im GP-Modell Annahmen darüber kodieren, wie die wahre Funktion aussieht, und iterative Löser diese Gewichtungen annähern, um eine Vorhersage für den späteren Mittelwert zu erstellen. Durch die probabilistische Quantifizierung dieses Approximationsfehlers ist es möglich, die zusätzliche Unsicherheit zur Vorhersage hinzuzufügen, was die Genauigkeit des Modells verbessern kann. Wenger gibt auch eine kurze Zusammenfassung der linearen Algebra der Gaußschen Verteilungen und wie sie Berechnungen in der Wahrscheinlichkeitstheorie erleichtern, insbesondere wenn es um Konditionierung und Beobachtungen geht.

  • 00:20:00 In diesem Abschnitt erörtert Jonathan Wenger die Eigenschaften von Gaußschen Verteilungen und wie sie verwendet werden können, um die Posterior-Verteilung über eine Variable X bei gegebenen Beobachtungen Y zu bestimmen. Durch die Kombination der Eigenschaften von Skalierung und Marginalisierung können Gaußsche Prozesse verwendet werden um den Näherungsfehler bei Schätzungen repräsentativer Gewichte zu quantifizieren. Wenger erklärt, wie eine frühere Gaußsche Verteilung aktualisiert und verwendet werden kann, um die wahren repräsentativen Gewichte zu lernen, die nicht direkt beobachtet werden können. Die Streuung und Ausrichtung einer Gaußschen Glockenkurve kann verwendet werden, um die Richtung zu bestimmen, in der nach den wahren repräsentativen Gewichten gesucht werden soll.

  • 00:25:00 In diesem Abschnitt erklärt Jonathan Wenger, wie man einen schwarzen Punkt in einem berechnungsfähigen Gaußschen Prozess indirekt beobachtet, indem man eine Residuen- und eine Vektortransformation verwendet. Er zeigt, wie man den affinen Gaußschen Inferenzsatz anwendet, um den Abstand zwischen den Darstellungen und den geschätzten Gewichten zu berechnen. Der Prozess beinhaltet das Kollabieren des Glaubens auf eine orthogonale Linie und das Entwickeln eines eindimensionalen Wahrscheinlichkeitsglaubens, der verwendet wird, um die dargestellten Gewichte zu finden. Wenger erörtert auch, wie eine informativere rote Linie ausgewählt werden kann, die mit der vorherigen Überzeugung übereinstimmt, um eine genauere Lösung zu erreichen.

  • 00:30:00 In diesem Abschnitt diskutiert Jonathan Wenger einen Algorithmus zum Aktualisieren einer Annahme über repräsentative Gewichte in berechnungsbewussten Gaußschen Prozessen durch eine Beobachtung, die durch eine Aktion multipliziert mit einem Residuum gemacht wird. Er erklärt, dass die Aktualisierung eine affine Gaußsche Inferenz beinhaltet, und weist auf die Schlüsselelemente des Aktualisierungsprozesses hin. Obwohl der Algorithmus CG und teilweise Cholesky ähnlich ist, stellt er fest, dass die Wahl des Priors immer noch ein Problem ist, das angegangen werden muss, da es sich darauf beziehen muss, wo die wahren repräsentativen Gewichte liegen, um eine gute Fehlerschätzung zu erhalten. Wenger schlägt vor, dass der GP-Prior und die getroffenen Annahmen mit den repräsentativen Gewichten in Beziehung stehen, da sie an der Umkehrung der Kernel-Matrix beteiligt sind, was sie im GP-Prior signifikant macht.

  • 00:35:00 In diesem Abschnitt erläutert Jonathan Wenger, wie man versteht, aus welchen Verteilungsdaten generiert wurde, bevor man irgendwelche Beobachtungen mit einem Gaußschen Prozess (GP) macht. Unter der Annahme einer Verteilung über f erklärt Wenger, dass die Labels bei Verwendung eines Gaußschen Priors mit Null-Mittelwert gemäß dem Null-Mittelwert verteilt werden und gemäß der Kernel-Matrix plus unabhängigem Rauschen, das Teil des Beobachtungsmodells ist, variieren. Wenger diskutiert dann das Auffinden der Repräsentanten unter Verwendung eines probabilistischen Lernalgorithmus, der den Prior aktualisiert, indem er auf Aktionen projiziert. Abschließend erklärt Wenger, wie das Problem gelöst werden kann, dass eine kalibrierte vorherige K-Hat-Inverse benötigt wird, indem eine Verteilung von mu-Sternen berechnet wird, die an einem Datenpunkt ausgewertet wird, was eine lineare Funktion von V-Sternen ist.

  • 00:40:00 In diesem Abschnitt erklärt Jonathan Wenger berechnungsbewusste Gaußsche Prozesse und wie Berechnungsunsicherheiten berücksichtigt werden können. Er erörtert die Idee der Marginalisierung, bei der mehrere Optionen für eine Zufallsvariable in Betracht gezogen werden und eine spätere Mittelwertvorhersage berechnet wird, die alle möglichen repräsentativen Gewichtungsschätzungen berücksichtigt. Er erklärt, wie die lineare Marginalisierung funktioniert und wie sie der Kovarianz zusätzliche Unsicherheit hinzufügt. Wenger diskutiert dann die Interpretation der Unsicherheit eines GP als mittlere Fehlerschätzung und wie die rechnerische Unsicherheit ebenfalls als Fehlerschätzung betrachtet werden kann. Insgesamt erklärt der Abschnitt die Berechnung der kombinierten Unsicherheit, die den Fehler der wahren Funktion und den Fehler in den repräsentativen Gewichten in einer einzigen Schätzung enthält.

  • 00:45:00 In diesem Abschnitt diskutiert der Redner rechenbewusste Gaußsche Prozesse, die den Fehler, der daraus resultiert, dass nicht genügend beobachtete Daten vorhanden sind, mit dem Fehler kombinieren, dass nicht genügend Berechnungen durchgeführt wurden, um die Vorhersage zu lernen. Der Referent demonstriert zwei Beispiele dieses Prozesses in Aktion mit den Aktionen von Ed Cholesky und CG. Das vorgeschlagene Verfahren mit dem Namen GP berechnet den Posterior und kombiniert eine repräsentative Annahme mit einer Initialisierung, um genauere Vorhersagen durch Verfolgung der Unsicherheit zu erhalten. Die Methode ist einfach und effektiv, wie in der reduzierten Rechenunsicherheit und der engeren Annäherung an den wahren späteren Mittelwert in den aufgetragenen Diagrammen zu sehen ist.

  • 00:50:00 In diesem Abschnitt erörtert der Sprecher die rechenbewussten Gaußschen Prozesse und die Verwendung der Überzeugung, ohne dass die Kernel-Matrix invertiert werden muss. Sie wählen eine Aktion in eine bestimmte Richtung und beobachten, wie nah sie an den beiden dargestellten Gewichten im gewählten Unterraum sind, was sich darauf auswirkt, wie schnell sie zu den dargestellten Gewichten konvergieren. Um die Schätzung der repräsentativen Gewichte zu aktualisieren, beobachten sie das projizierte Residuum und berechnen die Richtung, in die sie gehen müssen. Sie berechnen auch eine Annäherung mit niedrigem Rang und aktualisieren ihre Schätzung der Repräsentanten und der Präzisionsmatrix. Sie wenden die gleichen Mengen unter Verwendung von partiellem Alaska und CG an, wählen Einheitsvektoraktionen aus, um bestimmte Aktionen wiederherzustellen, und entwerfen eine Methode wie die Linearzeitmethode, die Datenpunkte gemäß der Kernfunktion gewichtet, die an einem induzierenden Punkt zentriert ist.

  • 00:55:00 In diesem Abschnitt diskutiert Jonathan Wenger rechenbewusste Gaußsche Prozesse (GP) und vergleicht sie mit vollständig unabhängigem trainingsbedingtem GP (FITC-GP). Er führt Kernel Vector Actions ein, die einige der Probleme mit FITC-GP lösen, aber dicht sind, was zu einer Komplexität von N Quadrat führt, und daher nicht kosteneffektiv sind. Wenger zeigt, dass durch spezifische Maßnahmen, die nur auf einen Teil der Datenpunkte abzielen, die für die Berechnung der Kernel-Matrix erforderliche Komplexität reduziert werden kann. Am Ende hat Computational GP eine bessere Leistung, und solche Aktionen erweisen sich als nützlicher Ansatz für skalierbare Berechnungen mit hoher Genauigkeit.

  • 01:00:00 In diesem Abschnitt erörtert Jonathan Wenger den rechenbewussten Gaußschen Prozess und seine Komplexität. Er zeigt, dass nur der obere Quadrant der Kernel-Matrix berechnet und gespeichert werden muss und der Rechenaufwand des Algorithmus daher nur proportional zur Größe dieses Quadranten ist. Darüber hinaus hebt er hervor, dass der Algorithmus für Datensätze beliebiger Größe verwendet werden kann, solange Aktionen mit Nullen im unteren Quadranten ausgewählt werden, um nur bestimmte Datenpunkte mit der Berechnung anzusprechen. Wenger argumentiert, dass dies die Unterscheidung zwischen Daten und Berechnung verwischt, da nur Beobachtungen, die für die Berechnung bestimmt sind, als Daten gelten. Schließlich stellt er fest, dass der Gaußsche Prozess modelliert werden kann, um dieser Situation Rechnung zu tragen, indem er auf projizierte Daten konditioniert.

  • 01:05:00 In diesem Abschnitt erklärt Jonathan Wenger, dass Gaußsche Prozesse (GPs) auf zwei Arten betrachtet werden können: als ein genaueres Modell dessen, was passiert, oder als ein probabilistisches numerisches Werkzeug, das den durch Annäherung und Annahme eingeführten Fehler quantifiziert es in Vorhersagen berücksichtigen. Anschließend diskutiert er die Interpretation von quadratischen Fehlern als probabilistische Maße und wie Combined Posterior als Vorhersagewerkzeug verwendet werden kann. Wenger führt auch ein neues Theorem ein, das eine exakte Unsicherheitsquantifizierung mit einem Näherungsmodell ermöglicht, sodass Benutzer ihrer Unsicherheitsquantifizierung genauso vertrauen können wie Gaußschen Prozessen.

  • 01:10:00 In diesem Abschnitt erklärt Jonathan Wenger, dass Gaußsche Prozesse (GPs) angenähert werden können, indem ein Lernalgorithmus entwickelt wird, der den Fehler des Algorithmus probabilistisch quantifizieren und den Fehler auf den GP-Aposteriori übertragen kann, der zur Erstellung von Vorhersagen verwendet wird für eine exakte Unsicherheitsquantifizierung unabhängig von der verwendeten Rechenleistung. Wenger merkt auch an, dass es zwar verschiedene Varianten der Methode gibt, diese aber eine genaue Quantifizierung der Unsicherheit liefern, solange die Einwirkungen linear unabhängig sind. Abschließend gibt Wenger einen Ausblick auf den Vortrag nächste Woche, in dem Jonathan die Erweiterung des GP-Modells auf Fälle erörtern wird, in denen ein physikalisches Gesetz teilweise die erlernte Funktion bestimmt.
 

Vorlesung 5 -- Zustandsraummodelle -- Jonathan Schmidt



Numerik von ML 5 -- Zustandsraummodelle -- Jonathan Schmidt

In diesem Abschnitt stellt Jonathan Schmidt Zustandsraummodelle und ihre Anwendung auf maschinelles Lernen vor. Er erklärt, dass Zustandsraummodelle verwendet werden, um komplexe dynamische Systeme zu modellieren, die nur teilweise beobachtbar sind und stark nichtlineare Wechselwirkungen beinhalten. Die Vorlesung behandelt die grafische Darstellung von Zustandsraummodellen und die wichtigen Eigenschaften der Markov-Eigenschaft und bedingt unabhängige Messungen. Schmidt stellt verschiedene Algorithmen zur Berechnung verschiedener Verteilungen wie Vorhersage-, Filter- und Glättungsverteilungen vor, die verwendet werden, um den Zustand eines Systems anhand von Messungen zu verschiedenen Zeitpunkten abzuschätzen. Die Vorlesung behandelt auch die Implementierung von Kalman-Filteralgorithmen in Julia und die Berechnung von Glättungsschätzungen in linearen Gaußschen Zustandsraummodellen. Abschließend diskutiert Schmidt den erweiterten Kalman-Filter, der die Schätzung nichtlinearer Dynamik und Messungen in Zustandsraummodellen ermöglicht.

Jonathan Schmidt diskutiert auch Zustandsraummodelle und ihre Implementierung mit Code, wobei er sich speziell auf nichtlineare Dynamik und den erweiterten Kalman-Filter konzentriert. Er demonstriert auch Glättungsalgorithmen und alternative bayessche Filtermethoden und hebt ihre Vor- und Nachteile hervor. Die Vorlesung schließt mit einer Empfehlung zum Weiterlernen und einer Vorfreude auf die nächste Vorlesung, in der Nathaniel probabilistische Numerik zur Simulation dynamischer Systeme einführen wird.

  • 00:00:00 In diesem Abschnitt stellt Jonathan Schmidt Zustandsraummodelle und dynamische Systeme als neuen Schwerpunkt für die Vorlesung Numerik des maschinellen Lernens vor. Er erklärt, dass sich dynamische Systeme im Laufe der Zeit weiterentwickeln und nur teilweise beobachtet werden können, was ihre Modellierung schwierig macht. Schmidt liefert Beispiele wie COVID-19-Fallzahlen und Smartphone-Orientierungsschätzungen, um die zeitliche Struktur und verborgene Komponenten dynamischer Systeme zu veranschaulichen. Das ultimative Ziel ist es, probabilistische Methoden zu verwenden, um diese Systeme zu simulieren, aber zuerst muss eine Sprache und ein algorithmischer Rahmen geschaffen werden, um latente Komponenten aus beobachtbaren Daten zu entdecken.

  • 00:05:00 In diesem Abschnitt erörtert der Referent Zustandsraummodelle, die eine Online-Schätzaufgabe umfassen, bei der das Ziel darin besteht, die Schätzung eines komplexen dynamischen Systems schnell zu aktualisieren, wenn neue Daten eingehen. Diese Modelle sind oft nur teilweise beobachtbar und umfassen stark nichtlineare Funktionen und Wechselwirkungen. Um dies zu erreichen, ist ein algorithmischer Rahmen erforderlich, um den Glauben entsprechend zu aktualisieren. Der Referent erörtert die grafische Darstellung der Modellierungssprache, die in Zustandsraummodellen verwendet wird, wobei die Folge weißer Knoten Zufallsvariablen darstellt, die den Systemzustand modellieren, und das rote Kästchen die beobachteten Daten darstellt. Der Zustand eines dynamischen Systems ist eine Reihe von physikalischen Größen, die die Entwicklung des Systems bestimmen, die verfolgt werden und miteinander interagieren. Die beobachteten Daten y hängen vom aktuellen Zustand ab und sind oft nur für einige Zustände in der Flugbahn verfügbar, für andere jedoch nicht.

  • 00:10:00 In diesem Abschnitt stellt Jonathan Schmidt Zustandsraummodelle als probabilistisches Framework für die Modellierung dynamischer Systeme vor. Er betont zwei wichtige Eigenschaften von Zustandsraummodellen: die Markov-Eigenschaft und bedingt unabhängige Messungen. Unter Verwendung dieser Eigenschaften definiert er ein Zustandsraummodell als Bayes'sches Modell, das eine Anfangsverteilung für den ersten Zustand, ein Dynamikmodell für nachfolgende Zustände und ein Messmodell für Beobachtungen enthält. Schmidt merkt an, dass diese destillierten Komponenten die Grundlage für den Rest der Vortragsreihe bilden werden.

  • 00:15:00 In diesem Abschnitt erklärt der Referent, wie man Systeme mit Zustandsraummodellen analysiert und vier verschiedene bedingte Wahrscheinlichkeitsverteilungen berechnet. Dazu gehören die Vorhersageverteilung, die Filterverteilung, die Datenwahrscheinlichkeit und die Glättungsverteilung, die für jeden Schritt in einer fortlaufenden Sequenz berechnet werden. Die Ableitung beinhaltet die Einführung der zu berechnenden Menge und die Bildung einer gemeinsamen Verteilung basierend auf dem, was bereits bekannt ist. Die Chapman-Kolmogorov-Gleichung wird verwendet, um gegebene vergangene Messungen in die Zukunft vorherzusagen, und der Korrekturschritt unter Verwendung des Bayes-Theorems wird verwendet, um neue Daten in die Schätzung zu integrieren.

  • 00:20:00 In diesem Abschnitt erläutert der Referent das Konzept eines Zustandsraummodells und das darin verwendete Vorhersage- und Aktualisierungsschema. Durch die Berechnung der vorhergesagten Verteilung durch die Chapman-Homograph-Gleichung aktualisiert das Modell die Vorhersage durch das Bayes-Theorem. Der Sprecher präsentiert dann Pseudocode für den Algorithmus, der in einer linearen Zeitschleife arbeitet, ohne rückwärts zu gehen. Der Referent betont, wie wichtig es ist, bei allen bisherigen Messungen eine Folge von Verteilungen für aktuelle Zustände zu erzeugen. Abschließend stellt der Referent ein lineares Gaußsches Zustandsraummodell vor und wie es Verteilungen erzeugt.

  • 00:25:00 In diesem Abschnitt stellt der Referent Zustandsraummodelle für ein lineares Gaußsches System mit einer Prozessrauschkovarianzmatrix Q und ein Messmodell mit einer Messmatrix H und einer Messkovarianzmatrix R vor. Der Vortrag erläutert die Vorhersage und Filtermomente des Modells können unter Verwendung von Gaußscher Inferenz berechnet werden, wobei die A-posteriori-Verteilung eine komplizierte Sammlung von Termen ist. Anschließend stellt der Referent den nach dem ungarischen Wissenschaftler Rudolph Kalman benannten Kalman-Filter vor, der die Berechnung von Vorhersage- und Filtermomenten in geschlossener Form ermöglicht. Die Vorhersage- und Korrekturgleichungen des Kalman-Filters werden vorgestellt, wobei die Kalman-Verstärkung eine wichtige Größe ist, die im Messraum gewonnene Informationen in den Zustandsraum übersetzt, um den Filtermittelwert zu aktualisieren.

  • 00:30:00 In diesem Abschnitt des Videos stellt Jonathan Schmidt Zustandsraummodelle vor und erklärt, wie man sie zum Filtern von Trajektorien basierend auf verrauschten Messungen verwendet. Er liefert ein Beispiel für die Verfolgung eines Autos in einer 2D-Ebene mithilfe von GPS-Messungen und schreibt den Code in Julia. Schmidt erklärt, dass das Dynamikmodell ein lineares Gaußsches Modell ist und die Kovarianz des Prozessrauschens polynomische Terme des Zeitschritts beinhaltet. Er betont auch, dass die Filterbahn nur frühere und gegenwärtige Datenpunkte verwendet und nicht von der Zukunft informiert wird.

  • 00:35:00 In diesem Abschnitt erläutert der Referent die Implementierung des Kalman-Filters für Zustandsraummodelle mit Julia-Code. Er erklärt, wie man die Übergangs- und Messmodelle einrichtet, den Mittelwert und die Kovarianz vorhersagt und die Schätzung mithilfe des Messmodells korrigiert. Der Referent demonstriert dann, wie der Kalman-Filter ausgeführt wird, und stellt eine Visualisierung der resultierenden Schätzung und der entsprechenden Unsicherheit bereit.

  • 00:40:00 In diesem Abschnitt erklärt Jonathan Schmidt, wie Zustandsraummodelle zur Beschreibung dynamischer Systeme verwendet werden und wie sie mit linearen Gaußschen Modellen aufgebaut werden können, die die Berechnung interessanter Größen mit linearer Algebra ermöglichen. Er führt auch das Konzept des Glättens von Posterioren ein, das die beste Schätzung einer Trajektorie bei allen verfügbaren Datenpunkten liefert, und stützt sich auf Filterverteilungen, um sie in einem rückwärtsrekursiven Algorithmus zu berechnen. Während die Ableitung von Glättungsgleichungen die Wahrscheinlichkeitstheorie und die Markov-Eigenschaft beinhaltet, erleichtert die resultierende Sammlung von Gaußschen Zufallsvariablen die Berechnung der Glättungsverteilung in jedem Zeitschritt.

  • 00:45:00 In diesem Abschnitt erläutert der Referent den Prozess der Berechnung von Glättungsschätzungen in linearen Gaußschen Zustandsraummodellen. Dies beinhaltet die Verwendung von Matrixvektorproduktoperationen und die Marginalisierung im nächsten Zeitschritt, während die Marginalisierung erfolgt, um das Posterior aus dem filternden Posterior zu berechnen. Der Algorithmus zum Glätten von Schätzungen wird durch For-Schleifen berechnet, da er nur funktioniert, wenn ein Datensatz oder ein fester Teil von Zeitschritten zu berücksichtigen ist. Der Prozess beinhaltet, vom Ende der Zeitreihe zu beginnen und bis zum Anfang rückwärts zu gehen, indem die Glättungsverstärkung berechnet und zur Berechnung der glatten Momente verwendet wird. Der Referent erwähnt auch, dass die Filterschätzung mit der Glättungsschätzung am Ende der Zeitreihe zusammenfällt. Der Glättungsalgorithmus liefert schließlich einen Gaußschen Prozess posterior als den glättenden Posterior.

  • 00:50:00 In diesem Abschnitt erläutert der Referent, wie Gaußsche Prozess-Postiors in linearer Zeit berechnet werden, indem Annahmen getroffen werden, die lineare Übergänge, lineare Messungen, additives Gaußsches Rauschen für Dynamik und Messungen sowie die Markov-Eigenschaft umfassen. Jedoch können nicht alle Gaußschen Prozess-Aposteriori unter Verwendung von Gaußscher Filterung und Glättung berechnet werden. Der Referent diskutiert auch die Möglichkeit, die Gaußsche Annahme fallen zu lassen, aber dies würde eine völlig neue Klasse von Algorithmen erfordern. Der nächste Schritt umfasst die Betrachtung nichtlinearer Modelle unter Verwendung einer Taylor-Approximation, um zunächst die Funktionen zu linearisieren und dann eine gemeinsame Filterung zu verwenden.

  • 00:55:00 In diesem Abschnitt erörtert Jonathan Schmidt Zustandsraummodelle und den erweiterten Kalman-Filter, der eine Erweiterung des Kalman-Filters für nichtlineare Dynamik und Messungen ist. Die Linearisierung von nichtlinearen Dynamik- und Messmodellen wird durch die Verwendung von Jacobi-Matrizen erreicht, was die Verwendung der Standard-Kalman-Filtergleichungen mit einigen Modifikationen ermöglicht. Der vorhergesagte Mittelwert wird anhand des vorherigen Filtermittels ausgewertet, was eine einfache Berechnung der vorhergesagten Kovarianzmatrix ermöglicht. Das Messmodell wird ähnlich linearisiert und die erweiterten Kalman-Filtergleichungen hergeleitet. Schmidt merkt an, dass das erweiterte Kalman-Filter nützlich ist, wenn es nicht möglich oder wünschenswert ist, nichtlineare Funktionen zu differenzieren.

  • 01:00:00 In diesem Abschnitt erläutert Jonathan Schmidt, was passiert, wenn wir unsere Funktion nicht unterscheiden können, und wie wir das umgehen können. Eine mögliche Lösung ist die Verwendung eines Finite-Differenzen-Schemas, bei dem wir eine Differenz wie standardmäßige Finite-Differenzen erstellen und dann dasselbe tun. Schmidt baut auch den erweiterten Wurzelglätter auf, indem er sich die geglätteten Gleichungen ansieht und als transponierte Übergangsmatrix die Jacobi-Matrix der nichtlinearen Funktion einfügt, die am Filtermittelwert ausgewertet wird. Schmidt stellt ein Codebeispiel bereit, das ein nichtlineares Zustandsraummodell eines Pendels verwendet, wobei die Zustandsdimension 2 und die Messungen skalar sind. Er baut das Dynamikmodell mit einer nichtlinearen Transformation auf und diskutiert die Kovarianz des Prozessrauschens.

  • 01:05:00 In diesem Abschnitt erörtert Jonathan Schmidt Zustandsraummodelle und wie sie mithilfe von Code implementiert werden. Er erklärt die nichtlineare Dynamik des Systems und das einfache lineare Messmodell, das für Messungen verwendet wird. Er demonstriert auch, wie man einen erweiterten Kalman-Filter implementiert, um die Flugbahn eines Pendels abzuschätzen. Der Filter berechnet mittels automatischer Differentiation die Jacobi-Matrix für die nichtlineare Dynamikfunktion und den Gradienten für die Messfunktion. Die resultierende Animation zeigt die vorhergesagte Trajektorie und die verrauschten Messungen.

  • 01:10:00 In diesem Abschnitt erörtert Jonathan Schmidt die Filterschätzung und die erweiterte Glättung in Zustandsraummodellen. Die Filterschätzung zeigt die Unsicherheitsschätzung im schattierten Bereich, während der Glättungsalgorithmus die Filterschätzung durch automatische Differenzierung aufräumt und die Glättungsverstärkung, den glatten Mittelwert und die glatte Kovarianz berechnet. Der glattere gibt einen Gaußschen Prozess posterior marginal zurück, der die Ground-Truth-Trajektorie in ihrer Unsicherheit gut abdeckt. Schmidt erwähnt auch alternative Verfahren zur Bayes'schen Filterung, wie den unscented Kalman-Filter zur Annäherung von Verteilungen und den Partikelfilter, der die tatsächliche wahre Posterior-Annäherung ermöglicht. Obwohl diese Methoden ihre Vor- und Nachteile haben und möglicherweise schwieriger zu implementieren sind, können sie für nichtlineare oder nicht-Gaußsche Modelle effektiv sein. Schmidt empfiehlt Interessierten das Buch „Bayesian Filtering and Smoothing“ von Simo Särkkä.

  • 01:15:00 In diesem Abschnitt fasst der Referent zusammen, was er über Zustandsraummodelle, ihr lineares Gaußsches Modell und die Kalman- und erweiterten Kalman-Filter gelernt hat, die zur Handhabung nichtlinearer Dynamik und Messungen verwendet werden. Es wird die nächste Vorlesung empfohlen, in der Nathaniel eine mächtige Sprache zur Erfassung von Naturgesetzen einführt und sie mit der Vorlesung in einer Woche kombiniert, um zu lernen, wie man diese dynamischen Systeme mit probabilistischer Numerik durch bayessche Filterung und Glättung simuliert. Der Redner schließt mit der Bitte um Feedback und dankt den Zuhörern für ihre Zeit.
 

Vorlesung 6 -- Gewöhnliche Differentialgleichungen lösen -- Nathanael Bosch



Numerik von ML 6 -- Lösen gewöhnlicher Differentialgleichungen -- Nathanael Bosch

Nathanael Bosch behandelt das Konzept der ODEs im maschinellen Lernen, die die Ableitung einer Funktion anhand ihrer Eingabe beschreiben und Systeme modellieren, die sich im Laufe der Zeit entwickeln. Er diskutiert die Herausforderungen beim Lösen von ODEs und stellt numerische Methoden wie Vorwärts-Euler und Rückwärts-Euler und ihre Stabilitätseigenschaften vor. Bosch untersucht verschiedene numerische Methoden und ihre Kompromisse in Genauigkeit und Komplexität, wie z. B. explizite Mittelpunkt- und klassische Methoden vierter Ordnung. Er betont die Bedeutung lokaler Fehler, Ordnung und Verständnisstabilität, um Probleme bei der Verwendung von Bibliotheken zur Lösung von ODEs zu vermeiden.

In diesem zweiten Teil des Videos wird das Problem der Schätzung des Vektorfelds und des Anfangswerts einer gewöhnlichen Differentialgleichung (ODE) mithilfe von Techniken des maschinellen Lernens erörtert. Der Referent erklärt, wie wichtig es ist, das generative Modell und das Beobachtungsmodell für die Zustände der ODE aufzuschreiben, um das Inferenzproblem zu lösen. Die Likelihood-Funktion wird maximiert, indem die negative Log-Likelihood minimiert wird, was eine Parameterschätzung ergibt. Der Referent demonstriert diesen Ansatz anhand eines SIR-D-Modells und diskutiert die Verwendung neuronaler Netze zur Verbesserung der Schätzung der Kontaktrate. Die Bedeutung von ODEs in der maschinellen Lernforschung und ihre Rolle bei der Lösung realer Probleme wird ebenfalls hervorgehoben.

  • 00:00:00 In diesem Abschnitt der Vorlesung stellt Nathanael Bosch das Konzept der gewöhnlichen Differentialgleichungen (ODEs) und ihre Verwendung beim maschinellen Lernen vor. Er definiert eine ODE als eine Möglichkeit, die Ableitung einer Funktion angesichts ihrer Eingabe zu beschreiben, und erklärt, dass ODEs beim maschinellen Lernen häufig verwendet werden, um Systeme zu modellieren, die sich im Laufe der Zeit entwickeln. Er liefert Beispiele dafür, wo ODEs beim maschinellen Lernen auftreten, einschließlich in Diffusionsmodellen und bei Optimierungsproblemen. Bosch erörtert auch die Herausforderungen beim Lösen von ODEs, die komplexe numerische Löser erfordern, da es nicht praktikabel ist, sie perfekt zu lösen.

  • 00:05:00 In diesem Abschnitt erörtert der Referent, wie ODEs verwendet werden, um Rauschen in Daten für die Modellierung komplexer Verteilungen umzuwandeln, was durch Normalisierung von Flüssen erfolgt. Er erklärt auch das Konzept der neuronalen ODEs, das viel Forschung ausgelöst hat, und interpretiert verbleibende neuronale Netze als Diskretisierungen einer kontinuierlicheren Sache neu. Darüber hinaus bezieht der Redner ODEs auf die Optimierung, insbesondere auf den Gradientenfluss, über den sich leichter ein Theorem schreiben lässt als über den diskreten Gradientenabstieg. Abschließend erörtert der Referent, wie Parameterinferenz ein Beispiel für die Verwendung von ODEs ist, um etwas Unbekanntes zu lernen, und interpretiert im nächsten Vortrag numerische ODE-Lösungen als maschinelle Lernalgorithmen. Der Referent kommt zu dem Schluss, dass wir zwar eine Lösung für eine ODE aufschreiben können, dies aber aufgrund des Integrationsproblems und der unbekannten Variablen nicht hilfreich ist.

  • 00:10:00 In diesem Abschnitt stellt der Erzähler gewöhnliche Differentialgleichungen (ODEs) und Anfangswertprobleme vor, die für das Verständnis vieler Algorithmen beim maschinellen Lernen von entscheidender Bedeutung sind. ODEs stellen die Änderungsrate eines Systems im Laufe der Zeit dar, und der Anfangswert ist erforderlich, um das Problem zu lösen. Die Lösung einer ODE ist durch eine Funktion gegeben, die vom Anfangswert abhängt, und numerische Lösungen für ODEs erfordern eine schrittweise Extrapolation. Der Erzähler stellt ein logistisches ODE-Problem für das Bevölkerungswachstum vor, und die Lösung wird angegeben. Der Erzähler betont, dass das Ziel der Lösung eines Anfangswertproblems darin besteht, die Lösung für einen bestimmten Startpunkt zu finden, wenn das Vektorfeld der ODEs gegeben ist. Die Schwierigkeit beim Lösen von ODEs besteht sowohl im Lösen des Integrals als auch im Umgang mit dem Differentialterm. Der Erzähler schlägt kleine Schrittgrößen für numerische Lösungen von ODEs vor, um die wahre Lösung genau anzunähern.

  • 00:15:00 In diesem Abschnitt erklärt Nathanael Bosch verschiedene numerische Methoden zur Lösung gewöhnlicher Differentialgleichungen. Die erste Methode, die er vorstellt, ist die Taylorreihen-Approximation nullter Ordnung, bei der nur der Funktionswert im aktuellen Zeitschritt für die Approximation berücksichtigt wird. Dies führt zum Forward-Euler-Verfahren, das eine einfache, explizite Formel zur Berechnung des nächsten Zeitpunkts ist. Bosch stellt fest, dass diese Methode zwar eine schlechte Annäherung ist, aber in Software und dynamischen Simulationen immer noch weit verbreitet ist.

  • 00:20:00 In diesem Abschnitt behandelt das Video zwei Methoden zum Lösen gewöhnlicher Differentialgleichungen (ODEs): die Vorwärts-Euler-Methode und die Rückwärts-Euler-Methode. Die Vorwärts-Euler-Methode verwendet die Steigung am aktuellen Punkt, um den Wert am nächsten Punkt zu approximieren, während die Rückwärts-Euler-Methode eine Taylor-Reihen-Näherung um Tau gleich t plus h verwendet. Das Video zeigt Codebeispiele für beide Methoden mit der logistischen ODE, die sinnvolle Lösungen liefern. Das Video weist jedoch darauf hin, dass komplexere Differentialgleichungen bei der Auswahl eines numerischen Lösers möglicherweise zusätzliche Überlegungen erfordern. Darüber hinaus berührt das Video die Komplexität numerischer Methoden und die Wichtigkeit, sich der zugrunde liegenden Algorithmen bei der Verwendung numerischer Pakete bewusst zu sein.

  • 00:25:00 In diesem Abschnitt erörtert der Referent den Unterschied zwischen expliziten und impliziten Methoden beim Lösen gewöhnlicher Differentialgleichungen (ODEs) und die Bedeutung der Stabilität bei der Auswahl des geeigneten Algorithmus. Der Sprecher vergleicht das Vorwärts-Euler- und das Rückwärts-Euler-Verfahren für eine einfache skalare ODE, x' = λx, wobei λ kleiner als Null ist. Das Vorwärts-Euler-Verfahren ist nur für Schrittweiten stabil, bei denen 1 + hλ kleiner als eins ist, während das Rückwärts-Euler-Verfahren für alle Schrittweiten stabil ist. Der Referent zeigt, dass die Wahl einer ungeeigneten Schrittweite zu Divergenzverhalten führen kann, und betont die Bedeutung der Stabilität bei der Auswahl einer geeigneten Methode zur Lösung von ODEs.

  • 00:30:00 In diesem Abschnitt erörtert Nathanael Bosch die Unterschiede zwischen Vorwärts-Euler- und Rückwärts-Euler-Methoden zum Lösen gewöhnlicher Differentialgleichungen (ODEs). Während beide Methoden ähnliche Mathematik verwenden, erfordert Rückwärts-Euler geringe Anforderungen an die Konvergenz und kann mit starren Bereichen in den ODEs umgehen, die Vorwärts-Euler nicht kann. Numerische Quadratur ist notwendig, und es gibt viele Möglichkeiten, dies zu tun. Darüber hinaus ist die Konstruktion von X-Hut, der Annäherung der Funktion zu einem bestimmten Zeitpunkt, ein weiteres Problem, für das verschiedene Methoden unterschiedliche Antworten liefern. Insgesamt hängt die Wahl des Verfahrens von Faktoren wie der Rechenzeit und der erwarteten Steilheit der ODE ab.

  • 00:35:00 In diesem Abschnitt erklärt Nathanael Bosch die allgemeine Formulierung numerischer Methoden zum Lösen gewöhnlicher Differentialgleichungen (ODEs), die drei Variablen beinhalten: Bi, Qi und X-Hats. Er führt auch Metzgertableaus ein, um das Sprechen über die verschiedenen Methoden kompakter und lesbarer zu machen, und weist darauf hin, dass die verschiedenen Methoden zur Berechnung von Bi und Qi sowie die Konstruktion der X-Hüte jede Methode einzigartig machen . Bosch gibt Beispiele für verschiedene numerische Methoden, darunter die einfachste, Vorwärts-Euler, die die allgemeine Gleichung erfüllt und ein Metzgertableau hat, das Nullen enthält, aber immer noch eine ausreichend nützliche Methode ist. Er führt auch Rückwärts-Euler als implizite Methode ein, der eine Null fehlt und die etwas anders berechnet wird als Vorwärts-Euler.

  • 00:40:00 In diesem Abschnitt untersucht das Video die verschiedenen Strategien, die verwendet werden können, um gewöhnliche Differentialgleichungen (ODEs) zu lösen. Ein Zuhörer schlug vor, das Integral in verschiedene Terme aufzuteilen und zwischen den einzelnen Termen Schritte zu machen, aber der Moderator erklärt, dass dies zu einem anderen Algorithmus mit anderen Eigenschaften führen würde. Das Video zeigt weiterhin die explizite Mittelpunktregel, die fast zwei Euler-Schritten entspricht, aber nicht ganz dasselbe ist. Der Moderator erklärt, dass die Mittelpunktregel vom Punkt aus extrapoliert und das reduziert, was Forward Euler getan hat, um eine bessere Extrapolation zu erhalten. Darüber hinaus untersucht das Video die klassische Methode vierter Ordnung, die so genannt wird, weil sie die ursprüngliche Methode war, die von Byron und Kota entwickelt wurde. Schließlich stellt das Video fest, dass es zwar eine gewisse Freiheit bei der Wahl der Koeffizienten zum Lösen von ODEs gibt, es aber bereits Hunderte bekannter Methoden auf Wikipedia gibt.

  • 00:45:00 führt zu zwei Lösungen. Bei der Dobre-Fermi-Methode gibt es am Ende zwei Linien, weil sie bei jedem Schritt zwei Lösungen liefert. Diese Methode ist kompliziert, da sie mehrere Eigenschaften erfüllt und komplizierter wird, wenn das Tableau größer wird. Das Ziel sollte nicht sein, zu verstehen, wie der Gradient funktioniert, sondern sich auf die Eigenschaften zu konzentrieren, die die Koeffizienten erfüllen müssen. Das Verfahren wurde durch Quadraturregeln motiviert, und obwohl es möglicherweise keine direkte Abbildung auf ODEs gibt, sind sie immer noch sehr durch Quadraturregeln motiviert.

  • 00:50:00 In diesem Abschnitt erläutert das Video, wie das Lösen von Differentialgleichungen aufgrund der Methoden kompliziert sein kann, die auf Effizienz abzielen, indem zwei Methoden gleichzeitig mit unterschiedlichen Genauigkeitsgraden bereitgestellt werden. Einer ist genauer als der andere, und die Verwendung des genaueren kann helfen, den Fehler des weniger genauen abzuschätzen, was beim Anpassen der Schrittgröße beim Lösen der ODE hilfreich sein kann, während ein lokaler Fehler befriedigt wird. Das Video erwähnt auch, dass es verschiedene Arten von Methoden mit unterschiedlichen Eigenschaften gibt, und Stabilität ist auch ein zu berücksichtigender Faktor bei der Auswahl einer Methode zur Lösung eines Problems. Abschließend geht das Video kurz auf die Bedeutung der Ordnung beim Lösen von Differentialgleichungen ein.

  • 00:55:00 In diesem Abschnitt erörtert Nathanael Bosch die verschiedenen Methoden zum Lösen gewöhnlicher Differentialgleichungen (ODEs) und den Kompromiss zwischen Genauigkeit und Komplexität. Er hebt die Bedeutung des lokalen Fehlers hervor, der den Fehler in einem einzigen Schätzschritt misst, und wie er reduziert werden kann, indem die Schrittgröße kleiner gemacht wird. Anschließend werden verschiedene Methoden wie die Hard-Euler- und die Explicit-Midpoint-Methode besprochen, jede mit ihrer eigenen Ordnung und Fehlerkonvergenzrate. Bosch geht auch auf die verschiedenen Schnickschnack ein, die mit der Verwendung von Bibliotheken zur Lösung von ODEs einhergehen, wie z. B. Schrittgrößenauswahl und automatische Serverauswahl, warnt jedoch davor, dass es immer noch wichtig ist, die Stabilität zu verstehen und potenzielle Probleme zu vermeiden, wenn Dinge kaputt gehen.

  • 01:00:00 In diesem Abschnitt des Videos erörtert der Sprecher das Problem der Schätzung des Vektorfelds und des Anfangswerts einer gewöhnlichen Differentialgleichung (ODE) aus Daten unter Verwendung von Techniken des maschinellen Lernens. Er gibt ein Beispiel für ein epidemiologisches Modell, bei dem das Ziel darin besteht, die Parameter Beta, Gamma und Lambda zu schätzen, die die ODE an die beobachteten Daten anpassen. Der Referent erklärt, dass das Aufschreiben des generativen Modells und des Beobachtungsmodells für die Zustände der ODE für die Lösung des Inferenzproblems wesentlich ist. Er stellt fest, dass die Schätzung der Parameter ein besseres Verständnis des Prozesses ermöglicht, der die Daten generiert hat, und dass die Gegenprüfung der abgeleiteten Parameter mit der Literatur zusätzliche Erkenntnisse liefern kann.

  • 01:05:00 In diesem Abschnitt erörtert der Referent das Problem der Parameterinferenz und die Berechnung der Maximum-Likelihood-Schätzung zum Lösen gewöhnlicher Differentialgleichungen (ODEs). Die Likelihood-Funktion ist ein Produkt von Gauß-Funktionen, das aufgrund der Annahme, dass das wahre X nicht erhalten werden kann, nicht ausgewertet werden kann, daher ist eine Annäherung erforderlich. Unter der Annahme, dass der Löser gut genug ist, demonstriert der Sprecher, dass das Einsetzen einer geschätzten Lösung für die wahre Lösung einen auswertbaren Term erzeugt. Die Likelihood-Funktion wird dann maximiert, indem die negative Log-Likelihood minimiert wird, und die resultierende Verlustfunktion ergibt eine Parameterschätzung. Der Referent schließt mit einem Beispiel unter Verwendung eines SIR-D-Modells, bei dem die Anzahl der infizierten Personen zu Beginn unbekannt ist und geschätzt werden muss.

  • 01:10:00 In diesem Abschnitt erläutert der Referent, wie Parameterinferenz an einem Modell gewöhnlicher Differentialgleichungen (ODEs) durchgeführt wird. Die ODE-Modellsimulation wird durchgeführt, indem verrauschte Abtastungen daraus genommen werden, und zwei Parameter werden verwendet, um eine Verlustfunktion zu bilden, die durch Vergleichen der Linien im Streudiagramm mit den tatsächlichen Daten berechnet wird. Der Optimierer wird verwendet, um über die anfängliche Schätzung und die Parameter zu iterieren, und der L-BFGS-Optimierer wird verwendet, um Ausgabedaten zu erzeugen. Die resultierenden Daten können zur Interpretation des Modells und seiner Parameter verwendet werden, die mit der Literatur verglichen werden können. Das Modell wird dann verbessert, indem die Kontaktrate zeitvariabel gemacht wird, was es etwas komplexer macht, und der gesamte Prozess der Parameterinferenz wird erneut durchgeführt.

  • 01:15:00 In diesem Abschnitt erörtert Nathanael Bosch die Herausforderungen beim Schätzen von Beta von t, das eine zeitvariable Schätzung einer Kontaktrate in ODEs beschreibt, und betont die Notwendigkeit besserer Tools zur Lösung des Schätzproblems. Um dies anzugehen, schlägt er vor, ein neuronales Netzwerk zu verwenden, um Beta von t zu modellieren und eine L2-Verlustfunktion bei der Parameterinferenz zu minimieren. Während der neuronale Netzwerkansatz weniger interpretierbar ist und keine guten Unsicherheitsschätzungen liefert, liefert er eine Punktschätzung für die Kontaktrate. Darüber hinaus deuten die Ergebnisse darauf hin, dass der neuronale Netzwerkansatz noch erheblich verbessert werden muss, um mit dem GP-Modell übereinzustimmen, und Unsicherheiten in den Ergebnissen sollten berücksichtigt werden.

  • 01:20:00 In diesem Abschnitt erörtert der Referent den Ansatz der Verwendung neuronaler Netze zur Lösung von ODEs und erwähnt, dass die Quantifizierung von Unsicherheiten mit dieser Methode zwar nicht ohne weiteres verfügbar ist, aber dennoch ein gültiger konzeptioneller Ansatz ist. Es werden Maximum-Likelihood-Schätzungen diskutiert und die Möglichkeit erwähnt, Priors und Stichproben hinzuzufügen, um eine Unsicherheitsquantifizierung bereitzustellen. Der Referent diskutiert auch das kommende Thema der probabilistischen numerischen ODE-Löser und hebt die Bedeutung von ODEs in der maschinellen Lernforschung und ihre Rolle bei der Lösung realer Probleme hervor. Neuronale ODEs werden auch kurz als allgemeinerer und strukturfreier Ansatz erwähnt, jedoch mit Ähnlichkeiten in Verlustfunktion und Trainingsverfahren.
 

Vorlesung 7 -- Probabilistische numerische ODE-Löser -- Nathanael Bosch



Numerik von ML 7 -- Probabilistische numerische ODE-Löser -- Nathanael Bosch

In diesem Video stellt Nathanael Bosch das Konzept probabilistischer numerischer ODE-Löser vor, die Zustandsschätzung und numerische ODE-Löser kombinieren, um Verteilungen über die Zustände oder ODE-Lösungen bereitzustellen. Bosch erklärt, wie ein Q-mal integrierter Wiener-Prozess verwendet werden kann, um die wahre Lösung zu modellieren, und wie dieser Prozess die Quantifizierung und Weitergabe von Unsicherheiten im System ermöglicht. Anschließend demonstriert er, wie erweiterte Kalman-Filter zum Lösen von ODEs verwendet werden und wie sich Schrittgrößen auf die Fehlerschätzungen auswirken. Das Video endet mit einer Diskussion über die Unsicherheitskalibrierung und die Verwendung des erweiterten Kalman-Filters zur Schätzung von Parametern in nichtlinearen Zustandsraummodellen.

Im zweiten Teil der Vorlesung spricht Nathanael Bosch über die Vorteile der Verwendung probabilistischer Methoden zur Lösung von ODEs, einschließlich der Gewinnung aussagekräftiger Unsicherheitsschätzungen und der Flexibilität, zusätzliche Modellmerkmale wie Anfangswerte einzubeziehen. Er demonstriert diesen Ansatz an Beispielen wie dem harmonischen Oszillator und algebraischen Differentialgleichungen. Bosch zeigt auch, wie das Einbeziehen zusätzlicher Informationen und die Verwendung probabilistischer Techniken zu aussagekräftigeren Ergebnissen führen können, indem ein Beispiel eines Epidemiemodells verwendet wird, das die Daten mit herkömmlichen skalaren Methoden nicht genau darstellen konnte. Er verwendet erweiterte Kalman-Filter und -Glättungsmittel, um ODEs durch Zustandsschätzung zu lösen, wobei er die Schätzung als probabilistisches Problem behandelt, und betont, wie wichtig es ist, bei der Entscheidungsfindung Bayesianisch zu sein.

  • 00:00:00 In diesem Abschnitt stellt Nathanael Bosch das Konzept der probabilistischen numerischen ODE-Löser vor. Er beginnt mit einer Zusammenfassung der vorherigen Vorlesungen, einschließlich Zustandsraummodellen und gängigen Filtern/Glättungen für die Zustandsschätzung und numerischen ODE-Lösern. Er erklärt, dass die Herausforderung darin besteht, den Zustand einer ODE-Lösung bei einer gegebenen Differentialgleichung abzuschätzen, und dass numerische ODE-Löser nur eine Annäherung liefern. Bosch schlägt dann einen Weg vor, die beiden Konzepte zu kombinieren, indem ODEs als Zustandsschätzungsprobleme interpretiert und als Datenschätzungsprobleme gelöst werden. Die resultierenden Algorithmen liefern Verteilungen über die Zustände oder ODE-Lösungen und schaffen probabilistische numerische Server, die eine reichhaltigere Ausgabe bieten als klassische Server.

  • 00:05:00 In diesem Abschnitt wird das Konzept der probabilistischen numerischen ODE-Löser diskutiert. Diese Löser schätzen die wahre Lösung, indem sie durch die Auswertung des Vektorfelds eine einzige Schätzung X-Hut bereitstellen, um die Schätzung auf einen zukünftigen Zeitpunkt mit einem Fehler zu aktualisieren oder zu erweitern, der von der Schrittgröße abhängt. Die Diskussion geht dann weiter zur Verwendung einer speziellen Zustandsschätzung als Werkzeug zum Lösen numerischer ODE-Schätzungsprobleme. Anschließend werden die Filterverteilung, die nachträgliche Glättung und der Vorhersageschritt erläutert, der zukünftige Zustände anhand aktueller Informationen schätzt, wobei Algorithmen wie das erweiterte Kalman-Filter und der erweiterte Kalman-Glätter als einfache Methoden zur Berechnung dieser Größen erwähnt werden. Der Abschnitt schließt mit der Idee, dass numerische ODE-Lösungen als Inferenzproblem formuliert werden können, anstatt zu versuchen, die tatsächliche wahre Lösung zu berechnen, und dass das Ziel darin besteht, das Posterior von x von t zu finden, das die Anfangsbedingung und ODE auf einem Diskreten erfüllt Satz von Punkten.

  • 00:10:00 In diesem Abschnitt tauchen wir in die Konstruktion eines Zustandsraummodells für probabilistische numerische ODE-Löser ein. Der Zustand, den wir betrachten, ist der Q-mal integrierte Wiener-Prozess. Dieser Zustand ist ein stochastischer Prozess, der das dynamische System beschreibt und die Ableitungen bis zu Q verfolgt. Indem wir eine begrenzte Anzahl von Ableitungen verfolgen, können wir ein probabilistisches Zustandsmodell erhalten, das es uns ermöglicht, die Unsicherheit im System zu quantifizieren und zu propagieren. Das Hauptziel besteht darin, ein Prior, eine Wahrscheinlichkeit und ein Datenmodell zu definieren, das uns nach der Lösung eine Schätzung der Ausgabe liefert. Dies ist für die Gaußsche Filterung und Glättung erforderlich, was ein schneller Algorithmus für die Inferenz ist.

  • 00:15:00 In diesem Abschnitt erklärt Nathanael Bosch den stochastischen Prozess, der die wahre Lösung eines Q-mal integrierten Winner-Prozesses modelliert. Der Prozess hat Übergänge in Form eines Gaußschen Modells, das eine Matrix a von H und eine Kovarianzmatrix Q von H verwendet, die geschlossene Formeln haben. Der Zugriff auf einen Eintrag in dem Prozess ist eine lineare Operation, was es bequem macht, auf die erste und die zweite Ableitung zuzugreifen. Der Prozess ist markovsch und erfüllt die Eigenschaften eines Gaußschen Prozesses. Bosch zeigt auch Diagramme verschiedener Beispiele des Prozesses, was verdeutlicht, warum er als zweifach integrierter linearer Prozess bezeichnet wird.

  • 00:20:00 In diesem Abschnitt erörtert der Redner die Q-mal integrierte Ornstein-Uhlenbeck-Priorität und wie sie praktisch ist, da sie Übergangsdichten aufschreiben können, die später für die Gaußsche Filterung und Glättung benötigt werden. Der Wahrscheinlichkeits- und Datenkombinationsteil ist ebenfalls wichtig, da er den Vorher informiert, das Gewünschte oben zu tun. Der Sprecher zeigt, wie man die Sprache der ODE verwendet und definiert eine Messfunktion oder einen Informationsoperator, der in einer perfekten Welt, in der es unendlich viel Rechenleistung gibt, Null sein sollte. Sie führen auch ein Beobachtungsmodell ein und erklären, warum es hilft, das gewünschte Ding für die Schlussfolgerung zu erfüllen. Schließlich ist das rauschlose Wahrscheinlichkeitsmodell eine direkte Wahrscheinlichkeit, was bequem ist, weil es die Aktualisierungen des Kalman-Filters berücksichtigt.

  • 00:25:00 In diesem Abschnitt erörtert Nathanael Bosch das generative Modell für ein Z, das ein konkretes Beispiel für die logistische ODE ist, und wie es sich auf den Inferenzprozess bezieht. Das generative Modell ermöglicht die Simulation von Lösungen, die Berechnung von Ableitungen und die Erzeugung eines Aposteriori, das um das Z zusammenbricht. Dieses generative Modell ermöglicht zusätzlich zu dem Likelihood-Modell, das die Differentialgleichung codiert, das Lösen und Lösen des Zustandsraummodells liefert Schätzungen für X, die sich auf die Lösung beziehen. Die Inferenz ermöglicht die Herstellung einer Beziehung zwischen dem vorherigen und dem gewünschten Endergebnis und ermöglicht die Lösung des Zustandsraummodells.

  • 00:30:00 In diesem Abschnitt erörtert Nathanael Bosch die Bedeutung der Einbeziehung des Anfangswerts beim Lösen einer gewöhnlichen Differentialgleichung durch wahrscheinlichkeitstheoretische numerische Methoden. Er erklärt, dass das Hinzufügen einer weiteren Messung, die nur vom Anfangswert abhängt, zum Beobachtungsmodell eine allgemeinere Möglichkeit ist, den Anfangswert einzubeziehen. Anschließend stellt er Pseudocode für die Bausteine des erweiterten Kalman-Filters und des ODE-Filters bereit, die zur Implementierung des Algorithmus benötigt werden, und beschreibt die standardmäßige Filterschleife, die an den Vorhersage- und Aktualisierungsschritten beteiligt ist. Der erweiterte Algorithmus erfüllt zuerst den Anfangswert und verwendet das Übergangsmodell A und Q, um die Schrittgröße zu berechnen.

  • 00:35:00 In diesem Abschnitt demonstriert Nathanael Bosch den Code, der zum Lösen einer gewöhnlichen Differentialgleichung (ODE) mit probabilistischen numerischen Methoden in Julia erforderlich ist. Er stellt fest, dass die Formeln zwar kompliziert erscheinen mögen, die 10 Codezeilen, die zum korrekten Einrichten des Modells erforderlich sind, jedoch einfach sind. Bosch zeigt, wie der erweiterte Kalman-Filter mit nur zwei Codezeilen implementiert und die Standardnotation für die Multiplikation mit dem Inversen durch eine numerisch stabile Lösung ersetzt wird, die ein lineares System löst. Er definiert das Vektorfeld, die anfängliche Zeitspanne und die wahre Lösung für die logistische ODE und demonstriert, wie man den Prior unter Verwendung des zweifach integrierten Wiener-Prozesses definiert. Boschs Implementierung des erweiterten Kalman-Filteralgorithmus stimmt sehr gut mit dem Pseudocode aus den Folien überein, und die anfängliche Verteilung, die er verwendet, wird willkürlich auf Nullmittelwert und Standardkovarianz gesetzt.

  • 00:40:00 In diesem Abschnitt demonstriert Nathanael Bosch, wie erweiterte Kalman-Filter verwendet werden, um ODEs zu lösen, und zeichnet die Filterschätzungen auf. Dann spielt er mit Schrittgrößen herum und zeigt, wie kleinere Schrittgrößen Unsicherheiten verringern und wie größere sie erhöhen. Er erklärt, dass die Unsicherheit nicht einfach mit der Zeit zunimmt und die Fehlerschätzungen ein Modell des auftretenden Fehlers sind. Abschließend zeigt er, dass das Glätten die Ergebnisse der Trajektorien im Allgemeinen verbessert, was der Motivation von vor zwei Vorlesungen entspricht. Die Fehlerschätzungen könnten jedoch noch besser gemacht werden, aber er bittet das Publikum um Input, wie dies zu tun sei.

  • 00:45:00 In diesem Abschnitt erfahren wir, dass die Fehlerschätzung für den probabilistischen numerischen ODE-Solver zu groß ist und durch Unsicherheitskalibrierung behoben werden muss. Der Hyperparameter Sigma zum Quadrat beeinflusst direkt die Unsicherheiten und muss richtig eingestellt werden, um aussagekräftige tatsächliche Unsicherheitsschätzungen zu erhalten. Die Motivation zum Setzen der Hyperparameter ist ähnlich wie bei Gaußschen Prozessen, wo die Hyperparameter geschätzt werden, indem die Wahrscheinlichkeit der Daten bei gegebenem Parameter maximiert wird. Die Wahrscheinlichkeit der Daten kann zerlegt werden, wodurch sie bequem ausgedrückt und optimiert werden können.

  • 00:50:00 In diesem Abschnitt erörtert Nathanael Bosch die Verwendung des erweiterten Kalman-Filters zur Schätzung der Parameter in einem nichtlinearen Zustandsraummodell. Das P von z K bei Z1 bis K minus 1 wird unter Verwendung von Gaußschen Schätzungen geschätzt, und der Sigma-Hut wird als argmax der Quasi-Maximum-Likelihood-Schätzung berechnet. In ODE-Filtern ist es möglich, die Maximum-Likelihood-Schätzung in geschlossener Form zu berechnen, indem eine neu skalierte Methode zum Neukalibrieren von Parameterschätzungen verwendet wird. Diese Methode liefert bessere Schätzungen und entspricht der Maximum-Likelihood-Schätzung Sigma. Bosch erklärt, wie dies über eine Update-Funktion mit Eichzusatz umgesetzt werden kann.

  • 00:55:00 In diesem Abschnitt erläutert Nathanael Bosch den erweiterten Kalman-Filter (EKF) für probabilistische numerische gewöhnliche Differentialgleichungs-(ODE)-Löser. Er erwähnt, dass es geändert wurde, um die Sigma-Schraffur zu erhöhen, was dazu führt, dass die Summe laufend berechnet und durch n dividiert wird, was die Menge ist, die sie berechnen möchten. Das EKF hat zuvor versucht, etwas als Gaussian zu approximieren, was möglicherweise nicht der Fall ist, und das Ziel ist es, Unsicherheitsschätzungen zu erhalten, die so informativ wie möglich sind. Dadurch haben sie einen Algorithmus erhalten, der nützliche Fehlerschätzungen liefert, die den numerischen Fehler des ODE-Lösers sinnvoll beschreiben. Der erhaltene Algorithmus ist schnell und liefert nicht perfekte, aber dennoch nützliche Unsicherheitsschätzungen.

  • 01:00:00 In diesem Abschnitt erläutert Nathanael Bosch die Motivation für die Verwendung probabilistischer Methoden zur Lösung von ODEs. Neben der einfachen Quantifizierung der Unsicherheit und dem Erhalt aussagekräftiger Unsicherheitsschätzungen und -plots ist Bosch der Ansicht, dass die Formulierung von ODE-Lösern auf probabilistische Weise flexibel und bequem ist und die Einbeziehung zusätzlicher Modellmerkmale wie Anfangswerte ermöglicht. Durch die Definition eines Zustandsraummodells und das Ausführen eines erweiterten Kalman-Filters ist es möglich, nicht nur numerische Probleme mit Anfangswerten zu lösen, sondern auch ODEs höherer Ordnung mit zusätzlichen Informationen.

  • 01:05:00 In diesem Abschnitt erklärt Nathanael Bosch einen anderen Ansatz für Anfangswerte für ODE-Löser. Er definiert eine neue Größe, um sicherzustellen, dass X1 gleich der angegebenen Anfangsableitung ist, und dies kann verwendet werden, um einen erweiterten Befehlsfilter mit einigen Vorhersage- und Aktualisierungsschritten auszuführen. Er zeigt das Beispiel des harmonischen Oszillators und wie nur zwei Zeilen geändert werden mussten, um eine Aktualisierung der ersten Ableitung einzufügen. Für aussagekräftige Ergebnisse wird erneut kalibriert, wobei der Fehler in diesem Fall nicht gegen Null geht, da kein Attraktor anzustreben ist, sondern sich je nach Problemstellung anpasst. Bosch diskutiert auch algebraische Differentialgleichungen, das sind Differentialgleichungen, die aufgrund einer singulären Matrix nicht von links nach rechts verschoben werden können.

  • 01:10:00 In diesem Abschnitt geht der Referent auf das Konzept der differenziellen algebraischen Gleichungen (DAE) ein, bei denen es sich um Gleichungen handelt, die keine Ableitung beschreiben und irgendwann einen konstanten Wert haben. Der Sprecher schlägt eine Modifikation des ODE-Wahrscheinlichkeitsalgorithmus vor, um einen DAE-Wahrscheinlichkeitsalgorithmus zu schaffen, der DAE auf probabilistische Weise lösen kann. Der Sprecher gibt dann ein Beispiel für ein Problem, bei dem eine ODE zusätzliche Informationen enthält, und schlägt eine Modifikation des Zustandsraummodells vor, um ein zusätzliches Beobachtungsmodell einzuführen, sodass der Algorithmus beide Beobachtungsmodelle anwenden kann, um g auf dem diskreten Gitter zu erfüllen. Der Referent liefert ein Videobeispiel, das die Bedeutung von Erhaltungsgrößen bei der Lösung von Problemen mit ODEs und zusätzliche Informationen veranschaulicht.

  • 01:15:00 In diesem Abschnitt des Videos erläutert Nathanael Bosch die Verwendung wahrscheinlichkeitstheoretischer numerischer ODE-Löser und die Vorteile der Einbeziehung zusätzlicher Informationen zur Verbesserung der Ergebnisse von ODE-Modellen. Er stellt ein Beispiel für ein Epidemiemodell vor, bei dem das herkömmliche Skalarmodell die Daten nicht genau darstellen konnte, und zeigt, wie ein Gaußscher Prozess zur Verbesserung des Modells verwendet werden kann. Das Hinzufügen weiterer Informationen und die Verwendung probabilistischer Techniken können letztendlich zu einem aussagekräftigeren Ergebnis führen.

  • 01:20:00 In diesem Abschnitt erörtert Bosch probabilistische numerische ODE-Löser, bei denen ein linearer Messoperator verwendet wird, um bestimmte Dimensionen einer Lösung für eine ODE zu messen, die als vierdimensionales Objekt (sirnd) dargestellt wird. Nach dem Erstellen eines Zustandsraummodells wird die ODE-Lösung gelöst, wobei ein Beta-Zustand hinzugefügt wird, und die Wahrscheinlichkeitsmodelle der ODE-Lösung, des Anfangswerts und der Daten werden berücksichtigt. Die Inferenzaufgabe beinhaltet die Verwendung eines erweiterten Kalman-Filters, um zu bestimmen, was die weißen Punkte sind, wenn die schwarzen Punkte der beobachteten Daten gegeben sind. Es wird auch vorgeschlagen, X und Beta für eine einfachere Neuformulierung zusammenzuführen.

  • 01:25:00 In diesem Abschnitt erklärt der Referent, wie probabilistische numerische ODE-Löser funktionieren, was im Wesentlichen eine Möglichkeit ist, ODEs durch Zustandsschätzung zu lösen, wobei die Schätzung als probabilistisches Problem behandelt wird. Er definiert eine Methode zum Lösen von ODEs unter Verwendung von erweiterten Kalman-Filtern und Glättungsfunktionen, die zu einer Reihe von Lösern führen, die manchmal als "ODE-Filter" bezeichnet werden. Der Redner hebt die Bedeutung der Bayes'schen Entscheidungsfindung und die Nützlichkeit von Unsicherheitsschätzungen sowie die Bequemlichkeit der Verwendung von Patientenalgorithmen hervor, die auf eine Reihe von Problemen angewendet werden können, einschließlich der Lösung von ODEs.

  • 01:30:00 In diesem Abschnitt spricht der Redner über die Verwendung externer Befehlsfilter auf nicht standardmäßige Weise, um numerische Probleme zu lösen und Rückschlüsse aus Daten auf eine Weise zu ziehen, die Physik und allgemeine externe Beobachtungen kombiniert. Bayes'sches Filtern und Glätten sind laut dem Referenten die beste Möglichkeit, dynamische Systeme zu modellieren oder zu formulieren, da sie eine flexible Hinzufügung von Informationen und eine Faktorisierung des Inferenzalgorithmus ermöglichen. Das Publikum wird ermutigt, QR-Codes für Feedback zu scannen, und Fragen an den Redner sind willkommen.
 

Vorlesung 8 -- Partielle Differentialgleichungen -- Marvin Pförtner



Numerik von ML 8 -- Partielle Differentialgleichungen -- Marvin Pförtner

Marvin Pförtner diskutiert partielle Differentialgleichungen (PDEs) und ihre Bedeutung bei der Modellierung verschiedener realer Systeme. Er erklärt, wie PDEs den Mechanismus eines Systems mit einer unbekannten Funktion und einem linearen Differentialoperator darstellen, aber eine Lösung für Parameter erfordern, die oft unbekannt sind. Gaußsche Prozessinferenz kann verwendet werden, um PDE-Modelle zu analysieren und mechanistisches Wissen in statistische Modelle einzubringen. Pförtner untersucht die Wärmeverteilung in einer Zentraleinheit in einem Computer, indem er das Modell auf eine 2-dimensionale Wärmeverteilung beschränkt und Annahmen für das Modell darstellt. Die Vorlesung behandelt auch die Verwendung von Gaußschen Prozessen zur Lösung von PDEs und das Hinzufügen realistischer Randbedingungen zur Modellierung von Unsicherheit. Insgesamt ermöglicht uns der GP-Ansatz in Kombination mit dem Begriff eines Informationsoperators, Vorwissen über das Verhalten des Systems einzubeziehen, mechanistisches Wissen in Form einer linearen PDE einzufügen und Randbedingungen und rechte Seiten zu handhaben.

Im zweiten Teil dieses Videos erläutert Marvin Pförtner die Verwendung von Gaußschen Prozessen zur Lösung partieller Differentialgleichungen (PDEs) durch Schätzung eines Wahrscheinlichkeitsmaßes über Funktionen anstelle einer Punktschätzung. Er erklärt die Vorteile der Unsicherheitsquantifizierung und stellt fest, dass dieser Ansatz ehrlicher ist, weil er die Unsicherheit bei der Schätzung der Funktion auf der rechten Seite der PDE anerkennt. Pförtner erklärt auch den in der Praxis nützlichen Matern-Kern, der die Differenzierbarkeit des GP steuern kann, und liefert eine Formel zur Berechnung des Parameters P für den Matern-Kern. Er erklärt ferner, wie man einen d-dimensionalen Kernel für PDEs konstruiert, indem man Produkte von eindimensionalen Matern-Kerneln über die Dimensionen nimmt, und wie wichtig es ist, bei der Modellkonstruktion mathematisch vorsichtig zu sein.

  • 00:00:00 In diesem Abschnitt der Vorlesung stellt Marvin Pförtner partielle Differentialgleichungen (PDEs) und ihre Bedeutung für die Beschreibung mechanistischer Modelle vor, die Daten in der realen Welt generieren, darunter Finanzmärkte, Fluide wie Klima und Wetter und Wellenmechanik . Obwohl sie schwierig zu lösen sind, sind lineare PDEs weiterhin eine leistungsstarke Modellierungssprache, da sie viele physikalische Prozesse wie Wärmeleitung, Elektromagnetismus und Teilchengeschwindigkeiten in der Brownschen Bewegung genau beschreiben. Die Vorlesung konzentriert sich speziell auf die Integration von PDE-basierten Modellen in probabilistische Machine-Learning-Modelle anhand eines praktischen Modellierungsbeispiels.

  • 00:05:00 In diesem Abschnitt erörtert Marvin Pförtner die Verwendung partieller Differentialgleichungen (PDEs) zur Modellierung verschiedener Systeme, einschließlich physikalischer und finanzieller Modelle. Er betont, wie wichtig es ist, das Verhalten eines Systemmechanismus zu verstehen und sein Verhalten mit Hilfe von PDE-Modellen abzuleiten. PDEs erfordern jedoch häufig Systemparameter, die unbekannt sind, und das Ziel besteht darin, die statistische Schätzung nach Bayes zu verwenden, um das mechanistische Wissen des Systems mit Messdaten zu verschmelzen, um diese unbekannten Parameter zu finden und Vertrauen in Vorhersagen zu gewinnen. Marvin erklärt auch lineare PDEs und wie sie sich auf physikalische Systeme mit räumlicher Ausdehnung beziehen.

  • 00:10:00 In diesem Abschnitt diskutiert Marvin Pförtner partielle Differentialgleichungen (PDEs), die häufig verwendet werden, um physikalische Systeme wie Temperaturverteilungen oder die von einer Reihe elektrischer Ladungen erzeugte Kraft zu beschreiben. Die unbekannte Funktion in einer PDE repräsentiert das simulierte System, und das mechanistische Wissen wird durch einen linearen Differentialoperator gegeben. Eine Herausforderung bei PDEs besteht jedoch darin, dass sie normalerweise keine analytische Lösung haben und numerische Löser erfordern, die Diskretisierungsfehler einführen. Materialparameter und die Funktion auf der rechten Seite sind zwei der Parameter, die nicht genau bekannt sein können, was zu Schwierigkeiten bei der Weitergabe von Unsicherheiten durch klassische Solver führt. Darüber hinaus identifizieren PDEs ihre Lösung normalerweise nicht eindeutig, sodass zusätzliche Bedingungen auferlegt werden müssen.

  • 00:15:00 In diesem Abschnitt erörtert der Referent partielle Differentialgleichungen (PDEs) und ihre Beziehung zu Funktionen, die unendlichdimensionale Objekte sind. Der Differentialoperator ist linear, was bedeutet, dass sich lineare Funktionen im Kern des Differentialoperators befinden, was das Hinzufügen eines linearen Terms zu jeder Lösung der Poisson-Gleichung ermöglicht und dennoch eine Lösung erhält. Randbedingungen sind notwendig, um Wechselwirkungen außerhalb der Simulationsdomäne zu modellieren, die dann zusammengefasst werden, wie die Außenseite mit der Simulation an der Grenze interagiert. PDEs sind Aussagen über Funktionen, die zu Funktionsräumen gehören, bei denen es sich um Mengen von Funktionen handelt, die eine Vektorraumstruktur ähnlich der von Rn haben und die Darstellung linearer Operatoren durch Matrizen ermöglichen. Lineare Operatoren sind Abbildungen zwischen Funktionsräumen, die eine Linearitätseigenschaft haben, da ein Differentialoperator eine Funktion auf ihre Ableitung abbildet.

  • 00:20:00 In diesem Abschnitt erklärt Pförtner, dass lineare PDEs im Wesentlichen lineare Systeme in einem unendlichdimensionalen Vektorraum sind, und weist auf die Bedeutung der Definition von Normen auf Vektorräumen und des Verständnisses von Konvergenz hin. Er führt dann ein mathematisches Modell der Wärmeverteilung in eine zentrale Verarbeitungseinheit in einem Computer ein und beschränkt das Modell auf eine zweidimensionale Wärmeverteilung auf einer Linie, die durch den Chip schneidet. Der Vortrag diskutiert Annahmen, die für dieses Modell getroffen wurden, und wie es ein gutes Modell für diesen speziellen Fall ist.

  • 00:25:00 In diesem Abschnitt erörtert der Referent die Modellierung der Wärmequellen und Wärmesenken in einem Chip und wie sie mit partiellen Differentialgleichungen (PDEs) dargestellt werden kann. Sie erklären die Wärmegleichung, die eine lineare PDE zweiter Ordnung ist, und wie sie zur Modellierung der Temperaturverteilung im Chip angewendet werden kann. Der Referent erläutert auch, wie mechanistisches Wissen aus der Differentialgleichung in statistische Modelle eingebracht werden kann, indem die PDEs als Beobachtung der unbekannten Funktion und des Bildes unter dem Differentialoperator interpretiert werden. Die PDEs werden mit Grundgesetzen der Physik verglichen, die die Erhaltung grundlegender Größen wie Energie und Masse beschreiben.

  • 00:30:00 In diesem Abschnitt geht Marvin Pförtner auf den Zusammenhang zwischen Temperatur und Wärmeenergie ein und wie diese durch Materialparameter zueinander proportional sind. Er erklärt, dass jede Änderung der Wärmeenergie entweder durch einen bekannten Wärmewert, der in das System eindringt, oder durch Wärme, die durch Wärmeleitung aus der Umgebung an einen bestimmten Punkt fließt, erklärt werden kann. Anschließend führt er den Informationsoperator als mathematisches Konzept ein, das verwendet werden kann, um jede Information auszudrücken, einschließlich der einer Differentialgleichung. Er erklärt weiter, wie ein Gaußscher Prozess Prior verwendet werden kann, um eine unbekannte Funktion U zu modellieren, und wie der Posterior unter Verwendung von Closures von Gaußschen Prozessen unter linearen Beobachtungen berechnet werden kann. Da das Lösen von PDEs jedoch einen unendlichen Satz von Beobachtungen erfordert, ist es in den meisten Fällen rechnerisch unmöglich, es sei denn, analytische Informationen über das zu lösende Problem sind bekannt.

  • 00:35:00 In diesem Abschnitt erörtert der Referent die Verwendung von Gaußschen Prozessen (GPs) zum Lösen von partiellen Differentialgleichungen (PDEs), was dem Ansatz ähnelt, der in gewöhnlichen Differentialgleichungen (ODEs) verwendet wird. Der GP wird als Wahrscheinlichkeitsmaß auf Funktionsräumen angesehen, und ein linearer Operator bildet die Abtastpfade dieses GP auf RN ab. Es stellt sich heraus, dass die vorherige Vorhersage dieses Prozesses eine Normalverteilung ist, wobei der Mittelwert durch das Bild der GP-Mittelwertfunktion durch den linearen Operator gegeben ist und die Kovarianzmatrix der im endlichdimensionalen Fall gefundenen Kovarianzmatrix sehr ähnlich ist. Es stellt sich heraus, dass die Rückseite dieses Ereignisses tatsächlich eine ähnliche Struktur wie sie hat. Der Redner merkt an, dass viele theoretische Details involviert sind und aufgrund der Unendlichkeiten, die mit der Lösung von PDEs mit GPs verbunden sind, Vorsicht geboten ist.

  • 00:40:00 In diesem Abschnitt erklärt Marvin Pförtner, wie man eine bestimmte Wahl eines linearen Operators berechnet und die Schwierigkeiten, dies in der Standardnotation für lineare Operatoren auszudrücken. Er erörtert auch, wie man das eine Argument differenziert, das andere Argument differenziert und eine Matrix aller paarweisen Ableitungen zwischen zwei Punkten erstellt. Dann spricht er darüber, wie man dasselbe Theorem verwendet, um es auf das Problem anzuwenden und den späteren Gaußschen Prozess zu berechnen, und wie man den Satz von Kollokationspunkten definiert.

  • 00:45:00 In diesem Abschnitt erklärt der Referent, wie eine verallgemeinerte Form der Inferenz des Gaußschen Prozesses ein Grenzwertproblem lösen kann. Sie skizzieren, wie die Beobachtungen mit einer schwarzen Funktion dargestellt werden können, die mit der rechten Seite der partiellen Differentialgleichung (PDE) übereinstimmt, und wie die daraus gewonnenen Informationen an den ursprünglichen Gaußschen Prozess weitergegeben werden können. Der Freiheitsgrad in der PDE, den die Randbedingungen nicht festlegen, kann Unsicherheit verursachen, aber durch das Auferlegen von Dirichlet-Randbedingungen wird das Posterior zu einem normalen Regressionsproblem des Gaußschen Prozesses, das funktioniert, wenn die beiden Grenzwerte eingehalten werden. Der Referent betont, wie wichtig es ist, darauf hinzuweisen, dass Grenzwerte im Einsatz normalerweise nicht bekannt sind und es hilfreich wäre, sowohl die Grenzwerte als auch die Wärmequellenverteilung mit Unsicherheit zu versehen.

  • 00:50:00 In diesem Abschnitt geht der Referent auf realistischere Randbedingungen für partielle Differentialgleichungen ein. Er gibt an, dass Wärme gleichmäßig über die gesamte Oberfläche der CPU entzogen wird, und diese Informationen können als Neumann-Randbedingungen modelliert werden, bei denen die erste Ableitung eines Randpunkts anstelle des Werts des Randpunkts gesetzt wird. Auf diese Weise können wir dem Modell Unsicherheit hinzufügen und eine Gaußsche Verteilung verwenden, um die Ableitung zu modellieren. Zur Beschreibung dieser Randbedingung wird ein zusätzlicher Informationsoperator verwendet. Der Referent erklärt ferner, wie die absolute Skala des Systems durch die Verwendung von Thermometern innerhalb der CPU bestimmt wird, und auch, wie unsichere Schätzungen der Funktion erhalten werden können, indem eine vorherige Annahme unter Verwendung eines anderen Gaußschen Prozesses modelliert wird.

  • 00:55:00 In diesem Abschnitt erläutert Marvin Pförtner, wie man mithilfe von Gaußschen Prozessen und Informationsoperatoren Vorwissen über das Verhalten eines Systems in das Modell integriert. Er erwähnt, dass es wichtig ist, die Funktion auf der rechten Seite für das zu Null integrierbare Modell zu wählen, um zu vermeiden, dass sich das System nur kontinuierlich aufheizt. Pförtner fährt dann mit der Erörterung der Herausforderungen fort, sicherzustellen, dass der GP in allen seinen Proben Fläche eins hat, und wie sie gelöst werden können, indem zusätzliche Einschränkungen hinzugefügt werden, einschließlich der Grenzeffekte, die die über die Grenze abgegebene Wärme berücksichtigen. Abschließend kommt Pförtner zu dem Schluss, dass dieser GP-Ansatz in Kombination mit dem Begriff eines Informationsoperators es uns ermöglicht, Vorwissen über das Verhalten des Systems einzubeziehen, mechanistisches Wissen in Form einer linearen PDE einzufügen und Randbedingungen und rechte Seiten zu handhaben.

  • 01:00:00 In diesem Abschnitt erörtert Marvin Pförtner die Verwendung von Gaußschen Prozessen zur Lösung partieller Differentialgleichungen (PDEs) durch Schätzung eines Wahrscheinlichkeitsmaßes über Funktionen anstelle einer Punktschätzung, die Konfidenzintervalle und Stichproben ergeben kann, die die Bedingungen der PDE erfüllen . Er erklärt, dass dieser Ansatz ehrlicher ist, weil er die Unsicherheit bei der Schätzung der Funktion auf der rechten Seite der PDE anerkennt und dass er auf 2D-Simulationen sowie auf Simulationen mit Zeit als weiterer räumlicher Dimension angewendet werden kann. Pförtner merkt an, dass der hintere Mittelwert dieser Methode, bei der keine Unsicherheit angenommen wird, einer klassischen Methode entspricht, die als symmetrische Kollokation bezeichnet wird. Abschließend erklärt er, dass andere Methoden zur Lösung von PDEs, wie gewichtete Residual-, Finite-Volumen- und Spektralmethoden, auch als hintere Mittelwerte eines Gaußschen Prozesses realisiert werden können, nur ohne die Unsicherheitsquantifizierung.

  • 01:05:00 In diesem Abschnitt erläutert der Referent, wie mit Gaußschen Prozessen (GPs) lineare partielle Differentialgleichungen (PDEs) gelöst und auch Regressionen zur Funktionsschätzung realisiert werden können. Sie betonen die Bedeutung der Auswahl der richtigen Funktionen und vor der Arbeit mit sowie die Vorteile der Unsicherheitsquantifizierung. Der Referent weist auch auf Fehlerfälle hin, beispielsweise wenn die Abtastpfade von GPs nicht differenzierbar sind, und die Notwendigkeit, wichtige Bedingungen zu überprüfen, um alles streng zu machen. Der Abschnitt endet mit einem Teaser einer bevorstehenden Veröffentlichung aus der Gruppe der Sprecher, die sich mit den formalen Details dieser Theoreme befassen wird.

  • 01:10:00 In diesem Abschnitt erörtert der Referent, wie Gaußsche Prozesse (GPs) definiert und verwendet werden, um unbekannte Funktionen zu modellieren. GPs sind Sammlungen von reellwertigen Zufallsvariablen, eine für jeden Punkt in ihrem Bereich. Sie werden verwendet, um Funktionen darzustellen, aber wir kennen nur die endliche Kombination von Bewertungen des GP. Um einen Abtastpfad eines GP zu erhalten, müssen wir eine Funktion kontinuierlich abtasten, indem wir ein Omega fixieren und es durch alle Funktionen transformieren. Wir stellen sicher, dass die Probenpfade ausreichend differenzierbar sind, um sicherzustellen, dass sie definiert sind. Um LF, das Bild eines GP unter einem linearen Operator L, zu berechnen, legen wir außerdem ein Omega fest und wenden L auf die entsprechende Funktion an.

  • 01:15:00 In diesem Abschnitt erklärt der Sprecher, wie ein Probenpfad durch einen linearen Operator abgebildet werden kann, um ein unendlichdimensionales Objekt namens GP zu erstellen, das später in eine Zufallsvariable umgewandelt wird, die messbar sein muss. Sie stellen fest, dass die Abtastpfade von GPS in einen reproduzierenden Kern-Hilbert-Raum umgewandelt werden, indem ein geeigneter Kern ausgewählt wird, jedoch ist der reproduzierende Kern-Hibbert-Raum des eigentlichen Kerns des GP nicht der Raum, aus dem die Proben kommen, und ein größerer Raum ausgewählt werden, in dem diese Proben enthalten sind. Der Referent geht weiter auf den Matern-Kern ein, der in der Praxis nützlich ist und die Differenzierbarkeit des GP steuern kann, und liefert eine Formel zur Berechnung des Parameters P für den Matern-Kern, die helfen kann, den Prozess zu verallgemeinern.

  • 01:20:00 In diesem Abschnitt erklärt der Referent, wie man einen d-dimensionalen Kern für partielle Differentialgleichungen (PDEs) konstruiert, indem man Produkte von eindimensionalen Matern-Kernen über die Dimensionen nimmt, insbesondere wenn es gemischte Ordnungen der Ableitungen gibt. Dies hilft bei der Anpassung an die konkrete Gleichung, die Benutzer zu lösen versuchen. Darüber hinaus bietet GPS einen Rahmen, um verschiedene Informationsquellen unter Verwendung von affinen Informationsoperatoren in einem einzigen Regressionsmodell zu kombinieren. Der Referent betont, wie wichtig es ist, bei der Modellkonstruktion mathematisch vorsichtig vorzugehen, insbesondere bei der Konstruktion des Priors für eine bestimmte Gleichung.
 

Vortrag 9 -- Monte Carlo -- Philipp Hennig



Numerik von ML 9 -- Monte Carlo -- Philipp Hennig

In diesem Video zum Thema Monte Carlo erklärt Philipp Hennig, dass die Integration ein grundlegendes Problem des maschinellen Lernens ist, wenn es um Bayes'sche Inferenz mit dem Satz von Bayes geht. Er stellt den Monte-Carlo-Algorithmus als eine spezifische Art der Integration vor und gibt einen kurzen Überblick über die Geschichte der Methode. Er diskutiert auch die Eigenschaften von Monte-Carlo-Algorithmen, wie z. B. unverzerrte Schätzung und Varianzreduktion bei einer Erhöhung der Anzahl von Stichproben. Darüber hinaus geht Hennig auf den Metropolis-Hastings-Algorithmus, Markov Chain Monte Carlo und Hamiltonian Monte Carlo ein und gibt einen Überblick über die Eigenschaften der einzelnen Algorithmen und wie sie bei der Stichprobenziehung aus einer Wahrscheinlichkeitsverteilung funktionieren. Letztendlich weist Hennig darauf hin, wie wichtig es ist, zu verstehen, warum Algorithmen verwendet werden, anstatt sie blind anzuwenden, um optimale und effiziente Ergebnisse zu erzielen.

Im zweiten Teil des Videos diskutiert Philipp Hennig Monte-Carlo-Methoden für hochdimensionale Verteilungen, insbesondere den No-U-Turn-Sampler (NUTS)-Algorithmus, der das Problem mit der U-Turn-Idee überwindet, das detaillierte Gleichgewicht zu brechen. Hennig betont, dass diese Algorithmen zwar komplex und schwierig zu implementieren sind, sie aber zu verstehen, um sie effektiv einzusetzen, entscheidend ist. Er stellt auch den reflexartigen Ansatz zur Berechnung erwarteter Werte mit Monte-Carlo-Methoden in Frage und schlägt vor, dass es andere Möglichkeiten geben könnte, ohne Zufälligkeit zu approximieren. Hennig diskutiert das Konzept und die Grenzen der Zufälligkeit, das Fehlen von Konvergenzraten für Monte-Carlo-Methoden und schlägt die Notwendigkeit vor, andere Methoden für maschinelles Lernen in Betracht zu ziehen, anstatt sich auf deterministische Zufälligkeit zu verlassen.

  • 00:00:00 In diesem Abschnitt führt der Kursleiter in das Thema Integration ein, das ein grundlegendes Problem beim maschinellen Lernen ist, wenn Bayes'sche Inferenz zur Berechnung bedingter Posterior-Verteilungen unter Verwendung des Bayes-Theorems durchgeführt wird. Er erklärt, dass dieser Prozess ein Integral enthält, das den Rand darstellt, der als erwarteter Wert einer bedingten Verteilung berechnet wird. Der Kursleiter betont, wie wichtig es ist, zu wissen, wie man die Integration richtig durchführt, und stellt den Monte-Carlo-Algorithmus als eine spezifische Art der Integration vor. Er gibt einen kurzen Überblick über die Geschichte von Monte Carlo und erläutert, warum es wichtig ist, zu verstehen, warum Algorithmen verwendet werden, anstatt sie einfach blind anzuwenden.

  • 00:05:00 In diesem Abschnitt diskutiert Philipp Hennig die Geschichte, wie Monte-Carlo-Simulationen entwickelt wurden, um den Entwurf einer Atombombe in den 1940er Jahren zu unterstützen. Das Problem bestand darin, die Geometrie zu optimieren, um eine Explosion zu erreichen, und die Lösung bestand darin, Monte-Carlo-Simulationen zu verwenden, um Integrale mit Summen zu approximieren. Zu diesem Zweck wurde der Fermi-Analogcomputer erfunden, der aus zwei Rädern und einem Stift besteht, um die Bahn eines Neutrons mithilfe von Zufallszahlen aus einem Würfel zu simulieren. Obwohl dieser Prozess einfach erscheint, war diese Methode der erste Schritt zur Entwicklung von Monte-Carlo-Simulationen für verschiedene Bereiche.

  • 00:10:00 In diesem Abschnitt wird das Konzept der Monte-Carlo-Simulationen erläutert, um einen Erwartungswert zu schätzen, indem das Integral durch eine Summe über Bewertungen einer Funktion an aus einer Verteilung gezogenen Punkten ersetzt wird. Dies ist ein unverzerrter Schätzer mit einer Varianz, die mit zunehmender Anzahl von Stichproben abnimmt, was zu einem Fehler führt, der wie eins über der Quadratwurzel der Anzahl von Stichproben abfällt. Während Statistiker argumentieren, dass dies die optimale Rate für unvoreingenommene Schätzer ist, betrachten numerische Mathematiker diese Rate als ziemlich langsam, wobei polynomische Raten bevorzugt werden. Diese Methode hat jedoch ihre Vorteile, wie z. B. die Freiheit von Dimensionalität, da die Varianz nicht von der Dimensionalität der zugrunde liegenden Verteilung abhängt.

  • 00:15:00 In diesem Abschnitt geht Philipp Hennig auf die Debatte um die Dimensionalität des Monte-Carlo-Problems ein. Obwohl es eine Varianz von f unter p gibt, die mit der Dimensionalität des Problems zusammenhängen könnte, wird argumentiert, dass sie nicht von der Dimensionalität abhängt. Bei bestimmten strukturierten Problemen kann die Varianz jedoch als Funktion der Dimensionalität exponentiell schnell explodieren. Dennoch sind die meisten interessanten Anwendungen der Monte-Carlo-Abtastung unempfindlich gegenüber der Dimensionalität des Problems, was die Berechnung hochdimensionaler Probleme ermöglicht. Hennig diskutiert auch das klassische Beispiel der Berechnung von Pi mit Monte-Carlo-Sampling, bei dem es mit einer Rate, die durch die inverse Quadratwurzel der Anzahl der Samples gegeben ist, gegen die Wahrheit konvergiert.

  • 00:20:00 In diesem Abschnitt diskutiert Philipp Hennig Monte-Carlo-Methoden zur Approximation von Integralen. Er erklärt, wie diese Methode funktioniert, indem er eine große Anzahl von Stichproben aus einer Verteilung zieht und den erwarteten Wert unter diesen Simulationen berechnet. Dies kann eine gute Lösung sein, wenn eine grobe Schätzung erforderlich ist, aber es ist nicht praktikabel für hochpräzise Antworten. Hennig spricht auch über Methoden zum Konstruieren von Stichproben aus schwierig zu handhabenden Verteilungen, wie z. B. Ablehnungsstichproben und wichtige Stichproben, stellt jedoch fest, dass diese Methoden in hohen Dimensionen nicht gut skalieren.

  • 00:25:00 In diesem Abschnitt wird die Idee diskutiert, Zufallsvariablen basierend auf einer hochdimensionalen Verteilung zu erzeugen. Die Standardmethode dafür heißt Markov Chain Monte Carlo, die auf einer Struktur basiert, die sich mit endlichem Gedächtnis iterativ vorwärts bewegt. Ein Verfahren dieses Typs ist der Algorithmus von Metropolis Hastings, der das Konstruieren einer Markov-Kette und das Gehen zu einem neuen Ort unter Verwendung einer Vorschlagsverteilung und eines Verhältnisses zwischen der Verteilung, aus der gezogen wird, und der vorgeschlagenen Verteilung beinhaltet. Dieser Algorithmus wurde in den 1950er Jahren von einer Gruppe von Kernphysikern erfunden, die an der Optimierung der Geometrien von Atomwaffen arbeiteten, und wird heute noch häufig verwendet.

  • 00:30:00 In diesem Abschnitt erörtert Philipp Hennig den Metropolis-Hastings-Algorithmus, der eine Art Markov-Ketten-Monte-Carlo-Algorithmus ist, der verwendet wird, um aus einer Wahrscheinlichkeitsverteilung Stichproben zu ziehen. Er demonstriert, wie der Algorithmus Punkte generiert, indem er aus einer Vorschlagsverteilung zieht und sie basierend auf ihrer Wahrscheinlichkeitsdichte akzeptiert oder ablehnt. Hennig betont auch, wie wichtig es ist, eine richtig angepasste Vorschlagsverteilung zu verwenden, um die zu untersuchende Verteilung effektiv zu untersuchen. Der Metropolis-Hastings-Algorithmus hat zwei wichtige Eigenschaften, detailliertes Gleichgewicht und Ergodizität, die sicherstellen, dass der Prozess des Ausführens des Algorithmus für eine lange Zeit eine stationäre Verteilung erzeugt, die durch die abgetastete Verteilung gegeben ist.

  • 00:35:00 In diesem Abschnitt diskutiert Philipp Hennig die Eigenschaften von Algorithmen, die mindestens eine stationäre Verteilung haben, die eine Folge ist, die aperiodisch ist und sich positiv wiederholt, was bedeutet, dass es eine Wahrscheinlichkeit ungleich Null gibt, zu diesem Punkt zurückzukehren ein zukünftiger Punkt. Der Algorithmus darf keine Struktur haben, die dazu führen kann, dass er in einer anderen stationären Verteilung hängen bleibt. Metropolis Hastings ist beispielsweise ein Algorithmus, der diese beiden Eigenschaften erfüllt. Es hat jedoch eine schlechtere Rate im Vergleich zum einfachen Monte Carlo und kann lokales zufälliges Arbeitsverhalten aufweisen. Die Anzahl der vom Algorithmus gezogenen effektiven Abtastwerte hat etwas mit der Autobahn-freien Schrittlänge oder der freien Zeitlänge zwischen zwei Abtastwerten an völlig gegenüberliegenden Enden der Verteilung zu tun.

  • 00:40:00 In diesem Abschnitt diskutiert der Referent Monte-Carlo-Methoden und wie man sie bewertet. Er erklärt, dass man, um von einem Ende der Verteilung zum anderen zu gelangen, eine große Anzahl von Schritten verwenden muss, die proportional zum Quadrat des Verhältnisses zwischen langen und kleinen Längenskalen sind, was zu Konvergenzraten führt, die immer noch 0 der Quadratwurzel sind von t, aber mit einem riesigen Vielfachen davor. Er erklärt, dass eine Herausforderung bei Monte Carlo darin besteht, dass, wenn Sie sich nur die Statistiken dieser blauen Punkte ansehen, ohne zu wissen, wie die Form der Verteilung ist, und ohne die roten Punkte als Referenz zu haben, es nicht ganz offensichtlich ist, wie Sie dies bemerken würden ist der Fall. Schließlich spricht er über Hamiltonian Monte Carlo, von dem er behauptet, dass es das "Atom" von Markov Chain Monte Carlo ist und der übliche Algorithmus ist, der verwendet wird, um aus der Wahrscheinlichkeitsverteilung P von x zu ziehen.

  • 00:45:00 In diesem Abschnitt erläutert Philipp Hennig das Konzept des Hamiltonian Monte Carlo (HMC), einer Methode, mit der Stichproben aus einer Wahrscheinlichkeitsverteilung gezogen werden. In HMC wird die Anzahl der Variablen verdoppelt, wobei eine neue Variable das Momentum der bestehenden Variable darstellt. Die Impulsvariable wird dann gemäß einer Funktion entwickelt, die eine gewöhnliche Differentialgleichung definiert, wobei H die Energie und K die kinetische Energie darstellt. Die zeitliche Ableitung von X ist gegeben durch die partielle Ableitung von H nach P, und die zeitliche Ableitung von P ist gegeben durch minus der partiellen Ableitung von H nach X. Wenn es dem Algorithmus gelingt, Stichproben aus der gemeinsamen Verteilung zu ziehen X und P, zieht es geringfügig aus der Verteilung über X.

  • 00:50:00 In diesem Abschnitt erörtert Philipp Hennig die Implementierung eines Solvers für gewöhnliche Differentialgleichungen (ODE) für die Ableitung der Wahrscheinlichkeit eines gegebenen Zustands unter Verwendung der Hoyn-Methode, die Konvergenzraten der zweiten Ordnung aufweist. Anschließend vergleicht er dies mit der Verwendung einer Softwarebibliothek und zeigt, wie der Solver die Dynamik eines Hamilton-Systems simuliert, bei dem es sich um ein Teilchen der Masse 1 handelt, das sich in einem durch den Logarithmus einer Form gegebenen Potential bewegt und letztendlich schöne Muster erzeugt. Obwohl für die Simulation eine relativ konstante Anzahl von Schritten erforderlich ist, stellt Hennig fest, dass das Metropolis-Hastings-Schema immer akzeptiert und der Algorithmus Schritte, die sich nicht in einem Abstand bewegen, der durch Skalen langer Länge gegeben ist, über Skalen kurzer Länge quadriert, aber ohne eine Quadratwurzel, was es letztendlich zu einem effizienteren Algorithmus macht.

  • 00:55:00 In diesem Abschnitt erklärt Philipp Hennig, wie der Hamiltonsche Monte-Carlo-Algorithmus funktioniert. Dieser Algorithmus schöpft aus einer gemeinsamen Verteilung über X und P an einer konstanten Potentiallinie. Die Potentiallinie wird durch den anfänglichen Impuls gewählt, und bei jedem Schritt wird der Impuls geändert, um sich zu einer anderen Potentiallinie zu bewegen. Hennig vergleicht den Algorithmus mit einem Optimierungsproblem und stellt fest, dass er zwei Parameter namens LeapFrog-Schritte und Delta T hat, die richtig gewählt werden müssen, damit der Algorithmus effektiv funktioniert. Wenn die Parameter falsch eingestellt sind, könnte die Simulation Rechenressourcen verschwenden, indem sie sich hin und her bewegt, ohne tatsächlich irgendwohin zu reisen.

  • 01:00:00 In diesem Abschnitt diskutiert Philipp Hennig die Idee eines U-Turn- und des No-U-Turn-Sampler (NUTS)-Algorithmus in Monte-Carlo-Methoden für hochdimensionale Verteilungen. Das Problem mit der U-Turn-Idee ist, dass sie das detaillierte Gleichgewicht stört und den Algorithmus dazu bringt, sich zu entfernen und nicht zurückzukommen. Der NUTS-Algorithmus überwindet dies, indem er zwei Markov-Ketten in entgegengesetzte Richtungen startet und wartet, bis eine beginnt, sich umzudrehen, und dann zufällig eine auswählt. Dies erfüllt das detaillierte Gleichgewicht und ist eine Schlüsselkomponente vieler Markov-Ketten-Monte-Carlo-Algorithmen. Hennig betont, dass diese Algorithmen zwar komplex und schwierig zu implementieren sind, sie aber zu verstehen, um sie effektiv einzusetzen, entscheidend ist.

  • 01:05:00 In diesem Abschnitt erörtert der Referent den spontanen Ansatz zur Berechnung der erwarteten Werte bei der Bayes'schen Inferenz unter Verwendung von Monte-Carlo-Methoden und hebt die niedrige Konvergenzrate und die Notwendigkeit unvoreingenommener Schätzer hervor. Der Sprecher stellt jedoch in erster Linie die Notwendigkeit unvoreingenommener Schätzer und Zufälligkeit in Frage und schlägt vor, dass es andere Möglichkeiten geben könnte, die interessierende Menge ohne Zufälligkeit zu approximieren. Der Referent berührt auch das Konzept der Zufälligkeit und seine Beziehung zu Folgen und endlichen Folgen, die auf einer Turing-Maschine berechnet werden.

  • 01:10:00 In diesem Abschnitt diskutiert Philipp Hennig den Begriff der Zufälligkeit durch verschiedene Zahlenfolgen. Er argumentiert, dass einige Sequenzen, wie die von Würfeln erzeugten, kulturell als zufällig akzeptiert wurden, obwohl sie nicht wirklich zufällig sind. Andererseits sind irrationale Zahlen wie Pi nicht zufällig, aber auch strukturlos. Darüber hinaus erklärt Hennig, wie ein Seed die Zufälligkeit einer von einem Zufallszahlengenerator erzeugten Sequenz verändern kann. Abschließend erläutert er, wie physische Maschinen, die Zufallszahlen erzeugten, auf Zufälligkeit getestet wurden, aber letztendlich die Die-Hard-Tests der Zufälligkeit nicht bestanden.

  • 01:15:00 In diesem Abschnitt diskutiert Philipp Hennig den Zufall und seine Beziehung zum maschinellen Lernen, insbesondere zu Monte-Carlo-Methoden. Er erklärt, dass Zufälligkeit mit einem Mangel an Informationen zu tun hat, weshalb sie in Bereichen wie der Kryptographie anwendbar ist, wo es wichtig ist, dass jemand etwas weiß. Bei den Arten von Zufallszahlen, die beim modernen maschinellen Lernen verwendet werden, ist es falsch, über diesen Mangel an Informationen zu sprechen. Bei der Verwendung einer Monte-Carlo-Methode verbergen Verfasser wissenschaftlicher Arbeiten, die sich auf Monte-Carlo-Methoden stützen, häufig Informationen vor ihren Betrachtern. Sie verwenden es, weil es einfach zu verwenden und zu implementieren ist, nicht weil es voreingenommen ist.

  • 01:20:00 In diesem Abschnitt erklärt Philipp Hennig, wie die Markov-Kette Monte Carlo (MCMC) abläuft und dass sie relativ gut für Probleme mit hoher Dimensionalität funktioniert, obwohl wir die Konvergenzraten dafür nicht kennen. MCMC ist der einzige Algorithmus, für den wir theoretische Garantien haben, die auf der Verwendung von Zufallszahlen beruhen, aber es wird akzeptiert, dass durch diesen Ansatz erzeugte Proben nützlich sind, wenn es keine anderen Vergleichsmethoden gibt. Hennig diskutiert auch, dass MCMC grundsätzlich sehr langsam und mühsam ist und dass es möglicherweise bessere Möglichkeiten gibt, Integrale zu approximieren. Er warnt davor, dass die Algorithmen, die sie sich nächste Woche ansehen werden, normalerweise nur für niedrigdimensionale Probleme funktionieren, und schlägt vor, andere Methoden für maschinelles Lernen in Betracht zu ziehen, anstatt sich auf deterministische Zufälligkeit zu verlassen.
 

Vorlesung 10 -- Bayes'sche Quadratur -- Philipp Hennig



Numerik von ML 10 -- Bayes'sche Quadratur -- Philipp Hennig

In diesem Video diskutiert Philipp Hennig die Bayessche Quadratur als effiziente Methode für das Berechnungsproblem der Integration beim maschinellen Lernen. Er erklärt, wie eine reellwertige Funktion eindeutig identifiziert werden kann, aber es schwierig ist, Fragen direkt zu beantworten. Die Bayessche Quadratur ist eine Inferenzmethode, die das Problem des Auffindens eines Integrals als Inferenzproblem behandelt, indem sie ein Prior über das unbekannte Objekt und die berechenbaren Größen setzt und dann die Bayessche Inferenz durchführt. Hennig vergleicht diesen Ansatz auch mit der Monte-Carlo-Ablehnung und dem Wichtigkeits-Sampling und zeigt, wie die Bayes'sche Quadratur die klassischen Quadraturregeln übertreffen kann. Die Vorlesung behandelt den Kalman-Filteralgorithmus für die Bayes'sche Quadratur und seine Verbindung zu klassischen Integrationsalgorithmen, mit einer Diskussion über die Verwendung von Unsicherheitsschätzungen in numerischen Verfahren. Schließlich untersucht Hennig, wie sich die soziale Struktur der numerischen Berechnung auf das Algorithmendesign auswirkt, diskutiert eine Methode zum Entwerfen von Berechnungsmethoden für bestimmte Probleme und wie probabilistisches maschinelles Lernen den Fehler in Echtzeit abschätzen kann.

Im zweiten Teil des Videos diskutiert Philipp Hennig die Bayessche Quadratur, bei der es darum geht, Größen, die uns wichtig sind, wie Integrale und Algorithmuswerte, vorher zu verteilen, um etwas auf Bayessche Weise zu berechnen. Das Verfahren ordnet den Schätzungen sowohl eine spätere Schätzung als auch eine Unsicherheitsschätzung zu, die mit klassischen Methoden identifiziert werden können. Hennig erklärt, wie sich der Algorithmus an die beobachtete Funktion anpasst und anhand eines aktiven Lernverfahrens bestimmt, wo als nächstes ausgewertet werden soll. Dieser Algorithmus kann in höheren Dimensionen arbeiten und hat einige nicht trivial intelligente Konvergenzraten. Er diskutiert auch Einschränkungen klassischer Algorithmen und Quadraturregeln und schlägt eine Problemumgehung durch adaptive Argumentation vor.

  • 00:00:00 In diesem Abschnitt diskutiert Philipp Hennig das Berechnungsproblem der Integration beim maschinellen Lernen mit Fokus auf Bayes'sche Quadratur als effiziente Methode. Er beschreibt eine reellwertige Funktion, f von x, die ein Produkt zweier Funktionen ist, X minus Sinus zum Quadrat 3x und X minus x zum Quadrat, und durch das Aufschreiben einer Reihe von Zeichen eindeutig identifiziert werden kann. Hennig erklärt, dass wir zwar alles über diese Funktion wissen, aber es schwierig ist, jede Frage dazu direkt zu beantworten, wie zum Beispiel den Wert des bestimmten Integrals für minus drei bis plus 3 über dieser Funktion, der nicht in Büchern voller Integrale zu finden ist oder die neue C-Bibliothek.

  • 00:05:00 In diesem Abschnitt diskutiert Philipp Hennig die Bayessche Quadratur, eine Inferenzmethode, die das Problem der Integralfindung als Inferenzproblem behandelt, indem sie ein Prior über das unbekannte Objekt und die berechenbaren Größen setzt und dann Bayesianisch durchführt Inferenz. Indem wir einen Prior setzen, beginnen wir mit einer endlichen Unsicherheit, was zu einer engen Bandbreite möglicher Ergebnisse der Berechnung führt, was sie typisch für Berechnungen macht. Der Ansatz steht im Gegensatz zur Monte-Carlo-Ablehnung und Wichtigkeitsabtastung, die weniger effizient sind. Die geschätzte Funktion kann als Funktion der Zahl aufgetragen werden, was darauf hindeutet, dass die Bayes'sche Quadratur eine praktikable Option zum Lösen von Integralen ist.

  • 00:10:00 In diesem Abschnitt von Philipp Hennigs Vortrag erörtert er die Bayes'sche Quadratur als Methode zur Schätzung des Integrals einer Funktion mithilfe von probabilistischem maschinellem Lernen. Er vergleicht diesen Ansatz mit der Monte-Carlo-Methode und erklärt, dass ein Gaußscher Prozess als Prior über der Funktion verwendet wird. Indem wir die Funktion bei bestimmten x-Werten auswerten, können wir die latente Variable schätzen, die das Integral der Funktion ist. Hennig zeigt auch, wie dieser Ansatz klassische Quadraturregeln übertreffen kann.

  • 00:15:00 In diesem Abschnitt erklärt Philipp Hennig, wie man Integrale über den Kernel berechnet, um Integrale über jede Funktion, die wir zu lernen versuchen, zu approximieren. Indem wir eine vorherige Mittelwertfunktion und eine vorherige Kovarianzfunktion wählen, können wir das Problem der Berechnung eines Integrals in den reproduzierenden Kern-Hilbert-Raum einbetten. Durch Berechnungen, die Bewertungen der Funktion an verschiedenen Punkten beinhalten, landen wir bei der Einbettung des Kernel-Mittelwerts, bei der Integrale über den Kern berechnet werden. Daher müssen wir Kerne wählen, für die wir Integrale in geschlossener Form berechnen können, und Hennig wählt den Weiner-Prozesskern als Beispiel.

  • 00:20:00 In diesem Abschnitt diskutiert Philipp Hennig den Prozess der Bayes'schen Quadratur. Der Prozess umfasst die Verwendung eines Vino-Prozesses zuvor, eines Gaußschen Prozesses, der asymmetrisch und nicht stationär ist, und die Konditionierung eines Satzes von Funktionswerten, um einen positiven Gaußschen Prozess zu erhalten. Durch die Verwendung dieses Verfahrens ist es möglich, ein viel besseres Ergebnis als bei der Monte-Carlo-Integration zu erzielen. Um beispielsweise einen relativen Fehler von 10^-7 zu erreichen, würde die Bayes'sche Quadratur weniger als 200 Auswertungen benötigen, während die Monte-Carlo-Integration mehr als 10^11 Auswertungen erfordern würde.

  • 00:25:00 In diesem Abschnitt erörtert der Referent die Geschwindigkeit der Bayes'schen Quadratur im Vergleich zu Monte-Carlo-Simulationen. Während Monte-Carlo-Simulationen billig und einfach zu implementieren sind, ist die Bayes'sche Quadratur auch relativ schnell und kann als Kalman-Filter implementiert werden, wodurch sie für die Verwendung in maschinellen Lernmodellen geeignet ist. Der Referent erklärt die lineare Abbildung zwischen den beiden Zuständen des Prozesses und wie sie die Integration kodieren kann, wodurch es möglich wird, die stochastische Differentialgleichung zu diskretisieren und Aktualisierungen des Integrals zu berechnen. Die Vorlesung fährt dann fort, die Eigenschaften der Bayes'schen Quadratur detaillierter zu diskutieren.

  • 00:30:00 In diesem Abschnitt stellt der Referent einen Kalman-Filteralgorithmus für Bayes'sche Quadratur vor, um Integrale einer Funktion auszuwerten. Der Algorithmus umfasst das Definieren der Matrizen A und Q, um die deterministischen und stochastischen Teile des linearen zeitinvarianten Systems darzustellen, und H und R, um das Beobachtungsmodell darzustellen. Der hintere Mittelwert ist eine gewichtete Summe von Kernfunktionen, und der Kalman-Filter aktualisiert die Schätzung des Integrals, wobei die Unsicherheit des Integrals mit der dritten Schrittlänge zunimmt. Der Algorithmus wird in linearer Zeit ausgeführt, und der hintere Mittelwert ist eine stückweise lineare Funktion, die die Funktionswerte interpoliert. Der Schätzwert für das Integral ist die Summe über die Durchschnittswerte in jedem Block.

  • 00:35:00 In diesem Abschnitt erläutert Hennig das Konzept der Bayes'schen Quadratur und ihre Verbindung zur Trapezregel, einem klassischen Integrationsalgorithmus. Er stellt fest, dass die Trapezregel als hinterer Mittelwert eines komplexen Gaußschen Prozess-Inferenzschemas angesehen werden kann und dass diese besondere Einsicht ein wesentliches und allgemeines Ergebnis ist. Hennig diskutiert weiter, wie verschiedene klassische Algorithmen, sei es für numerische Berechnungen, Optimierung, lineare Algebra oder das Lösen von Differentialgleichungen, alle Verbindungen zu Bayes'schen Posterior-Schätzungen haben. Darüber hinaus betont er, dass die numerische Berechnung als Gaußsche Inferenz betrachtet werden sollte, da sie Schätzungen der kleinsten Quadrate für numerische Größen mit Unsicherheit beinhaltet, und schlägt vor, dass die Verwendung von Unsicherheitsschätzungen beim Umgang mit numerischen Methoden vorteilhaft sein kann.

  • 00:40:00 In diesem Abschnitt erörtert Philipp Hennig den Aspekt der Entscheidungsfindung numerischer Algorithmen und inwiefern sie wie ein KI-Algorithmus sind, da sie entscheiden, welche Berechnungen durchgeführt werden sollen. Eine Frage, die sich stellt, ist, wo Bewertungspunkte gesetzt werden sollen, und die Antwort darauf kann in Bayes'schen Inferenzproblemen gefunden werden. Indem wir eine Wahrscheinlichkeitsverteilung definieren, die gegen Gewissheit konvergiert, können wir eine Größe finden, die Gewissheit oder Ungewissheit beschreibt, und sie manipulieren. Für die Varianz der möglichen Verteilung über das Integral besteht das Ziel darin, sie zu minimieren, was erreicht werden kann, indem alle Delta J gleich Delta n minus eins gesetzt werden, was ein regelmäßiges Gitter von Integrationsknoten anzeigt. Zusätzlich wird die Notwendigkeit diskutiert, Integrationsknoten an beiden Enden der Integrationsdomäne zu haben.

  • 00:45:00 In diesem Abschnitt erläutert der Referent, wie der Bayes'sche Quadratur-Algorithmus verwendet werden kann, um ein Design dafür zu erhalten, wo Evaluierungsknoten basierend auf einem Gauß'schen Prozess prior platziert werden sollen. Der Algorithmus kann je nach verwendetem Prior unterschiedliche Designs bereitstellen, und die Bewertungsknoten können gemäß einer einfachen Richtlinie des maximalen Informationsgewinns ausgewählt werden. Die Trapezregel kann als Bayessche Schätzung betrachtet werden, wobei der hintere Mittelwert eine Patientenschätzung ist, die sich aus einem bestimmten Gaußschen Prozess vor dem Integranden ergibt. Der Algorithmus liefert eine Fehlerschätzung, aber die Schätzung ist nicht genau, und es besteht eine erhebliche Lücke zwischen dem tatsächlichen und dem geschätzten Fehler. Die Trapezregel gibt es jedoch seit Hunderten von Jahren, und der Algorithmus ist nicht unbedingt fehlerhaft. Die Trapezregel hat möglicherweise einige Eigenschaften, die hinterfragt werden müssen.

  • 00:50:00 In diesem Abschnitt diskutiert Philipp Hennig Varianzschätzungen und ihre Beziehung zur Bayes'schen Quadratur. Er erklärt, dass die Fehlerschätzung die Standardabweichung ist, die die Quadratwurzel des erwarteten quadratischen Fehlers ist. Die Verwendung einer konstanten Schrittweite erleichtert die Berechnung der Summe, da die Summe kein „i“ enthält. Das Theorem besagt, dass die Konvergenzrate für diese Trapezregel O von 1 über N zum Quadrat ist. Es gibt jedoch versteckte Annahmen in der Mathematik. Beispielpfade, die von einem Wiener-Prozess gezogen werden, haben ein extrem grobes Verhalten, da sie fast überall nicht differenzierbar sind, was die Annahme des Prior ungültig macht.

  • 00:55:00 In diesem Abschnitt diskutiert Philipp Hennig das Problem der Integration grober, nicht differenzierbarer Funktionen mit numerischen Algorithmen. Er erklärt, dass Algorithmen, die für supergrobe Funktionen wie die Trapezregel entwickelt wurden, möglicherweise nicht so effizient sind, wie sie es sein könnten, wenn die Funktion, die sie integrieren, viel glatter ist. Hennig weist darauf hin, dass die soziale Struktur der numerischen Berechnung, bei der Algorithmen darauf ausgelegt sind, an einer großen Klasse von Problemen zu arbeiten, zu allzu allgemeinen Methoden führen kann, die bei keinem einzelnen von ihnen besonders gut funktionieren. Er stellt jedoch fest, dass es möglich ist, eine Berechnungsmethode für ein bestimmtes Problem zu entwerfen, wenn es ausreichend wichtig ist, sobald Sie verstehen, wie diese Algorithmen funktionieren. Er erörtert auch, wie das Ausmaß des Fehlers im Algorithmus während der Ausführung abgeschätzt werden kann, indem er Ideen aus dem probabilistischen maschinellen Lernen verwendet.

  • 01:00:00 In diesem Abschnitt diskutiert Philipp Hennig, wie man die Skala einer unbekannten Konstante in der Kovarianzmatrix bei gegebenen Daten schätzen kann, und führt das Konzept der konjugierten Prioren ein. Er erklärt, dass es für Wahrscheinlichkeitsverteilungen der exponentiellen Familie immer einen konjugierten Prior wie den Gamma-Prior gibt, der verwendet werden kann, um die Varianz einer Gaußschen Verteilung zu schätzen. Hennig erzählt die Geschichte von William C. Lee Gossett, der auf diese Methode kam, als er als Brauer für Guinness arbeitete und die Verteilung von Proben aus einem Bierfass abschätzen musste. Bei dieser Methode werden der Prior und die Likelihood miteinander multipliziert und die Ergebnisse normalisiert, um die gleiche algebraische Form wie die Gammaverteilung zu erhalten, mit neuen Parametern, die auf den Beobachtungen oder Funktionswerten basieren.

  • 01:05:00 In diesem Abschnitt erklärt Philipp Hennig, wie man die Posterior-Konzentration eines Parameters und die Student-T-Verteilung schätzt. Die Methode heißt Bayessche Quadratur, bei der die Skala breit beginnt und sich konzentriert, wenn mehr Beobachtungen gesammelt werden. Die Ergebnisse werden in einem Diagramm dargestellt, in dem zunächst die Verteilungsverträge nach einer Zunahme der Beobachtungen beobachtet werden. Hennig weist darauf hin, dass die vorherigen Annahmen zu dieser glatten Funktion für dieses Problem viel zu konservativ sind und dass es viel intelligentere Algorithmen für die Integration gibt, wie z. B. die Gaußsche Quadratur mit Merkmalssätzen, die mit Legendre-Polynomen erweitert werden, die sehr gut funktionieren.

  • 01:10:00 In diesem Abschnitt diskutiert Hennig die Bayes'sche Quadratur, eine klassische Methode zur Berechnung von Integralen auf begrenzten Bereichen, wie unserem Bereich von -1 bis 1. Er erklärt, dass es entsprechende Quadraturregeln gibt, die extrem schnell konvergieren ein Super-Polynom-Konvergenzgewicht, aber das funktioniert nur für Funktionen, die tatsächlich glatt sind. Die grüne Linie in der rechten Grafik kann unter bestimmten Gaußschen Vorannahmen auch einer späteren Mittelwertschätzung entsprechen. Während das Ergebnis dieses Artikels hauptsächlich von theoretischem Interesse ist, um die Beziehung zwischen den beiden unterschiedlichen Ansätzen zur numerischen Integration zu klären, gibt es klassische Algorithmen, die für diese Art von Problem sehr gut geeignet sind und viel Struktur mit unterschiedlichen Grundlagen für verschiedene Arten von haben Integrationsprobleme. Diese Quadraturregeln approximieren das Integral, indem sie davon ausgehen, dass es in einer bestimmten Form unter Verwendung orthogonaler Polynome und einer Gewichtungsfunktion geschrieben werden kann, und es gibt spezifische Auswahlmöglichkeiten für Phi, abhängig von W und dem Integrationsbereich.

  • 01:15:00 In diesem Abschnitt erörtert der Referent die verschiedenen Arten von Tschebyscheff-Polynomen und ihre Verwendung bei der Berechnung numerischer Integrale für univariate Funktionen. Der Referent erklärt auch, warum es wichtig ist, den Integrationsbereich, die Funktionsform und den Prior zu berücksichtigen, wenn ein Prior für eine Patienten-Inferenzregel angegeben wird. Der Redner merkt an, dass klassische Integrationsalgorithmen und Quadraturregeln als eine Form von Gaußscher Schätzung des hinteren Mittelwerts betrachtet werden können und dass Entscheidungen, die von diesen Algorithmen getroffen werden, durch informationstheoretische Argumente motiviert sein können. Der Referent schließt mit der Feststellung, dass klassische Quadraturregeln zwar gut für eindimensionale Integrale funktionieren, höherdimensionale Probleme jedoch kompliziertere Ansätze erfordern, wie z. B. Monte-Carlo-Algorithmen.

  • 01:20:00 In diesem Abschnitt diskutiert der Referent die Grenzen der im vorherigen Abschnitt gezeigten Methoden, wenn es um die Skalierung in der Dimensionalität geht. Diese Methoden haben tendenziell einen exponentiellen Leistungsabfall, da ein Netz von Bewertungen erzeugt werden muss, was bedeutet, dass sie den Bereich mit Punkten abdecken müssen. Dies ist problematisch, da Gaußsche Prozesse als Prior verwendet werden und ihre spätere Unsicherheit nicht von den gesehenen Zahlen abhängt, sondern nur dort, wo Bewertungen vorgenommen wurden. Infolgedessen sind diese Integrationsverfahren nicht adaptiv, was ihre Skalierbarkeit in höheren Dimensionen einschränkt. Um dieses Problem zu lösen, werden neue Algorithmen benötigt, die durch adaptive Argumentation die Tatsache berücksichtigen können, dass einige Punkte informativer sind als andere.

  • 01:25:00 In diesem Abschnitt diskutiert Philipp Hennig die Grenzen von Gaußschen Prozessen zur Codierung nicht negativer Werte und schlägt eine Problemumgehung vor, indem eine neue Funktion definiert wird, die die eigentliche Funktion quadriert. Die resultierende Verteilung ist nicht gaußförmig und wird durch einen stochastischen Prozess angenähert, der durch einen gaußschen Prozess angenähert werden kann. Der resultierende Algorithmus heißt Wasabi, was für Warp Sequential Active Bayesian Integration steht. Es handelt sich um eine probabilistische Formulierung, die adaptiv Unsicherheit hinzufügt, wo große Funktionswerte erwartet werden, was die Erstellung von ungefähren numerischen Algorithmen ermöglicht. Die Nutzenfunktion in Blau repräsentiert die spätere Unsicherheit über Funktionswerte.

  • 01:30:00 In diesem Abschnitt diskutiert Philipp Hennig das Konzept der Bayes'schen Quadratur, einem Algorithmus zur numerischen Integration. Hennig erklärt, wie sich der Algorithmus an die beobachtete Funktion anpasst und mithilfe eines Active-Learning-Verfahrens bestimmt, wo als nächstes ausgewertet werden soll. Dieser Algorithmus kann in höheren Dimensionen arbeiten und hat einige nicht trivial intelligente Konvergenzraten. Hennig vergleicht diesen Algorithmus auch mit Monte-Carlo-Algorithmen und argumentiert, dass Vorwissen die Leistung des Algorithmus verbessern kann. Außerdem deutet er auf die Möglichkeit eines noch besseren Algorithmus jenseits von Monte Carlo hin, der nach Weihnachten diskutiert werden soll.

  • 01:35:00 In diesem Abschnitt diskutiert Philipp Hennig die Bayessche Quadratur, bei der es darum geht, eine Vorabverteilung über die uns interessierenden Größen wie Integrale und Algorithmuswerte zu legen, um etwas auf Bayessche Weise zu berechnen. Das Verfahren ordnet den Schätzungen sowohl eine spätere Schätzung als auch eine Unsicherheitsschätzung zu, die mit klassischen Methoden identifiziert werden können. Wenn die Fehlerschätzungen schlecht sind, bedeutet dies nicht unbedingt, dass die probabilistische Betrachtungsweise der Berechnung falsch ist, sondern eher, dass die Menge der vorherigen Annahmen schlecht ist. Indem wir mehr Vorwissen nutzen und numerische Algorithmen als autonome Agenten behandeln, können wir mehr Informationen extrahieren und die Algorithmen schneller und besser arbeiten lassen.
 

Vorlesung 11 – Optimierung für Deep Learning – Frank Schneider



Numerik von ML 11 – Optimierung für Deep Learning – Frank Schneider

Frank Schneider diskutiert die Herausforderungen der Optimierung für Deep Learning und betont die Komplexität des Trainings neuronaler Netze und die Bedeutung der Auswahl der richtigen Optimierungsmethoden und Algorithmen. Er weist auf die überwältigende Anzahl verfügbarer Methoden und die Schwierigkeit hin, verschiedene Algorithmen zu vergleichen und zu bewerten. Schneider bietet Beispiele aus der Praxis für das erfolgreiche Training großer Sprachmodelle und die Notwendigkeit von nicht standardmäßigen Lernratenplänen und Änderungen während des Flugs, damit das Modell erfolgreich trainiert werden kann. Schneider betont, wie wichtig es ist, den Benutzern mehr Einblick in die Verwendung dieser Methoden und die Auswirkungen von Hyperparametern auf den Trainingsprozess sowie die Erstellung von Benchmarking-Übungen zu geben, um Praktikern bei der Auswahl der besten Methode für ihren spezifischen Anwendungsfall zu helfen. Er diskutiert auch neuere Methoden wie Alpha und wie sie genutzt werden können, um den Trainingsprozess für ein neuronales Netzwerk zu steuern.

Im zweiten Teil des Videos zur Numerik der Optimierung für Deep Learning stellt Frank Schneider das „Deep Debugger“-Tool Cockpit vor, das zusätzliche Instrumente bereitstellt, um Probleme im Trainingsprozess zu erkennen und zu beheben, wie z. B. Datenfehler und Modellblöcke. Er erklärt die Bedeutung der Normalisierung von Daten für optimale Hyperparameter, die Beziehung zwischen Lernraten und Testgenauigkeit und die Herausforderungen beim Training neuronaler Netze mit Stochastik. Schneider ermutigt die Studierenden, daran zu arbeiten, das Training neuronaler Netze zu verbessern, indem sie den Gradienten als Verteilung betrachten und langfristig bessere autonome Methoden entwickeln.

  • 00:00:00 In diesem Abschnitt führt Frank Schneider in das Thema Deep-Learning-Optimierung ein und gibt einen Überblick über die Herausforderungen beim Training neuronaler Netze. Er erklärt, dass es zwar wie eine einfache Frage zum Trainieren neuronaler Netze erscheinen mag, es aber tatsächlich mehrere Möglichkeiten gibt, sie zu beantworten, einschließlich Überlegungen zu Hardware und Software. Das Hauptaugenmerk des Vortrags liegt jedoch auf den Methoden und Algorithmen, mit denen neuronale Netze trainiert werden, und Schneider betont, dass es keine Patentlösung gibt. Er liefert ein reales Beispiel einer Gruppe bei Midi, die ein großes Sprachmodell trainiert, und zeigt, dass ein nicht standardmäßiger Zeitplan für die Lernrate und Änderungen der Lernrate während des Flugs erforderlich waren, damit das Modell erfolgreich trainiert werden konnte. Insgesamt verdeutlicht Schneiders Vortrag die Komplexität des Trainings neuronaler Netze und die Bedeutung der sorgfältigen Auswahl der richtigen Optimierungsmethoden und Algorithmen.

  • 00:05:00 In diesem Abschnitt erörtert der Referent die Herausforderungen beim effizienten Trainieren eines neuronalen Netzwerks, wobei er das Beispiel des von OpenAI bereitgestellten Logbuchs anführt, das dem Kampf beim Trainieren eines großen Sprachmodells gewidmet ist. Der Referent erwähnt, dass es derzeit keine effizienten Methoden zum Trainieren neuronaler Netze gibt, obwohl einige Richtlinien und Intuitionen verfügbar sind. Der Vortrag konzentriert sich darauf zu verstehen, warum das Training eines neuronalen Netzes so herausfordernd ist und was getan werden kann, um die Situation zu verbessern. Der Referent weist darauf hin, dass dies von der üblichen Vorlesungsstruktur abweichen wird, da es zahlreiche aktuelle State-of-the-Art-Methoden gibt und unklar ist, welche dieser Methoden die effizienteste ist.

  • 00:10:00 In diesem Abschnitt erörtert der Redner die Missverständnisse, dass maschinelles Lernen in erster Linie Optimierung ist. Während die Optimierung die Suche nach einem Minimum in einer Verlustlandschaft umfasst, besteht das Ziel des maschinellen Lernens darin, eine Funktion zu finden, die am besten zu den Trainingsdaten passt und sich gut auf neue Daten verallgemeinern lässt. Dies wird durch die Verwendung einer Verlustfunktion erreicht, die die Differenz zwischen den Vorhersagen des Modells und den tatsächlichen Ausgaben quantifiziert. Da die wahre Datenverteilung oft unbekannt ist, wird das Modell mit einer endlichen Datenprobe trainiert und der Optimierungsprozess arbeitet mit dem empirischen Verlust. Der Referent betont, dass Deep Learning aufgrund höherdimensionaler Landschaften und aussagekräftiger Hypothesen eine höhere Komplexität mit sich bringt.

  • 00:15:00 In diesem Abschnitt erklärt Frank Schneider, dass maschinelles Lernen nicht nur Optimierung ist, da die zu optimierende Menge (empirischer Verlust) nicht mit der Menge übereinstimmt, um die sich der Algorithmus tatsächlich kümmert (wahrer Verlust). Überanpassung und Verallgemeinerung sind tatsächlich komplizierter, als nur vom Zug zum Test zu gehen, wie bei Übersetzungsaufgaben, bei denen Modelle auf Kreuzentropieverlust trainiert, aber anhand der Qualität der Übersetzung bewertet werden. Infolgedessen haben Menschen verschiedene Methoden entwickelt, wie z. B. stochastische Gradientenabnahme, Momentumvarianz, RMS-Prop und Atom, um frühere Gradienten zu berücksichtigen und zu verstehen, wie sie sich in Zukunft verhalten sollten. Insgesamt stehen über 150 Methoden zur Optimierung und zum Training von Algorithmen für Deep Learning zur Verfügung.

  • 00:20:00 In diesem Abschnitt erörtert der Referent die überwältigende Anzahl von Optimierungsmethoden, die für das Training neuronaler Netze verfügbar sind, wobei über 100 Methoden zur Auswahl stehen. Es geht nicht nur darum, eine Methode auszuwählen, sondern auch, wie man sie effektiv einsetzt. Selbst wenn wir uns beispielsweise für eine Optimierungsmethode wie SGD oder Adam entscheiden, müssen wir uns dennoch für Hyperparameter wie Lernrate und Epsilon entscheiden, die schwierig abzustimmen sind. Der Redner schlägt vor, dass wir geeignete Benchmarks brauchen, um zu verstehen, welche Methoden notwendig und verbessert sind, und dass die aktuelle Herausforderung darin besteht, zu definieren, was „besser“ im Kontext von Deep Learning bedeutet. Insgesamt sollte der Fokus darauf liegen, den Benutzern mehr Einblick in die Verwendung dieser Methoden und die Auswirkungen von Hyperparametern auf den Trainingsprozess zu geben.

  • 00:25:00 In diesem Abschnitt diskutiert Frank Schneider die Herausforderungen, die sich beim Vergleich von Deep-Learning-Trainingsalgorithmen ergeben, wie z. B. die Optimierung für Verstärkungsprobleme, GANs und große Sprachmodelle. Es wird schwierig festzustellen, ob die Leistungsunterschiede signifikant sind, da man diese Methoden möglicherweise mehrmals ausführen muss, um die Stochastik zu berücksichtigen. Das Testen aller Fälle kann teuer und zeitaufwändig sein, da das Training für alle Allzweckmethoden mehrmals wiederholt werden muss. Die zum Trainieren verwendete Methode muss analysiert werden, wenn mehrere Probleme getestet werden, was Änderungen an Hyperparametern erfordert, die es noch teurer machen. Darüber hinaus betont Schneider, dass es sich bei SGD und Adam um Familien von Algorithmen handelt, die nicht direkt verglichen werden können, ohne den genauen Parametersatz anzugeben.

  • 00:30:00 In diesem Abschnitt erläutert Frank Schneider den Prozess zur Identifizierung modernster Trainingsmethoden für Deep Learning. Aufgrund der großen Anzahl verfügbarer Optimierungsmethoden mussten sie sich darauf beschränken, nur 15 Optimierungsmethoden an 8 verschiedenen Arten von Problemen zu testen, die von einfachen quadratischen Problemen bis hin zu Bildklassifizierung in größerem Maßstab und rekurrenten neuronalen Netzwerkmodellen reichen. Um verschiedene Szenarien zu simulieren, testeten sie diese Optimierungsmethoden in vier verschiedenen Umgebungen mit unterschiedlichen Budgets für das Hyperparameter-Tuning, von One-Shot-Tuning mit den standardmäßig hohen Parametern bis hin zu größeren Budgets für Praktiker aus der Industrie, die mehr Ressourcen zur Verfügung haben. Ziel war es, zu bestimmen, welche Optimierungsmethoden in verschiedenen Szenarien am besten abschneiden, um Praktikern bei der Auswahl der besten Methode für ihren spezifischen Anwendungsfall zu helfen.

  • 00:35:00 In diesem Abschnitt erläutert Frank Schneider den Optimierungsprozess für Deep-Learning-Modelle. Er erklärt, dass sie über 50.000 einzelne Läufe durchführen mussten, um die beste Optimierungsmethode zu finden, da es 15 Optimierungsmethoden und vier Lernratenpläne gab. Schneider merkt an, dass es keine eindeutige State-of-the-Art-Trainingsmethode für Deep Learning gab, da mehrere Methoden bei verschiedenen Testproblemen gut abgeschnitten haben. Adam zeigte jedoch durchweg gute Ergebnisse, und andere Methoden, die von Adam abgeleitet wurden, verbesserten die Leistung nicht signifikant. Insgesamt hat die Benchmarking-Übung gezeigt, dass es derzeit keine eindeutige Optimierungsmethode gibt, die für alle Deep-Learning-Modelle funktioniert.

  • 00:40:00 In diesem Abschnitt erörtert der Referent die Schwierigkeiten bei der Bestimmung der effektivsten Methode zum Trainieren eines neuronalen Netzes aufgrund der verschiedenen verfügbaren Methoden und des Fehlens eines klaren Trainingsprotokolls. Der Redner erörtert die Erstellung des ml Commons Benchmark aus ihrer Algorithmen-Arbeitsgruppe, bei dem es sich um einen Wettbewerb handelt, bei dem die Beschleunigung des neuronalen Netzwerktrainings ausschließlich aufgrund algorithmischer Änderungen gemessen wird. Ziel ist es, effizientere Algorithmen zu entwickeln, um das Training neuronaler Netze zu beschleunigen. Der Redner diskutiert auch den Mangel an verfügbaren Informationen zur Verwendung dieser Methoden und schlägt vor, dass zusätzliche Informationen verwendet werden könnten, um Debugging-Tools zu erstellen, um den Benutzern in der Zwischenzeit zu helfen, in der Hoffnung, schließlich eine bessere Methode zu entwickeln, die alles automatisch erledigen kann.

  • 00:45:00 In diesem Abschnitt erläutert der Referent, wie sich die meisten maschinellen Lernmodelle dem empirischen Gradienten annähern, indem sie eine einzelne Probe des Trainingsdatensatzes auswählen, bevor sie einen Schritt unternehmen. Der Mini-Batch-Gradient oder der empirische Gradient ist eine Stichprobe aus dem wahren Gradienten, und die Mittelwertbildung über die einzelnen Gradienten ergibt eine Schätzung des wahren Gradienten, obwohl die Varianz des Schätzers in PyTorch nicht verfügbar ist. Durch die Verwendung von Paketen wie Rucksack können Benutzer jedoch auf die einzelnen Steigungen und deren Varianz zugreifen. Diese zusätzlichen Informationen können genutzt werden, um den Trainingsprozess für ein neuronales Netzwerk zu steuern, z. B. um zu bestimmen, ob die Lernrate erhöht oder verringert werden soll. Der Referent liefert ein Beispiel, bei dem zwei Verlustkurven gleich aussehen können, aber die Optimierung in der Verlustlandschaft zeigt, dass zwei völlig unterschiedliche Dinge passieren.

  • 00:50:00 In diesem Abschnitt erörtert der Referent, wie die Verlustkurve zeigen kann, ob ein neuronales Netzwerk trainiert oder nicht, erklärt jedoch nicht, warum oder was zu tun ist, um es zu verbessern. Die Schadenslandschaft hat zig Millionen Dimensionen, was es fast unmöglich macht, hineinzuschauen. Der Referent führt jedoch eine Größe ein, die hilft, das Optimierungsverfahren des neuronalen Netzes zu charakterisieren, genannt Alpha. Der Alpha-Wert bestimmt, ob das Netzwerk unterschreitet, minimiert oder überschießt, indem er die Neigung in die Richtung beobachtet, in die das Netzwerk tritt, was zeigt, ob die Verlustlandschaft nach oben oder unten geht.

  • 00:55:00 In diesem Abschnitt erklärt Frank Schneider, wie Alpha berechnet wird, während das neuronale Netzwerk optimiert wird. Alpha ist ein Skalarwert, der im vorherigen Abschnitt als die Richtung erklärt wurde, in die sich das Modell bewegt, um das neuronale Netzwerk zu optimieren. Schneider erklärt, dass die Alpha-Skalargröße auf der Größe des Schrittes im Vergleich zum beobachteten Verlust in dieser Richtung basiert. Negative Alpha-Werte implizieren ein Unterschreiten, während positive Werte ein Überschreiten bedeuten, und eins bedeutet, dass direkt auf die andere Seite des Tals gewechselt wird. Schneider erklärt auch, wie Entwickler durch die Verdichtung von Informationen zu aussagekräftigen Berichten Debugging-Tools für Deep Learning erstellen können, die denen der klassischen Programmierung ähneln.

  • 01:00:00 In diesem Abschnitt stellt Frank Schneider das Konzept des „Deep Debugger“ mit dem Tool „Cockpit“ vor, das wie ein Pilot in einem Flugzeug den Trainingsprozess eines Zuschauers um zusätzliche Instrumente ergänzt. Schneider zeigt, wie Cockpit neue Gesichtspunkte beim Training eines neuronalen Netzwerks bieten kann, wie z. B. Schrittgröße, Entfernung, Gradientennorm und Gradiententests, die helfen können, Probleme wie Datenfehler im Trainingsprozess zu erkennen und zu beheben. Mit den zusätzlichen Instrumenten kann Cockpit den Benutzern relevante Informationen liefern und das wesentliche Leistungsdiagramm ergänzen.

  • 01:05:00 In diesem Abschnitt erörtert der Referent, wie sich die Verwendung normalisierter Daten im Vergleich zu Rohdaten beim Deep Learning auf die Leistung des neuronalen Netzwerks und optimale Hyperparameter auswirkt. Rohdaten mit Pixelwerten im Bereich von 0 bis 255 können zu einem weniger verhaltenen Gradientenelementhistogramm und daher zu weniger optimalen Hyperparametern führen. Die Normalisierung der Daten kann jedoch leicht übersehen werden, da die Daten visuell gleich aussehen. Ein weiteres Problem, das sich auf das Training auswirken kann, ist ein Modellblock, in dem ein Netzwerk gut trainiert und ein anderes nicht, obwohl sie ähnliche Gradientenelement-Histogramme haben. Durch die Verwendung von Cockpit kann man sich das Histogramm für jede Schicht des Netzwerks ansehen und alle Entartungen im gesamten Modell aufdecken. Dies hilft dabei, Modellfehler zu identifizieren, die durch Versuch und Irrtum schwer zu finden sind. Schließlich kann die Verwendung von Cockpit für das Hyperparameter-Tuning zu neuen Forschungsergebnissen und einem besseren Verständnis der Methoden führen.

  • 01:10:00 In diesem Abschnitt erörtert Frank Schneider die Optimierung für Deep Learning und die Beziehung zwischen Lernraten, Alpha-Werten und Testgenauigkeit. Er erklärt, dass größere Lernraten zwar tendenziell zu größeren Alpha-Werten führen, was bedeutet, dass man über das Ziel hinausschießt und möglicherweise zu große Schritte macht, die leistungsstärksten Läufe jedoch typischerweise im positiven Alpha-Bereich liegen. Dies sagt uns, dass es beim Training neuronaler Netze nicht immer am besten ist, bei jedem Schritt zu minimieren, und dass ein Überschwingen notwendig ist, um die beste Leistung zu erzielen. Schneider stellt auch Beispiele aus Papieren der University of Toronto vor, die veranschaulichen, wie wichtig es ist, ein Gleichgewicht zwischen lokalen und globalen Maßnahmen zu finden, um optimale Ergebnisse zu erzielen.

  • 01:15:00 In diesem Abschnitt räumt Frank Schneider ein, dass das Trainieren neuronaler Netze eine herausfordernde Aufgabe ist, für die es kein klares Protokoll gibt. Darüber hinaus glaubt er, dass die Stochastik im Deep Learning eine Hauptquelle dieser Herausforderung ist, was dazu führt, dass Training und Optimierung zwei verschiedene Dinge sind. Er schlägt jedoch vor, dass die Betrachtung des Gradienten als Verteilung, die die Standardabweichung, Varianzen und Konfidenzen berücksichtigt, die Entwicklung besserer Werkzeuge und die Entwicklung besserer autonomer Methoden auf lange Sicht ermöglichen kann. Schneider ermutigt interessierte Studenten, bei der Verbesserung des Trainings neuronaler Netze mitzuhelfen.
 

Vorlesung 12 -- Optimierung zweiter Ordnung für Deep Learning -- Lukas Tatzel



Numerik von ML 12 – Optimierung zweiter Ordnung für Deep Learning – Lukas Tatzel

In diesem Video erklärt Lukas Tatzel Optimierungsmethoden zweiter Ordnung für Deep Learning und deren potenziellen Nutzen. Er vergleicht die Trajektorien und Konvergenzraten von drei Optimierungsverfahren – SGD, Adam und LBFGS – am Beispiel der Rosenberg-Funktion in 2D. Tatzel merkt an, dass das sprunghafte Verhalten von SGD im Vergleich zu den gut informierten Schritten von LBFGS eine langsamere Konvergenz bewirkt. Er stellt den Newton-Schritt als schnelleres Verfahren zur Optimierung vor und diskutiert dessen Grenzen, wie etwa die Abhängigkeit von der Konditionszahl. Tatzel erklärt auch das Konzept der verallgemeinerten Gauß-Newton-Matrix (GGN) als Annäherung an die Hesse für den Umgang mit schlecht konditionierten Problemen. Darüber hinaus erörtert er das Problem der Vertrauensregion, den Umgang mit nicht-konvexen Zielfunktionen und den Hessian-freien Ansatz, der CG zur Minimierung quadratischer Funktionen verwendet.

In diesem zweiten Teil des Videos werden Optimierungstechniken zweiter Ordnung für Deep Learning untersucht, darunter BFGS und LBFGS, hessische Optimierung und KFC. Der Referent erklärt, dass der Hesse-freie Ansatz das Modell unter Verwendung des Jacobi-Vektorprodukts linearisiert, während KFC eine ungefähre Krümmung basierend auf offiziellen Informationsmetriken ist. Bei diesen Methoden können jedoch Stochastik und Verzerrungen auftreten, und es wird empfohlen, diese Probleme zu dämpfen. Der Referent schlägt die Verwendung spezialisierter Algorithmen vor, die umfangreichere Mengen wie Verteilungen verwenden können, um Aktualisierungen vorzunehmen, und stellt fest, dass das grundlegende Problem der Stochastik ungelöst bleibt. Insgesamt bieten Optimierungsmethoden zweiter Ordnung eine Teillösung für die Herausforderungen des Deep Learning.

  • 00:00:00 In diesem Abschnitt stellt Lukas Tatzel Optimierungsmethoden zweiter Ordnung als mögliche Lösung für den teuren und langwierigen Optimierungsprozess des Deep Learning vor. Am Beispiel der Rosenberg-Funktion in 2D vergleicht er die Trajektorien und Konvergenzraten von drei Optimierern – SGD, Adam und LBFGS. Er stellt fest, dass das sprunghafte Verhalten von SGD im Vergleich zu den gut informierten Schritten von LBFGS, das weniger als 10 Schritte erfordert, um die Toleranz von 10 ^ -8 zu erreichen, eine langsamere Konvergenz bewirkt, wodurch es nicht nur in Bezug auf die Schritte, sondern auch in der Laufzeit schneller wird im Vergleich zu Adam und SGD. Tatzel wirft die Frage auf, ob diese Methoden auf Deep Learning angewendet werden können und untersucht ihre Funktionsweise und ihr Potenzial.

  • 00:05:00 In diesem Abschnitt erklärt Lukas Tatzel die Grundlagen der Deep-Learning-Optimierung, bei der ein Vektor der Dimension C vorhergesagt und mit dem tatsächlichen Etikett verglichen wird, um die Verlustfunktion zu berechnen. Das Ziel beim Deep Learning ist es, eine Konfiguration des Netzwerkparametervektors Theta zu finden, die das empirische Risiko minimiert. Zu den dafür verwendeten numerischen Methoden gehört der stochastische Gradientenabstieg (SGD), der mit Hilfe eines Monte-Carlo-Schätzers eine Schätzung des Gradienten auf endlichen Daten berechnet. Gradientenbasierte Verfahren reagieren jedoch empfindlich auf die Bedingungszahl, die das Verhältnis von maximaler und minimaler Richtungskrümmung ist.

  • 00:10:00 In diesem Abschnitt erörtert Lukas Tatzel, wie empfindlich Gradienten-basierte Methoden auf Probleme mit Krankheitszuständen beim Deep Learning reagieren. Er erklärt, dass die Konditionszahl ein Problem für gradientenbasierte Methoden sein kann, wenn sie groß ist, was zu langsamen Konvertierungen führen kann. Um die Aktualisierungen in gradientenbasierten Verfahren zu verbessern, schlägt Tatzel vor, den Gradienten sowohl in Richtung großer als auch kleiner Krümmung mit ihren jeweiligen inversen Krümmungen neu zu skalieren. Dadurch können Verfahren zweiter Ordnung eingeführt werden, um die Abhängigkeit von der Konditionszahl zu reduzieren oder zu eliminieren.

  • 00:15:00 In diesem Abschnitt diskutiert Lukas Tatzel die Optimierung zweiter Ordnung im Deep Learning und stellt das Konzept des Newton-Schritts vor. Bei diesem Verfahren wird die Verlustfunktion bei der aktuellen Iteration mit einer quadratischen Funktion approximiert, wobei davon ausgegangen wird, dass die Hesse-Funktion positiv definit ist. Indem seine Gradienten berechnet und auf Null gesetzt werden, kann der Newton-Schritt abgeleitet und für Minimierungszwecke verwendet werden. Dieses Verfahren kann in bestimmten Situationen viel schneller sein als Gradienten-basierte Verfahren und eine lokale quadratische Konvergenz erreichen, wenn die Zielfunktion zweimal differenzierbar ist und die Hesse-Funktion Lipschitz-stetig ist. Tatzel vergleicht lineare und quadratische Konvergenz visuell und zeigt, dass Newton-Methoden in bestimmten Situationen sehr schnell sein können, da sie robust gegenüber schlecht konditionierten Problemen sind.

  • 00:20:00 In diesem Abschnitt diskutiert Lukas Tatzel Optimierungsmethoden zweiter Ordnung für Deep Learning und die Gründe, warum sie nicht häufig verwendet werden. Methoden zweiter Ordnung können schneller sein als gradientenbasierte Methoden, aber sie erfordern Zugriff auf die Hesse-Matrix, die für große, nicht konvexe Probleme schwierig zu berechnen und zu speichern sein kann. Außerdem kann der Umgang mit Stochastik bei der Berechnung des Hesses die Leistung dieser Methoden beeinträchtigen. Tatzel erläutert, wie diese Herausforderungen angegangen werden können, und gibt einen Überblick über die Konzepte hinter den verschiedenen Methoden.

  • 00:25:00 In diesem Abschnitt erklärt Lukas Tatzel die Optimierung zweiter Ordnung für Deep Learning und die Grenzen der Newton-Update-Methode. Er demonstriert die Berechnung der Ableitung zweiter Ordnung der Funktion in Bezug auf Tau, das eine quadratische Funktion mit konstanter Krümmung Lambda ist. Die Krümmung entlang eines Eigenvektors ist der Eigenwert, und wenn die Krümmung negativ ist, ist das Quadrat von unten unbegrenzt, wodurch die Newton-Aktualisierungsmethode bedeutungslos wird. Um dieses Problem anzugehen, führt Tatzel die Verallgemeinerte Gauß-Newton-Matrix (GGN) ein, die eine positive halbdefinite Annäherung an die Hesse-Matrix ist und als Ersatz dafür dienen kann. Er leitet die GGN aus der Verlustfunktion ab, indem er die Änderungsregel auf die Aufteilung zwischen dem Parametervektor und den Modellergebnissen anwendet.

  • 00:30:00 In diesem Abschnitt diskutiert Lukas Tatzel das Konzept der Optimierung zweiter Ordnung für Deep-Learning-Modelle. Er erklärt die Produktregel und wie sie funktioniert und wie man die Ableitung einer Matrix berechnet, während man die Kettenregel anwendet. Tatzel spricht dann über die GGN, eine positiv definite Matrix, die die Krümmung aus dem Modell vernachlässigt, und die Hesse, die zweite Ableitungen des Modells in Bezug auf Theta enthält. Er vergleicht GGN und Hessian und zeigt, dass GGN positiv definit und symmetrisch ist, was es zu einem nützlichen Werkzeug für die Optimierung in Deep-Learning-Modellen macht.

  • 00:35:00 In diesem Abschnitt erörtert Lukas Tatzel den Hessischen und wie er bestimmt, ob der GGN-Algorithmus (Generalized Gauss-Newton) positiv semidefinit ist oder nicht. Für alle relevanten Verlustfunktionen ist der Hesse positiv semidefinit. In Fällen, in denen die Verlustfunktion so ist, dass der Verlust als quadrierte Norm zwischen den Ausgaben des Modells und dem wahren Etikett berechnet wird, ist der Hesse-Wert ein Skalar multipliziert mit der Identitätsmatrix, wodurch er positiv definit ist. Lukas diskutiert auch die Fischer-Informationsmatrix, die verwendet werden kann, um eine wohldefinierte GGN-Stufe zu definieren. In diesem Fall ist der GGN-Algorithmus der steilste Abfall im Verteilungsraum, wobei der Parameterraum durch den Abstand zwischen zwei Verteilungen gemessen wird.

  • 00:40:00 In diesem Abschnitt erklärt Lukas Tatzel das Trust-Region-Problem bei der Optimierung zweiter Ordnung für Deep Learning. Im konvexen Fall gibt es immer noch ein Problem mit quadratischen Modellen, die willkürlich schlecht sind, was dazu führt, dass die Iterationsaktualisierung gedämpft und beschränkt werden muss, damit sie innerhalb eines gewissen Vertrauensradius liegt. Durch Hinzufügen von Delta mal Identität zur Krümmungsmatrix wird ein modifizierter Newton-Schritt erzeugt, und mit Dämpfung ist es möglich, zu steuern, wie konservativ die Aktualisierungen sind. Bei der Wahl des Radius ist es einfacher, direkt mit der L-BFGS-Heuristik auf Basis des Reduktionsverhältnisses zwischen erwarteter und tatsächlicher Verlustabnahme zu dämpfen.

  • 00:45:00 In diesem Abschnitt des Videos erläutert Lukas Tatzel, wie man mit nicht-konvexen Zielfunktionen beim Deep Learning umgeht, indem er positive semidefinite Krümmungsmatrizen wie die ggn und die Spalte berechnet. Es ist möglich, diese Matrizen zu interpretieren und unvoreingenommene Schätzer für sie auf endlichen Daten bereitzustellen. Dämpfungsheuristiken, wie z. B. Living Back Mark, können verwendet werden, um zu steuern, wie konservativ Aktualisierungen sein sollten. Das Invertieren dieser riesigen Krümmungsmatrizen ist jedoch aufgrund von Speicherbeschränkungen ein Problem. Zur Lösung dieses Problems können Ideen aus der Numerischen Algebra, wie z. B. niederrangige Approximationen, iterative Verfahren und strukturierte Approximationen, übernommen werden. Tatzel diskutiert dann die Kernidee von BFGS, das schrittweise eine Annäherung an das inverse Hesse aus Gradientenbeobachtungen lernt, mit dem Ziel, aus Gradientenbeobachtungen abzuleiten, wie das inverse Hesse aussehen wird.

  • 00:50:00 In diesem Abschnitt erklärt Lukas Tatzel die Idee, die Optimierung zweiter Ordnung für Deep Learning zu verwenden. Die zweite Ableitung wird durch eine Differenznäherung an den Gradienten gewonnen und diese dann mit der Sekantengleichung auf den mehrdimensionalen Fall übertragen. Das Ziel besteht darin, das inverse Hesse zu approximieren, also werden Eigenschaften aus dem tatsächlichen inversen Hesse genommen und für die Annäherung benötigt, um die gleichen Eigenschaften zu haben. Die Aktualisierung betrifft nur die vorherige Annäherung und die Vektoren SK und yk. Die Annäherung wird unter Verwendung eines festen Fensters mit einer festen Größe l gespeichert, und damit kann immer noch eine gute Krümmungsschätzung erhalten werden.

  • 00:55:00 In diesem Abschnitt stellt Lukas Tatzel Optimierungsmethoden zweiter Ordnung für Deep Learning vor und konzentriert sich dabei speziell auf den Hessisch-freien Ansatz. Dieser Ansatz verwendet CG zum Minimieren quadratischer Funktionen und erfordert nur Matrix-Vektor-Produkte, was eine effiziente Berechnung ohne explizites Speichern der Krümmungsmatrix ermöglicht. GGn wird als Krümmungsmetrik verwendet, und durch Verwendung der Monte-Carlo-Schätzung können die Matrizen für ein gegebenes Eingabe-Ausgabe-Paar berechnet werden. Um die Jacobi-Zahl effizient mit einem Vektor zu multiplizieren, besteht die Kernidee darin, das Jacobi-Vektor-Produkt durch eine Richtungsableitung zu ersetzen. Dies ermöglicht eine effiziente Möglichkeit, das Produkt zu berechnen, ohne die Matrizen explizit zu erstellen.

  • 01:00:00 In diesem Abschnitt erörtert der Referent die Optimierung zweiter Ordnung für Deep Learning, insbesondere die Hessian-Free-Optimierung und KFC-Techniken. Die Hessian-Free-Optimierung umfasst die Linearisierung des Modells durch Approximation von F bei Theta plus Delta Theta durch F von Theta plus das Jacobi-fache Delta Theta und Verwenden des Jacobi-Vektorprodukts. Dieser Ansatz ist jedoch numerisch instabil, sodass stattdessen eine Annäherung an das Jacobi-Vektorprodukt verwendet wird. Auf der anderen Seite ist KFC eine ungefähre Krümmung, die auf offiziellen Informationsmetriken basiert, die zwei Näherungen beinhalten: die blockdiagonale Näherung und den Austausch der Erwartungs- und chronischen Produktoperationen. Die blockdiagonale Struktur macht das Invertieren der Matrix trivial, und die Approximation des Erwartungswerts ist vernünftig, da es schwierig ist, chronische Produkte über zwei Vektoren zu berechnen.

  • 01:05:00 In diesem Abschnitt diskutiert Lukas Tatzel drei Ansätze für den Zugriff auf und die Umkehrung der Krümmungsmatrix, die in der Optimierung zweiter Ordnung für Deep Learning verwendet wird. Die erste Methode ist BFGS und LBFGS, die eine dynamische Absenkungsnäherung des Hessischen verwenden und die Standardwahl für kleine deterministische Probleme sind. Die zweite Methode ist der Hesse-freie Optimierer, der den Newton-Schritten ähnelt, aber wenig Speicher und mehr sequentielle Arbeit erfordert. Es hat jedoch Probleme mit größeren Mini-Batch-Größen, die Batch-Norm-Layer verwenden. Die letzte Methode ist KFC, eine leichtgewichtige Darstellung der hessischen Informationsmetriken und weit verbreitet in der Unsicherheitsquantifizierung. Der K-Fik-Optimierer wird empfohlen, wenn es um begrenzten Speicher geht, da das Speichern und Invertieren der kleineren Komponenten des Blocks einfacher und schneller ist, als dasselbe mit der gesamten Matrix zu tun.

  • 01:10:00 In diesem Abschnitt diskutiert Lukas Tatzel das Problem der Stochastik bei der Berechnung des Newton-Schritts, bei dem der Hesse-Wert invertiert und auf den Gradienten angewendet wird. Da nur Schätzungen des Hessischen und des Gradienten vorliegen, ist der Newton-Schritt immer noch voreingenommen, selbst wenn sie unverzerrt sind. Tatzel liefert ein intuitives Beispiel in 1D, bei dem die Erwartung über 1/H nicht gleich 1/H ist, was zeigt, dass selbst bei einer Schätzung der Krümmung immer noch eine gewisse Unsicherheit besteht, wenn sie durch die Umkehrfunktion abgebildet wird. Dies unterstreicht die Herausforderung, mit Stochastik in der Optimierung zweiter Ordnung für Deep Learning umzugehen.

  • 01:15:00 In diesem Abschnitt erörtert der Referent die Verzerrungen und Instabilitäten, die bei der Optimierung zweiter Ordnung für Deep Learning auftreten können. Beim Schätzen der inversen Krümmung können starke Ausläufer erzeugt werden, die zu einem überdurchschnittlich verschobenen Erwartungswert führen. Dies führt zu einem erwartet zu großen Newton-Schritt insgesamt. Darüber hinaus können Verzerrungen und Instabilitäten aufgrund stochastischer Schätzungen oder zufällig vorhanden sein, wenn eine Stichprobe nahe Null ist. Diese Probleme können durch Anwenden einer Dämpfung gelöst werden, die die Verteilung von Null weg verschiebt und potenzielle Verzerrungen und Instabilitäten mildert.

  • 01:20:00 In diesem Abschnitt erörtert Lukas Tatzel die Herausforderungen bei der Verwendung von Dämpfung als Optimierungsprozess der äußeren Schleife, der alle Richtungen gleich behandelt und möglicherweise kein geeigneter Weg ist, um die Komplexität des Trainingsprozesses zu bewältigen. Er schlägt die Verwendung spezialisierter Algorithmen vor, die umfangreichere Mengen wie Verteilungen verwenden können, um Aktualisierungen vorzunehmen, und stellt fest, dass das grundlegende Problem der Stochastik ungelöst bleibt. Insgesamt schlägt Tatzel vor, dass Optimierungsmethoden zweiter Ordnung wie BFGS, LBFJS, Heston Free Optimizer und KFC eine Teillösung für die Herausforderungen des Deep Learning bieten, einschließlich des Problems der Hill-Konditionierung.
Grund der Beschwerde: