Maschinelles Lernen und neuronale Netze - Seite 56

 

Vorlesung 8.4 – Echo State Networks



Vorlesung 8.4 – Echo State Networks [Neuronale Netze für maschinelles Lernen]

Echo-State-Netzwerke sind ein cleverer Ansatz, um den Lernprozess in rekurrenten neuronalen Netzwerken (RNNs) zu vereinfachen. Sie initialisieren die Verbindungen im RNN mit einem Reservoir gekoppelter Oszillatoren und wandeln Eingaben in Oszillatorzustände um. Die Ausgabe kann dann auf der Grundlage dieser Zustände vorhergesagt werden, und das einzige erforderliche Lernen besteht darin, wie die Ausgabe an die Oszillatoren gekoppelt wird. Dadurch entfällt die Notwendigkeit, Verbindungen von versteckten zu versteckten oder Eingabe-zu-verborgenen Verbindungen zu lernen.

Um die Leistung von Echo-State-Netzwerken bei komplexen Aufgaben zu verbessern, ist ein großer verborgener Status erforderlich. Durch die Kombination der sorgfältig konzipierten Initialisierung von Echo-State-Netzwerken mit der zeitlichen Rückausbreitung mit Impuls können deren Fähigkeiten weiter verbessert werden. Eine weitere aktuelle Idee beim Training wiederkehrender neuronaler Netze besteht darin, die versteckten Verbindungen nach dem Zufallsprinzip festzulegen und sich auf das Training der Ausgangsverbindungen zu konzentrieren. Dieser Ansatz ähnelt dem Konzept von Zufallsmerkmalsdetektoren in neuronalen Feed-Forward-Netzwerken, bei denen nur die letzte Schicht gelernt wird, was den Lernprozess vereinfacht.

Der Erfolg von Echo-State-Netzwerken hängt davon ab, dass die zufälligen Verbindungen richtig eingestellt werden, um Probleme wie Aussterben oder Explodieren zu vermeiden. Der Spektralradius, der dem größten Eigenwert der Matrix der versteckten zu versteckten Gewichte entspricht, muss auf ungefähr eins eingestellt werden, um sicherzustellen, dass die Länge des Aktivitätsvektors stabil bleibt. Wichtig ist auch eine spärliche Konnektivität, bei der die meisten Gewichte Null sind, sodass Informationen in bestimmten Teilen des Netzwerks erhalten bleiben können. Der Maßstab der Eingänge-zu-versteckten Verbindungen sollte sorgfältig ausgewählt werden, um die Zustände der Oszillatoren zu steuern, ohne wichtige Informationen zu löschen. Der Lernprozess in Echo-State-Netzwerken ist schnell und ermöglicht das Experimentieren mit der Skalierung und Spärlichkeit der Verbindungen, um die Leistung zu optimieren. Dargestellt ist ein Beispiel für ein Echo-State-Netzwerk, bei dem die Eingabesequenz die Frequenz einer Sinuswelle für die Ausgabe angibt. Das Netzwerk lernt, Sinuswellen zu erzeugen, indem es mithilfe der Zustände der verborgenen Einheiten ein lineares Modell anpasst, um die korrekte Ausgabe vorherzusagen. Das dynamische Reservoir in der Mitte erfasst die komplexe Dynamik, die durch das Eingangssignal angetrieben wird.

Echo-State-Netzwerke haben mehrere Vorteile, darunter schnelles Training aufgrund der Einfachheit der Anpassung eines linearen Modells, die Bedeutung einer sinnvollen Initialisierung von Hidden-to-Hidden-Gewichten und ihre Fähigkeit, eindimensionale Zeitreihen effektiv zu modellieren. Allerdings haben sie möglicherweise Schwierigkeiten mit der Modellierung hochdimensionaler Daten und erfordern im Vergleich zu herkömmlichen RNNs eine größere Anzahl versteckter Einheiten.

Ilya Sutskever untersuchte die Initialisierung eines rekurrenten neuronalen Netzwerks mit Echo-State-Network-Techniken und das anschließende Training mithilfe von Backpropagation über die Zeit. Diese Kombination erwies sich als wirksame Methode zum Training rekurrenter neuronaler Netze und zur Erzielung einer verbesserten Leistung. Ilya Sutskevers Ansatz, die Initialisierungstechniken von Echo-State-Netzwerken mit Backpropagation Through Time (BPTT) zu kombinieren, lieferte vielversprechende Ergebnisse beim Training rekurrenter neuronaler Netzwerke (RNNs). Durch die Verwendung der Echo-State-Netzwerkinitialisierung und die anschließende Anwendung von BPTT mit Techniken wie RMSprop und Momentum stellte Sutskever fest, dass dieser Ansatz beim Training von RNNs äußerst effektiv ist.

Die Verwendung der Echo-State-Netzwerkinitialisierung bietet einen guten Ausgangspunkt für das RNN, sodass es gut lernen kann, selbst wenn nur die Verbindungen zwischen versteckten und ausgegebenen Geräten trainiert werden. Sutskevers Experimente zeigten jedoch, dass eine weitere Verbesserung der Leistung des RNN erreicht werden könnte, indem auch die Hidden-to-Hidden-Gewichte gelernt würden. Durch die Kombination der Stärken von Echo-State-Netzwerken und traditionellen RNNs nutzt dieser Hybridansatz die Vorteile beider Methoden. Die Echo-State-Netzwerkinitialisierung bietet eine solide Grundlage, während BPTT eine Feinabstimmung und Optimierung der RNN-Leistung ermöglicht. Der Erfolg dieses Ansatzes zeigt, wie wichtig eine ordnungsgemäße Initialisierung beim Training von RNNs ist.

Indem mit einer Initialisierung begonnen wird, die die Dynamik der Problemdomäne erfasst, kann das nachfolgende Training effizienter und effektiver sein. Darüber hinaus verbessert der Einsatz von Optimierungstechniken wie RMSprop mit Momentum den Lernprozess weiter und trägt dazu bei, bessere Ergebnisse zu erzielen.

Die Kombination von Echo-State-Netzwerkinitialisierung und BPTT mit Optimierungstechniken stellt einen leistungsstarken Ansatz für das Training von RNNs dar. Es nutzt die Stärken beider Methoden, um die Lerneffizienz, die Modellleistung und die Vorhersagegenauigkeit zu verbessern.

 

Vorlesung 9.1 – Überblick über Möglichkeiten zur Verbesserung der Generalisierung



Vorlesung 9.1 – Überblick über Möglichkeiten zur Verbesserung der Generalisierung [Neuronale Netze für maschinelles Lernen]

In diesem Video geht es um die Verbesserung der Generalisierung durch Reduzierung der Überanpassung in neuronalen Netzen. Überanpassung tritt auf, wenn ein Netzwerk im Verhältnis zur Menge der Trainingsdaten zu viel Kapazität hat. Das Video erläutert verschiedene Methoden zur Steuerung der Kapazität eines Netzwerks und zur Bestimmung der geeigneten Metaparameter zur Kapazitätssteuerung.

Eine Überanpassung entsteht, weil Trainingsdaten nicht nur Informationen über die wahren Muster in der Eingabe-Ausgabe-Zuordnung enthalten, sondern auch Stichprobenfehler und zufällige Regelmäßigkeiten, die für den Trainingssatz spezifisch sind. Beim Anpassen eines Modells kann es nicht zwischen diesen Regelmäßigkeitstypen unterscheiden, was zu einer schlechten Generalisierung führt, wenn das Modell zu flexibel ist und den Stichprobenfehler berücksichtigt.

Eine einfache Methode, eine Überanpassung zu verhindern, besteht darin, mehr Daten zu erhalten. Durch die Erhöhung der Datenmenge wird eine Überanpassung gemindert, da die tatsächlichen Regelmäßigkeiten besser dargestellt werden. Ein anderer Ansatz besteht darin, die Kapazität des Modells sinnvoll zu begrenzen, damit es die wahren Regelmäßigkeiten erfassen und gleichzeitig die Anpassung der durch Stichprobenfehler verursachten falschen Regelmäßigkeiten vermeiden kann. Dies kann eine Herausforderung sein, aber im Video werden verschiedene Techniken zur effektiven Regulierung der Kapazität besprochen.

Das Video erwähnt auch die Verwendung von Ensemble-Methoden, beispielsweise die Mittelung verschiedener Modelle. Durch das Trainieren von Modellen auf verschiedenen Teilmengen der Daten oder das Finden verschiedener Gewichtungssätze, die eine gute Leistung erbringen, kann die Mittelung ihrer Vorhersagen die Gesamtleistung im Vergleich zu einzelnen Modellen verbessern. Darüber hinaus beinhaltet der Bayes'sche Ansatz die Verwendung einer einzelnen neuronalen Netzwerkarchitektur, die Suche nach mehreren Gewichtungssätzen, die die Ausgabe gut vorhersagen, und die anschließende Mittelung ihrer Vorhersagen anhand von Testdaten.

Die Kapazität eines Modells kann auf unterschiedliche Weise gesteuert werden, z. B. durch Anpassen der Architektur (z. B. Begrenzen der Anzahl verborgener Schichten und Einheiten pro Schicht), Bestrafen von Gewichten, Hinzufügen von Rauschen zu Gewichten oder Aktivitäten oder durch die Verwendung einer Kombination dieser Methoden.

Beim Festlegen der Metaparameter für die Kapazitätskontrolle muss eine Verzerrung der Ergebnisse auf einen bestimmten Testsatz vermieden werden. Das Video schlägt einen besseren Ansatz vor: die Aufteilung der Daten in Trainings-, Validierungs- und Testteilmengen. Die Validierungsdaten werden verwendet, um geeignete Metaparameter basierend auf der Leistung des Modells zu bestimmen, während die Testdaten eine unvoreingenommene Schätzung der Wirksamkeit des Netzwerks liefern. Es ist wichtig, die Testdaten nur einmal zu verwenden, um eine Überanpassung daran zu vermeiden.

Das Video erwähnt auch die n-fache Kreuzvalidierung, eine Technik, bei der die Daten in n Teilmengen unterteilt werden und Modelle auf verschiedenen Kombinationen dieser Teilmengen trainiert und validiert werden, um mehrere Schätzungen der besten Metaparameter zu erhalten.

Abschließend beschreibt das Video eine einfach anzuwendende Methode namens Frühstopp. Dabei wird mit kleinen Gewichten begonnen und der Trainingsprozess gestoppt, wenn sich die Leistung des Modells im Validierungssatz zu verschlechtern beginnt. Dieser Ansatz kontrolliert die Kapazität, da Modelle mit kleinen Gewichten eine begrenzte Kapazität haben und sich ähnlich wie lineare Netzwerke verhalten. Das Stoppen des Trainings am richtigen Punkt optimiert den Kompromiss zwischen der Anpassung echter Regelmäßigkeiten und der Anpassung falscher Regelmäßigkeiten, die durch den Trainingssatz verursacht werden.

Insgesamt beleuchtet das Video verschiedene Ansätze zur Kapazitätskontrolle und Verhinderung einer Überanpassung in neuronalen Netzen. Bei diesen Methoden geht es darum, mehr Daten zu erhalten, die Kapazität sinnvoll zu regulieren, Ensemble-Methoden zu verwenden, geeignete Metaparameter durch Validierung festzulegen und Techniken wie das frühzeitige Stoppen einzusetzen.

Lecture 9.1 — Overview of ways to improve generalization [Neural Networks for Machine Learning]
Lecture 9.1 — Overview of ways to improve generalization [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
 

Vorlesung 9.2 – Begrenzung der Größe der Gewichte



Vorlesung 9.2 – Begrenzung der Größe der Gewichte [Neuronale Netze für maschinelles Lernen]

In diesem Video werde ich diskutieren, wie wir die Kapazität eines Netzwerks steuern können, indem wir die Größe seiner Gewichte begrenzen. Der übliche Ansatz besteht darin, eine Strafe anzuwenden, die verhindert, dass die Gewichte zu groß werden. Es wird angenommen, dass ein Netzwerk mit kleineren Gewichten einfacher ist als eines mit größeren Gewichten.

Es können verschiedene Strafterme verwendet werden, und es ist auch möglich, den Gewichtungen Beschränkungen aufzuerlegen, um sicherzustellen, dass der eingehende Gewichtungsvektor für jede versteckte Einheit eine bestimmte Länge nicht überschreitet. Die Standardmethode zur Begrenzung der Gewichtsgröße ist die Verwendung einer L2-Gewichtsstrafe. Diese Strafe benachteiligt den quadrierten Wert der Gewichte und wird manchmal als Gewichtsabfall bezeichnet. Die Ableitung dieser Strafe wirkt wie eine Kraft, die die Gewichte gegen Null zieht. Folglich hält der Gewichtsnachteil die Gewichte klein, es sei denn, sie weisen signifikante Fehlerableitungen auf, um dem entgegenzuwirken.

Der Strafterm wird als Summe der Quadrate der Gewichte multipliziert mit einem Koeffizienten (Lambda) und geteilt durch zwei dargestellt. Durch Differenzieren der Kostenfunktion stellen wir fest, dass die Ableitung die Summe der Fehlerableitung und eines Termes ist, der sich auf die Größe des Gewichts und den Wert von Lambda bezieht. Die Ableitung wird Null, wenn die Größe des Gewichts gleich 1 über Lambda mal der Größe der Ableitung ist. Daher können große Gewichte nur dann existieren, wenn sie auch erhebliche Fehlerableitungen aufweisen. Diese Eigenschaft erleichtert die Interpretation der Gewichte, da es weniger große Gewichte gibt, die nur minimale Auswirkungen haben.

Der L2-Gewichtungsnachteil verhindert, dass das Netzwerk unnötige Gewichte verwendet, was zu einer verbesserten Generalisierung führt. Darüber hinaus führt es zu glatteren Modellen, bei denen sich die Ausgabe mit Variationen der Eingabe allmählicher ändert. Bei ähnlichen Eingaben verteilt die Gewichtsstrafe die Gewichtung gleichmäßig, wohingegen ohne die Strafe die gesamte Gewichtung einer Eingabe zugewiesen werden kann.

Neben der L2-Strafe können auch andere Gewichtsstrafen verwendet werden, beispielsweise die L1-Strafe, die die absoluten Werte der Gewichte bestraft. Diese Art von Strafe führt dazu, dass viele Gewichte genau Null sind, was die Interpretation erleichtert. Extremere Gewichtsstrafen können angewendet werden, wenn der Gradient der Kostenfunktion mit zunehmender Gewichtung abnimmt. Dies ermöglicht es dem Netzwerk, große Gewichte beizubehalten, ohne dass sie gegen Null gezogen werden, und konzentriert die Strafe stattdessen auf kleine Gewichte.

Anstelle von Strafen können Gewichtsbeschränkungen eingesetzt werden. Bei Gewichtsbeschränkungen wird dem eingehenden Gewichtsvektor für jede verborgene Einheit oder Ausgabeeinheit eine maximale Quadratlänge auferlegt. Wenn die Länge die Einschränkung überschreitet, werden die Gewichte verkleinert, indem alle Gewichte durch denselben Faktor dividiert werden, bis die Länge innerhalb des zulässigen Grenzwerts liegt. Gewichtsbeschränkungen bieten Vorteile gegenüber Gewichtsnachteilen, da es einfacher ist, einen sinnvollen Wert für die Quadratlänge auszuwählen. Darüber hinaus verhindern Gewichtsbeschränkungen, dass versteckte Einheiten mit winzigen, ineffektiven Gewichten hängen bleiben. Sie verhindern auch eine Gewichtsexplosion.

Darüber hinaus haben Gewichtsbeschränkungen einen subtilen Einfluss auf die Strafen. Wenn eine Einheit ihre Einschränkung erreicht, wird die effektive Strafe für alle Gewichte durch die großen Gradienten bestimmt. Die großen Gradienten erhöhen die Länge des eingehenden Gewichtsvektors und üben einen Abwärtsdruck auf die anderen Gewichte aus. Diese selbstskalierende Strafe ist effektiver als eine feste Strafe, die irrelevante Gewichte gegen Null verschiebt. In Bezug auf Lagrange-Multiplikatoren können die Strafen als die erforderlichen Multiplikatoren zur Erfüllung der Einschränkungen angesehen werden.

Die Verwendung von Gewichtsbeschränkungen bietet mehrere Vorteile gegenüber Gewichtsnachteilen. Es ist einfacher, einen geeigneten Wert für die quadratische Länge des eingehenden Gewichtsvektors auszuwählen, als den optimalen Gewichtszuschlag zu bestimmen. Logistische Einheiten haben eine natürliche Skala, was es einfacher macht, die Bedeutung eines Gewichtswerts von eins zu verstehen.

Gewichtsbeschränkungen verhindern auch, dass versteckte Einheiten stecken bleiben, da ihr gesamtes Gewicht extrem klein und ineffektiv ist. Wenn alle Gewichte winzig sind, gibt es keine Beschränkungen für ihr Wachstum, was sie möglicherweise unbrauchbar macht. Gewichtsbeschränkungen stellen sicher, dass Gewichte nicht vernachlässigbar werden.

Ein weiterer Vorteil von Gewichtsbeschränkungen besteht darin, dass sie verhindern, dass die Gewichte explodieren, was in manchen Fällen bei Gewichtseinbußen auftreten kann. Dies ist entscheidend für die Aufrechterhaltung der Stabilität und die Vermeidung numerischer Instabilitäten im Netzwerk.

Ein weiterer subtiler Effekt von Gewichtsbeschränkungen ist ihre Auswirkung auf Strafen. Wenn eine Einheit ihre Einschränkung erreicht und die Länge ihres Gewichtsvektors begrenzt ist, wird der effektive Abzug aller Gewichte durch die großen Gradienten beeinflusst. Die großen Gradienten erhöhen die Länge des eingehenden Gewichtsvektors, was wiederum einen Abwärtsdruck auf die anderen Gewichte ausübt. Im Wesentlichen skaliert sich die Strafe so, dass sie für die signifikanten Gewichte geeignet ist und die kleinen Gewichte unterdrückt. Dieser adaptive Strafmechanismus ist effektiver als ein fester Strafmechanismus, der irrelevante Gewichte gegen Null verschiebt.

Für diejenigen, die mit Lagrange-Multiplikatoren vertraut sind, können die Strafen als die entsprechenden Multiplikatoren angesehen werden, die zur Erfüllung der Einschränkungen erforderlich sind. Die Gewichtsbeschränkungen dienen dazu, die gewünschten Eigenschaften der Netzwerkgewichte durchzusetzen.

Die Kontrolle der Kapazität eines Netzwerks durch Begrenzung der Gewichtungsgröße kann durch Strafen oder Einschränkungen erreicht werden. Beide Methoden haben ihre Vorteile, aber Gewichtsbeschränkungen erleichtern die Auswahl geeigneter Werte, verhindern, dass Gewichte vernachlässigbar werden oder explodieren, und bieten einen selbstskalierenden Strafmechanismus. Diese Techniken tragen zur Interpretierbarkeit, Stabilität und Wirksamkeit neuronaler Netze bei.

Lecture 9.2 — Limiting the size of the weights [Neural Networks for Machine Learning]
Lecture 9.2 — Limiting the size of the weights [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
 

Vorlesung 9.3 – Verwendung von Rauschen als Regularisierer



Vorlesung 9.3 – Verwendung von Rauschen als Regularisierer [Neuronale Netze für maschinelles Lernen]

Lassen Sie uns eine andere Methode zur Einschränkung der Kapazität eines neuronalen Netzwerks untersuchen, bei der entweder den Gewichten oder den Aktivitäten Rauschen hinzugefügt wird. Das Hinzufügen von Rauschen zu den Eingaben eines einfachen linearen Netzwerks, das darauf abzielt, den quadratischen Fehler zu minimieren, ist gleichbedeutend damit, den Gewichten des Netzwerks eine L2-Strafe aufzuerlegen. Dieses Konzept kann auf komplexere Netzwerke ausgeweitet werden, in denen verrauschte Gewichte verwendet werden, insbesondere in wiederkehrenden Netzwerken, was eine verbesserte Leistung gezeigt hat.

Darüber hinaus kann Lärm als Regulator in die Aktivitäten eingebracht werden. Erwägen Sie das Training eines mehrschichtigen neuronalen Netzwerks mit logistischen versteckten Einheiten mithilfe von Backpropagation. Indem wir die Einheiten während des Vorwärtsdurchlaufs binär und stochastisch machen und sie dann während des Rückwärtsdurchlaufs unter Verwendung der realen Werte so behandeln, als wären sie deterministisch, erstellen wir ein stochastisches binäres Neuron. Dieser Ansatz ist zwar nicht ganz genau, führt aber zu einer besseren Leistung beim Testsatz im Vergleich zum Trainingssatz, wenn auch bei langsamerem Training.

Diese Methoden zur Einbeziehung von Rauschen, sei es in die Gewichte oder Aktivitäten, stellen alternative Techniken zur Steuerung der Kapazität neuronaler Netze und zur Verbesserung ihrer Generalisierungsfähigkeiten dar.

Zusammenfassend lässt sich sagen, dass das Hinzufügen von Rauschen zu neuronalen Netzen eine nützliche Strategie zur Kapazitätskontrolle und Verbesserung der Generalisierung sein kann. Indem wir Gaußsches Rauschen in die Eingaben einführen, können wir einen Effekt erzielen, der einer L2-Gewichtungsstrafe ähnelt. Dies verstärkt die Rauschvarianz basierend auf den quadrierten Gewichten und trägt zum quadratischen Gesamtfehler bei. Rauschen in den Gewichten kann besonders in komplexeren Netzwerken wie rekurrenten Netzwerken wirksam sein und zu einer verbesserten Leistung führen.

Darüber hinaus kann Rauschen als Regularisierungstechnik auf die Aktivitäten des Netzwerks angewendet werden. Indem wir die Einheiten während des Vorwärtsdurchlaufs als stochastische binäre Neuronen behandeln und während der Rückwärtsausbreitung die realen Werte verwenden, führen wir Zufälligkeit in das System ein. Dieser Ansatz kann zu einem langsameren Training führen, führt jedoch häufig zu einer besseren Leistung im Testsatz, was auf eine verbesserte Generalisierung hinweist.

Das Hinzufügen von Rauschen, sei es in Form von Gewichten oder Aktivitäten, bietet einen alternativen Ansatz zur Begrenzung der Kapazität und zur Verbesserung der Robustheit und Generalisierungsfähigkeit neuronaler Netze.

Lecture 9.3 — Using noise as a regularizer [Neural Networks for Machine Learning]
Lecture 9.3 — Using noise as a regularizer [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
 

Vorlesung 9.4 – Einführung in den vollständigen Bayesianischen Ansatz



Vorlesung 9.4 – Einführung in den vollständigen Bayes’schen Ansatz [Neuronale Netze für maschinelles Lernen]

Der bayesianische Ansatz zur Modellanpassung beinhaltet die Berücksichtigung aller möglichen Einstellungen der Parameter, anstatt nach der wahrscheinlichsten zu suchen. Dabei wird eine Prior-Verteilung der Parameter angenommen und mit der Wahrscheinlichkeit der beobachteten Daten kombiniert, um eine Posterior-Verteilung zu erhalten.

In einem Münzwurfbeispiel würde der frequentistische Ansatz (maximale Wahrscheinlichkeit) vorschlagen, den Parameterwert zu wählen, der die Wahrscheinlichkeit der beobachteten Daten maximiert. Dieser Ansatz weist jedoch Einschränkungen auf, da er möglicherweise frühere Überzeugungen oder Unsicherheiten nicht berücksichtigt.

Im Bayes'schen Rahmenwerk wird den Parameterwerten eine Prior-Verteilung zugewiesen. Nach der Beobachtung der Daten wird der Prior mit der Wahrscheinlichkeit für jeden Parameterwert multipliziert, was zu einer nicht normalisierten Posterior-Verteilung führt. Um eine korrekte Wahrscheinlichkeitsverteilung zu erhalten, wird der Posterior renormiert, indem er so skaliert wird, dass er eine Fläche von eins hat.

Durch iterative Schritte wird die Posterior-Verteilung aktualisiert, wenn mehr Daten beobachtet werden. Die endgültige Posterior-Verteilung stellt die aktualisierte Überzeugung über die Parameterwerte dar und berücksichtigt sowohl Vorwissen als auch beobachtete Daten. Es liefert eine Reihe plausibler Parameterwerte zusammen mit ihren Wahrscheinlichkeiten.

Der Satz von Bayes wird verwendet, um die A-posteriori-Wahrscheinlichkeit eines Parameterwerts anhand der Daten zu berechnen. Dabei wird die A-priori-Wahrscheinlichkeit mit der Wahrscheinlichkeit der Daten bei gegebenem Parameterwert multipliziert und durch Division durch die Wahrscheinlichkeit der Daten normalisiert.

Durch die Berücksichtigung der vollständigen Posterior-Verteilung ermöglicht der Bayes'sche Ansatz eine umfassendere Analyse der Parameterwerte, indem frühere Annahmen einbezogen und auf der Grundlage beobachteter Daten aktualisiert werden.

Lecture 9.4 — Introduction to the full Bayesian approach [Neural Networks for Machine Learning]
Lecture 9.4 — Introduction to the full Bayesian approach [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
For cool updates on AI research, follow me at https://twitter.com/iamvriad.Lecture from the course Neural Networks for Machine Learning, as taught by Geoffre...
 

Vorlesung 9.5 – Die Bayes'sche Interpretation des Gewichtsverlusts



Vorlesung 9.5 – Die Bayes'sche Interpretation des Gewichtsverlusts [Neuronale Netze für maschinelles Lernen]

In diesem Video wird die bayesianische Interpretation von Gewichtszuschlägen im Rahmen des vollständigen Bayesianischen Ansatzes erörtert. Beim Bayes'schen Ansatz besteht das Ziel darin, die A-Posteriori-Wahrscheinlichkeit jeder möglichen Einstellung der Modellparameter zu berechnen. Eine vereinfachte Version namens „Maximales a-posteriori-Lernen“ konzentriert sich jedoch darauf, den einzelnen Parametersatz zu finden, der den besten Kompromiss zwischen der Anpassung früherer Überzeugungen und der Anpassung der beobachteten Daten darstellt. Dieser Ansatz liefert eine Erklärung für die Verwendung des Gewichtsabfalls zur Steuerung der Modellkapazität. Wenn wir den quadratischen Fehler beim überwachten Maximum-Likelihood-Lernen minimieren, finden wir im Wesentlichen einen Gewichtsvektor, der die logarithmische Wahrscheinlichkeitsdichte der richtigen Antwort maximiert. Bei dieser Interpretation wird davon ausgegangen, dass die richtige Antwort durch Hinzufügen von Gauß-Rauschen zur Ausgabe des neuronalen Netzwerks erzeugt wird.

In dieser probabilistischen Interpretation wird die Ausgabe des Modells als Zentrum einer Gaußschen Funktion betrachtet, und wir sind daran interessiert, dass der Zielwert mit hoher Wahrscheinlichkeit unter dieser Gaußschen Funktion liegt. Die negative logarithmische Wahrscheinlichkeitsdichte des Zielwerts entspricht bei gegebener Netzwerkausgabe der quadrierten Differenz zwischen dem Ziel und der Ausgabe dividiert durch die doppelte Varianz der Gaußschen Funktion. Durch die Verwendung von Protokollen und das Setzen eines Minuszeichens wird die negative logarithmische Wahrscheinlichkeitsdichte des Zielwerts angesichts der Netzwerkausgabe zu einer Kostenfunktion. Die Minimierung dieser Kostenfunktion entspricht der Minimierung der quadrierten Distanz. Dies zeigt, dass es bei der Minimierung eines quadratischen Fehlers eine probabilistische Interpretation gibt, bei der wir die logarithmische Wahrscheinlichkeit unter einer Gaußschen Funktion maximieren.

Der richtige Bayes'sche Ansatz besteht darin, die vollständige Posterior-Verteilung über alle möglichen Gewichtsvektoren zu finden, was für nichtlineare Netzwerke eine Herausforderung sein kann. Als einfachere Alternative können wir versuchen, den wahrscheinlichsten Gewichtsvektor zu finden, der aufgrund unseres Vorwissens und der Daten am wahrscheinlichsten ist.

Beim maximalen a-posteriori-Lernen zielen wir darauf ab, den Satz von Gewichten zu finden, der den Kompromiss zwischen der Anpassung des Priors und der Anpassung der Daten optimiert. Die Verwendung negativer logarithmischer Wahrscheinlichkeiten als Kosten ist praktischer als das Arbeiten im Wahrscheinlichkeitsbereich. Wir maximieren die Log-Wahrscheinlichkeit der Daten bei gegebenen Gewichtungen, was der Maximierung der Summe der Log-Wahrscheinlichkeiten der Ausgaben für alle Trainingsfälle bei gegebenen Gewichten entspricht. Um die Gewichte zu optimieren, berücksichtigen wir die negative logarithmische Wahrscheinlichkeit der Gewichtungen angesichts der Daten. Diese Kosten bestehen aus zwei Termen: einem, der sowohl von den Daten als auch den Gewichtungen abhängt und misst, wie gut wir die Ziele erreichen, und einem weiteren Term, der nur von den Gewichten abhängt und aus der logarithmischen Wahrscheinlichkeit der Daten bei gegebenen Gewichtungen abgeleitet wird.

Wenn wir davon ausgehen, dass der Ausgabe des Modells Gaußsches Rauschen hinzugefügt wird, um Vorhersagen zu treffen, und Gaußsches Rauschen für die Gewichte, dann ist die logarithmische Wahrscheinlichkeit der Daten bei gegebenen Gewichten der quadrierte Abstand zwischen der Ausgabe und dem Ziel, skaliert mit der doppelten Varianz der Gaußsches Rauschen. In ähnlicher Weise ist die logarithmische Wahrscheinlichkeit einer Gewichtung unter der Prior-Gewichtung der quadrierte Wert der Gewichtung, skaliert mit der doppelten Varianz der Gaußschen Prior-Gewichtung.

Durch Multiplikation mit dem Produkt der doppelten Varianzen des Gaußschen Rauschens und des Prior erhalten wir eine neue Kostenfunktion. Der erste Term entspricht dem quadratischen Fehler, der typischerweise in einem neuronalen Netzwerk minimiert wird. Der zweite Term ist das Verhältnis zweier Varianzen multipliziert mit der Summe der quadrierten Gewichte, was dem Gewichtszuschlag entspricht. Somit wird der Gewichtszuschlag durch das Verhältnis der Varianzen in dieser Gaußschen Interpretation bestimmt und ist in diesem Rahmen kein willkürlicher Wert. Daher handelt es sich bei der Gewichtsstrafe in dieser Bayes'schen Interpretation nicht nur um einen willkürlichen Wert, der zur Verbesserung der Leistung gewählt wird. Es gibt eine aussagekräftige Interpretation, die auf den Varianzen des Gaußschen Rauschens und des Priors basiert.

Um es weiter zu verdeutlichen: Wenn wir die Gleichung mit dem Doppelten der Varianzen multiplizieren und über alle Trainingsfälle summieren, entspricht der erste Term der quadrierten Differenz zwischen der Ausgabe des neuronalen Netzwerks und dem Ziel. Dieser Begriff stellt den quadratischen Fehler dar, der typischerweise in einem neuronalen Netzwerk minimiert wird. Der zweite Term, der nur von den Gewichten abhängt, ist das Verhältnis der beiden Varianzen multipliziert mit der Summe der quadrierten Gewichte. Dieser Begriff ist die Gewichtsstrafe. Es bestraft große Gewichtswerte und fördert kleinere Gewichte. Das Verhältnis der Varianzen bestimmt die Stärke dieser Strafe.

Durch die Einführung einer Gewichtsstrafe gehen wir im Wesentlichen einen Kompromiss zwischen einer guten Anpassung der Daten und einer geringen Gewichtung ein. Dieser Kompromiss wird durch das Verhältnis der Varianzen gesteuert. Eine größere Gewichtsstrafe (dh ein kleineres Varianzverhältnis) führt zu kleineren Gewichtungen, wohingegen eine kleinere Gewichtsstrafe (dh ein größeres Varianzverhältnis) größere Gewichte ermöglicht. Es ist wichtig zu beachten, dass die Interpretation des Gewichtsabfalls oder der Gewichtsnachteile als Bayes'scher Ansatz auf der Annahme von Gauß'schem Rauschen und Gauß'schen Prior-Verteilungen beruht. Diese Annahmen vereinfachen die Berechnungen und bieten einen probabilistischen Rahmen zum Verständnis der Auswirkungen von Gewichtseinbußen auf den Optimierungsprozess.

In der Praxis kann es eine rechentechnische Herausforderung sein, die vollständige Posterior-Verteilung über alle möglichen Gewichtsvektoren zu finden, insbesondere bei komplexen nichtlinearen Netzwerken. Daher bietet das maximale a-posteriori-Lernen, das darauf abzielt, den wahrscheinlichsten Gewichtsvektor zu finden, eine praktischere Alternative. Dieser Ansatz gleicht die Anpassung früherer Überzeugungen und der beobachteten Daten aus und bietet so eine Kompromisslösung.

Die Bayes'sche Interpretation von Gewichtsstrafen ermöglicht ein tieferes Verständnis ihrer Rolle bei der Optimierung neuronaler Netzwerke. Indem wir die probabilistische Perspektive und den Kompromiss zwischen der Anpassung der Daten und der vorherigen Gewichtung berücksichtigen, können wir Gewichtsstrafen als Regularisierungstechnik nutzen, um die Modellkapazität zu steuern und die Generalisierungsleistung zu verbessern.

Lecture 9.5 — The Bayesian interpretation of weight decay [Neural Networks for Machine Learning]
Lecture 9.5 — The Bayesian interpretation of weight decay [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
 

Vorlesung 9.6 – MacKays Quick-and-Dirty-Methode



Vorlesung 9.6 – MacKays Quick-and-Dirty-Methode [Neuronale Netze für maschinelles Lernen]

In diesem Video werde ich eine von David MacKay in den 1990er Jahren entwickelte Methode diskutieren, um Gewichtseinbußen in einem neuronalen Netzwerk zu bestimmen, ohne auf einen Validierungssatz angewiesen zu sein. MacKays Ansatz basiert auf der Interpretation von Gewichtsnachteilen als Maximum-a-posteriori-Schätzung (MAP), wobei sich die Größe des Gewichtsnachteils auf die Enge der vorherigen Verteilung über die Gewichte bezieht.

MacKay hat gezeigt, dass wir sowohl die Gewichtseinbußen als auch das angenommene Rauschen empirisch in die Ausgabe des neuronalen Netzwerks einpassen können. Dies ermöglicht es uns, eine Methode zum Anpassen von Gewichtszuschlägen zu erhalten, die keinen Validierungssatz erfordert und unterschiedliche Gewichtszuschläge für Teilmengen von Verbindungen innerhalb eines Netzwerks ermöglicht. Diese Flexibilität wäre mit Validierungssätzen rechenintensiv zu erreichen.

Jetzt werde ich eine einfache und praktische Methode beschreiben, die von David MacKay entwickelt wurde, um die Interpretation von Gewichtszuschlägen als Verhältnis zweier Varianzen zu nutzen. Nachdem wir ein Modell zur Minimierung des quadratischen Fehlers erlernt haben, können wir den besten Wert für die Ausgabevarianz bestimmen. Dieser Wert wird durch Verwendung der Varianz der Restfehler ermittelt.

Wir können auch die Varianz im Gaußschen Prior für die Gewichte schätzen. Zunächst schätzen wir diese Varianz und fahren mit dem Lernprozess fort. Hier kommt der „schmutzige Trick“ namens empirischer Bayes. Wir setzen die vorherige Varianz auf die Varianz der Gewichte, die das Modell gelernt hat, da diese Gewichte dadurch am wahrscheinlichsten sind. Obwohl dies gegen einige Annahmen des Bayes'schen Ansatzes verstößt, ermöglicht es uns, den Prior anhand der Daten zu bestimmen.

Nachdem wir die Gewichte gelernt haben, passen wir eine Gaußsche Verteilung mit dem Mittelwert Null an die eindimensionale Verteilung der gelernten Gewichte an. Wir nehmen dann die Varianz dieser Gaußschen Funktion als unsere gewichtete Prior-Varianz. Insbesondere wenn es unterschiedliche Teilmengen von Gewichten gibt, beispielsweise in verschiedenen Schichten, können wir unterschiedliche Varianzen für jede Schicht lernen.

Der Vorteil der MacKay-Methode besteht darin, dass kein Validierungssatz erforderlich ist, sodass alle Nicht-Testdaten für das Training verwendet werden können. Darüber hinaus ermöglicht es die Einbeziehung mehrerer Gewichtszuschläge, was mit Validierungssätzen nur schwer zu erreichen wäre.

Um die Methode zusammenzufassen, beginnen wir mit der Schätzung des Verhältnisses der Rauschvarianz und der gewichteten A-priori-Varianz. Anschließend führen wir ein Gradientenabstiegslernen durch, um die Gewichte zu verbessern. Als Nächstes aktualisieren wir die Rauschvarianz auf die Varianz der Restfehler und die Gewichtungsvarianz auf die Varianz der Verteilung der gelernten Gewichte. Diese Schleife wird iterativ wiederholt.

In der Praxis hat sich MacKays Methode als effektiv erwiesen und er erzielte mit diesem Ansatz Erfolge bei mehreren Wettbewerben.

Lecture 9.6 — MacKay 's quick and dirty method [Neural Networks for Machine Learning]
Lecture 9.6 — MacKay 's quick and dirty method [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
 

10.1 – Warum es hilft, Modelle zu kombinieren



10.1 – Warum es hilft, Modelle zu kombinieren [Neuronale Netze für maschinelles Lernen]

In diesem Video werde ich die Bedeutung der Kombination mehrerer Modelle für die Erstellung von Vorhersagen diskutieren. Bei der Verwendung eines einzelnen Modells stehen wir vor der Herausforderung, die richtige Kapazität dafür auszuwählen. Wenn die Kapazität zu gering ist, kann das Modell die Regelmäßigkeiten in den Trainingsdaten nicht erfassen. Wenn andererseits die Kapazität zu hoch ist, passt das Modell den Stichprobenfehler im spezifischen Trainingssatz zu stark an. Durch die Kombination mehrerer Modelle können wir ein besseres Gleichgewicht zwischen der Anpassung an die wahren Regelmäßigkeiten und der Vermeidung einer Überanpassung finden. Die gemeinsame Mittelung der Modelle führt häufig zu besseren Ergebnissen als die Verwendung eines einzelnen Modells. Dieser Effekt ist insbesondere dann von Bedeutung, wenn die Modelle unterschiedliche Vorhersagen treffen. Die Modelle dazu zu ermutigen, unterschiedliche Vorhersagen zu treffen, kann durch verschiedene Techniken erreicht werden.

Beim Umgang mit begrenzten Trainingsdaten ist Überanpassung ein häufiges Problem. Durch die Berücksichtigung der Vorhersagen mehrerer Modelle können wir jedoch eine Überanpassung abmildern. Dies gilt insbesondere dann, wenn die Modelle unterschiedliche Vorhersagen treffen. Bei der Regression können wir den quadratischen Fehler in einen Bias-Term und einen Varianz-Term zerlegen. Der Bias-Term gibt an, wie gut das Modell die wahre Funktion annähert, während der Varianz-Term die Fähigkeit des Modells misst, den Stichprobenfehler im Trainingssatz zu erfassen. Durch die Mittelung von Modellen können wir die Varianz reduzieren und gleichzeitig eine geringe Abweichung beibehalten, da Modelle mit hoher Kapazität häufig eine geringe Abweichung aufweisen. Dadurch können wir die Vorteile der Mittelwertbildung nutzen, um Fehler zu reduzieren.

Beim Vergleich eines einzelnen Modells mit dem Durchschnitt der Modelle in einem bestimmten Testfall ist es möglich, dass einige einzelne Prädiktoren den kombinierten Prädiktor übertreffen. Allerdings sind unterschiedliche individuelle Prädiktoren in unterschiedlichen Fällen hervorragend. Wenn darüber hinaus einzelne Prädiktoren erheblich voneinander abweichen, übertrifft der kombinierte Prädiktor im Allgemeinen im Durchschnitt alle einzelnen Prädiktoren. Das Ziel besteht also darin, individuelle Prädiktoren zu haben, die voneinander deutliche Fehler machen und dabei dennoch genau bleiben.

Mathematisch gesehen vergleichen wir beim Kombinieren von Netzwerken zwei erwartete quadratische Fehler. Der erste Fehler entspricht der zufälligen Auswahl eines Prädiktors und der Mittelung der Vorhersagen über alle Prädiktoren. Der zweite Fehler wird durch Mittelung der Vorhersagen der Modelle ermittelt. Der erwartete quadratische Fehler bei der zufälligen Auswahl eines Modells ist größer als der durch die Mittelung erzielte quadratische Fehler, was auf den Vorteil der Mittelung bei der Fehlerreduzierung hinweist. Der zusätzliche Term in der Gleichung stellt die Varianz der Modellergebnisse dar, die durch Mittelung effektiv reduziert wird.

Um unterschiedliche Vorhersagen zwischen den Modellen zu erzielen, können verschiedene Ansätze eingesetzt werden. Dazu gehört die Verwendung unterschiedlicher Modelltypen, die Änderung von Modellarchitekturen, der Einsatz unterschiedlicher Lernalgorithmen und das Trainieren von Modellen auf unterschiedlichen Teilmengen der Daten. Auch Techniken wie Bagging und Boosting sind bei der Erstellung vielfältiger Modelle wirksam. Beim Bagging werden verschiedene Modelle auf verschiedenen Teilmengen der Daten trainiert, während beim Boosting die Trainingsfälle für jedes Modell unterschiedlich gewichtet werden. Diese Methoden tragen zu einer verbesserten Leistung beim Kombinieren von Modellen bei.

Die Kombination mehrerer Modelle ist für Vorhersageaufgaben von Vorteil. Durch die Mittelung der Modelle können wir ein Gleichgewicht zwischen der Erfassung von Regelmäßigkeiten und der Vermeidung von Überanpassungen herstellen. Verschiedene Vorhersagen zwischen den Modellen verbessern die Leistung des kombinierten Prädiktors. Verschiedene Techniken können angewendet werden, um unterschiedliche Vorhersagen zu fördern und so zu besseren Gesamtergebnissen zu führen.

10.1 — Why it helps to combine models [Neural Networks for Machine Learning]
10.1 — Why it helps to combine models [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
 

Vorlesung 10.2 – Expertenmischungen



Vorlesung 10.2 – Expertenmischungen [Neuronale Netze für maschinelles Lernen]

Das Anfang der 1990er Jahre entwickelte Expertenmix-Modell trainiert mehrere neuronale Netze, die sich jeweils auf unterschiedliche Teile der Daten spezialisieren. Die Idee besteht darin, ein neuronales Netz pro Datenregime zu haben, wobei ein neuronales Netz des Managers anhand der Eingabedaten entscheidet, welcher Spezialist zugewiesen wird. Dieser Ansatz wird bei größeren Datensätzen effektiver, da umfangreiche Daten zur Verbesserung von Vorhersagen genutzt werden können. Während des Trainings werden die Gewichte der Modelle erhöht, um sich auf Fälle zu konzentrieren, in denen sie eine bessere Leistung erbringen. Diese Spezialisierung führt dazu, dass einzelne Modelle in bestimmten Bereichen hervorragende Leistungen erbringen, während sie in anderen schlecht abschneiden. Der Schlüssel besteht darin, jeden Experten dazu zu bringen, sich darauf zu konzentrieren, die richtige Antwort für Fälle vorherzusagen, in denen er andere Experten übertrifft.

Im Spektrum der Modelle gibt es lokale und globale Modelle. Lokale Modelle konzentrieren sich wie die nächsten Nachbarn auf bestimmte Trainingsfälle und speichern ihre Werte zur Vorhersage. Globale Modelle wie die Anpassung eines Polynoms an alle Daten sind komplexer und können instabil sein. Dazwischen gibt es Modelle mittlerer Komplexität, die für Datensätze mit unterschiedlichen Regimen und variierenden Input-Output-Beziehungen nützlich sind.

Um unterschiedliche Modelle an unterschiedliche Regime anzupassen, müssen die Trainingsdaten in Teilmengen unterteilt werden, die jedes Regime repräsentieren. Eine allein auf Eingabevektoren basierende Clusterbildung ist nicht ideal. Stattdessen sollte die Ähnlichkeit der Eingabe-Ausgabe-Zuordnungen berücksichtigt werden. Durch die Partitionierung auf Basis der Input-Output-Zuordnung können Modelle die Beziehungen innerhalb jedes Regimes besser erfassen.

Es gibt zwei Fehlerfunktionen: eine, die die Zusammenarbeit von Modellen fördert, und eine andere, die die Spezialisierung fördert. Um die Zusammenarbeit zu fördern, muss der Durchschnitt aller Prädiktoren mit dem Ziel verglichen und die Prädiktoren gemeinsam trainiert werden, um die Differenz zu minimieren. Dies kann jedoch zu einer Überanpassung führen, wenn das Modell leistungsfähiger ist als das separate Training jedes Prädiktors. Im Gegensatz dazu vergleicht die Fehlerfunktion, die die Spezialisierung fördert, die Ausgabe jedes Modells separat mit dem Ziel. Ein Manager bestimmt die jedem Modell zugewiesenen Gewichtungen, die die Wahrscheinlichkeit der Auswahl dieses Modells darstellen. Die meisten Experten ignorieren am Ende die meisten Ziele und konzentrieren sich nur auf eine Teilmenge der Trainingsfälle, in denen sie gute Ergebnisse erzielen.

Die Architektur des Mix-of-Experts-Modells besteht aus mehreren Experten, einem Manager und einer Softmax-Schicht. Der Manager bestimmt die Wahrscheinlichkeiten der Auswahl jedes Experten anhand der Eingabedaten. Die Fehlerfunktion wird anhand der Ergebnisse der Experten und der Wahrscheinlichkeiten des Managers berechnet. Durch Differenzierung der Fehlerfunktion können Gradienten für die Schulung der Experten und der Führungskraft ermittelt werden. Experten mit geringen Wahrscheinlichkeiten für einen bestimmten Fall haben kleine Gradienten, wodurch ihre Parameter erhalten bleiben. Die Differenzierung nach den Ausgängen des Gating-Netzwerks liefert die wahrscheinlichkeitsbasierte Spezialisierung.

Es gibt eine kompliziertere Kostenfunktion, die auf Mischungsmodellen basiert und Gaußsche Vorhersagen und Maximum-Likelihood-Schätzungen umfasst. Diese Funktion maximiert die logarithmische Wahrscheinlichkeit des Zielwerts unter der Mischung der Vorhersageverteilung der Experten. Das Ziel besteht darin, die negative logarithmische Wahrscheinlichkeit als Kostenfunktion zu minimieren.

Das Expertenmischungsmodell nutzt spezialisierte neuronale Netze für verschiedene Datenregime und nutzt große Datensätze effektiv für verbesserte Vorhersagen.

Lecture 10.2 — Mixtures of Experts [Neural Networks for Machine Learning]
Lecture 10.2 — Mixtures of Experts [Neural Networks for Machine Learning]
  • 2016.02.04
  • www.youtube.com
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
 

Vorlesung 10.3 – Die Idee des vollständigen Bayes'schen Lernens



Vorlesung 10.3 – Die Idee des vollständigen Bayes’schen Lernens [Neuronale Netze für maschinelles Lernen]

In diesem Video bespreche ich das vollständige Bayesianische Lernen und wie es funktioniert. Beim vollständigen Bayes'schen Lernen zielen wir darauf ab, die vollständige Posterior-Verteilung über alle möglichen Parametereinstellungen zu finden, anstatt nach einer einzigen optimalen Einstellung zu suchen. Allerdings ist die Berechnung dieser Verteilung für komplexe Modelle wie neuronale Netze rechenintensiv. Sobald wir die Posterior-Verteilung haben, können wir Vorhersagen treffen, indem wir die Vorhersagen aus verschiedenen Parametereinstellungen gewichtet mit ihren Posterior-Wahrscheinlichkeiten mitteln. Obwohl dieser Ansatz rechenintensiv ist, ermöglicht er uns die Verwendung komplexer Modelle auch mit begrenzten Daten.

Überanpassung ist ein häufiges Problem bei der Anpassung komplizierter Modelle an kleine Datensätze. Indem wir jedoch die vollständige Posteriorverteilung über die Parameter erhalten, können wir eine Überanpassung vermeiden. Ein frequentistischer Ansatz schlägt vor, bei begrenzten Daten einfachere Modelle zu verwenden, wobei davon ausgegangen wird, dass die Anpassung eines Modells bedeutet, die beste Parametereinstellung zu finden. Bei der vollständigen Posterior-Verteilung können die Vorhersagen jedoch selbst bei wenigen Daten vage sein, da unterschiedliche Parametereinstellungen erhebliche Posterior-Wahrscheinlichkeiten haben. Je mehr Daten wir sammeln, desto stärker konzentriert sich die Posterior-Verteilung auf bestimmte Parametereinstellungen, was zu schärferen Vorhersagen führt.

Das Beispiel der Überanpassung besteht darin, ein Polynom fünfter Ordnung an sechs Datenpunkte anzupassen, was scheinbar perfekt zu den Daten passt. Im Gegensatz dazu passt eine gerade Linie mit nur zwei Freiheitsgraden nicht gut zu den Daten. Wenn wir jedoch mit einem vernünftigen Prior für Polynome fünfter Ordnung beginnen und die vollständige Posterior-Verteilung berechnen, erhalten wir vagere, aber sinnvollere Vorhersagen. Verschiedene Modelle innerhalb der Posterior-Verteilung treffen bei einem bestimmten Eingabewert unterschiedliche Vorhersagen und stimmen im Durchschnitt eng mit den Vorhersagen der grünen Linie überein.

Aus bayesianischer Sicht sollte die Menge der gesammelten Daten keinen Einfluss auf frühere Annahmen über die Modellkomplexität haben. Indem wir das vollständige Bayes'sche Lernen in einem neuronalen Netz mit wenigen Parametern annähern, können wir einen gitterbasierten Ansatz verwenden. Wir platzieren ein Gitter über dem Parameterraum und lassen jedem Parameter einige alternative Werte zu. Das Kreuzprodukt dieser Werte liefert uns Gitterpunkte im Parameterraum. Wir bewerten die Leistung jedes Gitterpunkts bei der Vorhersage der Daten und berücksichtigen seine A-priori-Wahrscheinlichkeit und weisen A-posteriori-Wahrscheinlichkeiten zu. Obwohl diese Methode rechenintensiv ist, vermeidet sie Probleme mit Gradientenabstieg und lokalen Optima. Bei begrenzten Daten ist die Leistung besser als die maximale Wahrscheinlichkeit oder die maximale a-posteriori-Methode.

Um Vorhersagen zu Testdaten zu treffen, berechnen wir die Wahrscheinlichkeit einer Testausgabe bei gegebener Testeingabe, indem wir die Wahrscheinlichkeiten aller Gitterpunkte summieren. Die Wahrscheinlichkeit eines Gitterpunkts bei gegebenen Daten und Prior, multipliziert mit der Wahrscheinlichkeit, die Testausgabe bei gegebener Eingabe und Gitterpunkt zu erhalten, bestimmt die Gewichtung der Vorhersage jedes Gitterpunkts. Wir erwägen auch die Möglichkeit, die Ausgabe des Netzes zu modifizieren, bevor wir die Testantwort erstellen.

In dem bereitgestellten Bild, das das vollständige Bayes'sche Lernen veranschaulicht, ist ein kleines Netz mit vier Gewichten und zwei Verzerrungen dargestellt. Wenn wir neun mögliche Werte für jedes Gewicht und jeden Bias berücksichtigen, hätte der Parameterraum neun hoch sechs Gitterpunkte. Für jeden Gitterpunkt berechnen wir die Wahrscheinlichkeit der beobachteten Ergebnisse für alle Trainingsfälle, multipliziert mit der für diesen Gitterpunkt spezifischen A-priori-Wahrscheinlichkeit. Durch die Normalisierung dieser Wahrscheinlichkeiten erhalten wir die A-posteriori-Wahrscheinlichkeit über alle Gitterpunkte. Schließlich treffen wir mithilfe dieser Gitterpunkte Vorhersagen und gewichten jede Vorhersage anhand ihrer A-posteriori-Wahrscheinlichkeit.

Grund der Beschwerde: