Maschinelles Lernen und neuronale Netze - Seite 20

 

Mega-R6. Erhöhen



Mega-R6. Erhöhen

Im Video „Mega-R6. Boosting“ erklärt der Referent das Konzept des Boosting beim maschinellen Lernen und demonstriert den Prozess der Auswahl der richtigen Klassifikatoren zur Minimierung von Fehlern. Sie geben ein Beispiel für die Identifizierung von Vampiren anhand bestimmter Eigenschaften und erörtern, wie man die effektivsten Klassifikatoren auswählt. Die ausgewählten Klassifikatoren werden verwendet, um einen endgültigen Klassifikator zu erstellen, der auf die Datenpunkte angewendet wird, um zu bestimmen, wie viele korrekt klassifiziert werden. Der Redner betont auch, dass es wichtig ist, zu entscheiden, wann der Prozess beendet werden soll, und räumt ein, dass das Erreichen vollständiger Genauigkeit möglicherweise nicht immer machbar ist.

  • 00:00:00 In diesem Abschnitt erörtert der Referent das Konzept des Boosting beim maschinellen Lernen, das eine Reihe verschiedener Klassifikatoren umfasst. Das als Beispiel verwendete Problem beinhaltet die Identifizierung von Vampiren basierend auf verschiedenen Eigenschaften wie Böse, Emo, Glanz und Anzahl romantischer Interessen. Der Schlüssel zum Boosten besteht darin, dass jeder mögliche Klassifikator, solange es sich nicht um eine 50/50-Aufteilung der Daten handelt, auf irgendeine Weise verwendet werden kann, um einen überlegenen Klassifikator zu erstellen. Darüber hinaus stellt der Sprecher fest, dass es tatsächlich mehr Klassifikatoren als die aufgelisteten gibt, da viele von ihnen entgegengesetzte Versionen haben, die für dieses spezielle Problem ignoriert werden.

  • 00:05:00 In diesem Abschnitt erklärt der Sprecher, warum ein 50/50-Split zum Boosten nutzlos ist, da er so gut ist wie das Werfen einer Münze. In einigen Fällen ist jedoch ein Klassifikator, der schlechter als 50/50 ist, immer noch besser als ein 50/50-Klassifikator. In späteren Boosting-Runden müssen die Gewichtungen jedes Datenpunkts geändert werden, und der Klassifikator mit der besten Leistung wird derjenige sein, der am meisten richtig gewichtet. Obwohl Klassifikatoren, die weniger als die Hälfte der Gewichtung richtig machen, normalerweise in Ordnung sind, empfiehlt der Sprecher, ihre Inversen zu verwenden, um mehr als die Hälfte der Gewichtung richtig zu machen.

  • 00:10:00 In diesem Abschnitt geht der Sprecher jeden Klassifikator durch und findet heraus, welche Datenpunkte falsch klassifiziert wurden. Mit der Annahme, dass alle bösen Dinge Vampire und alle nicht bösen Dinge keine Vampire sind, stellen sie fest, dass sie Engel, Edward Cullen, Saya Otonashi und Lestat de Lioncourt falsch verstehen, wenn das Böse gleich Nein ist. Eine ähnliche Logik wird auf Emo-Charaktere und transformierende Charaktere angewendet. Wenn Sparkly gleich Ja ist, haben sie eins, zwei, vier, fünf, sechs, sieben und acht falsch, und wenn die Anzahl der romantischen Interessen größer als zwei ist, haben sie Searcy und Edward Cullen falsch. Wenn die Anzahl der romantischen Interessen größer als vier ist, fallen keine Charaktere in diese Kategorie, sodass keine falsch klassifiziert werden.

  • 00:15:00 In diesem Abschnitt des Videos erläutert der Sprecher die Klassifizierung von Vampiren und welche Klassifikatoren wahrscheinlich falsch sind. Der Referent weist darauf hin, dass es bestimmte positive Klassifikatoren gibt, die zwangsläufig zu falschen negativen Klassifikatoren führen. Der Sprecher listet dann mehrere Klassifikatoren auf und behauptet, dass Einzelpersonen in ihren kühnsten Träumen nur sechs davon verwenden würden. Der Sprecher bittet die Zuschauer um ihre Meinung dazu, welche Klassifikatoren ihrer Meinung nach nützlich sind, und kreist diejenigen ein, die als sinnvoll erachtet werden. Die Klassifikatoren, die als nützlich angesehen werden, sind diejenigen, die nur wenige Fehler machen, wie z. B. die Klassifikatoren E und F.

  • 00:20:00 In diesem Abschnitt erklärt der Sprecher den Prozess der Auswahl der richtigen sechs Datenpunkte für die Verstärkung in Mega-R6. Ein wichtiger Punkt ist, dass zwar viele verschiedene Datenpunkte zur Auswahl stehen, einige von ihnen jedoch strikt besser sind als andere. Beispielsweise ist der Datenpunkt F immer schlechter als E, also sollte er nie gewählt werden. Der Referent merkt auch an, dass es bei der Auswahl der sechs Datenpunkte wichtig ist, solche auszuwählen, die keine strikte Teilmenge derselben falschen Antworten enthalten. Der Prozess der Auswahl der sechs Datenpunkte erfordert eine sorgfältige Betrachtung der Gewichtung jedes Datenpunkts, um Fehler zu minimieren.

  • 00:25:00 In diesem Abschnitt des Videos erläutert der Moderator den Boosting-Prozess und wie man die besten Klassifikatoren für die Aufgabe auswählt. Er erklärt, wie man nutzlose Klassifikatoren durchstreicht und solche auswählt, die den Fehler minimieren. Der Präsentator fährt dann damit fort, den Boosting-Prozess zu demonstrieren, beginnend mit der gleichmäßigen Gewichtung aller zehn Datenpunkte und der Auswahl des Klassifikators E als dem besten. Der Fehler wird dann auf ein Fünftel berechnet, und der Prozess wird von dort aus fortgesetzt.

  • 00:30:00 In diesem Abschnitt des Videos erklärt der Moderator, wie man alle von einem Klassifizierer getroffenen Entscheidungen richtig trifft. Dieser Prozess beinhaltet die Änderung der Gewichtung jeder Entscheidung auf 1/2 für die richtigen und 1/2 für die falschen. Der Moderator skizziert eine Methode zur Automatisierung dieses Prozesses, bei der die Gewichtungen so umgeschrieben werden, dass sie leichter addiert und die beste Entscheidung getroffen werden können. In diesem Beispiel wird die Entscheidung mit dem kleinsten Fehlerbetrag gewählt.

  • 00:35:00 In diesem Abschnitt erörtert der Sprecher den Prozess zur Bestimmung des besten Klassifikators im Mega-R6-Boosting-Spiel. Das Transkript enthält Berechnungen, die die Summe der Zahlen innerhalb und außerhalb der Kreise beinhalten, sowie den Prozess der Änderung der Zahlen im Kreis, um die Bestimmung des besten Klassifikators zu erleichtern. Der Referent hält es für wichtig, vergangene Runden zu ignorieren und bei der Bestimmung eines Klassifikators nur die aktuellen Gewichte zu berücksichtigen. Der Referent erklärt auch, dass Klassifikatoren nicht zweimal hintereinander verwendet werden können und geht auf den Grund für dieses Designmerkmal ein. Der beste Klassifikator wird als A bestimmt, weil er die geringste Anzahl falscher Antworten hatte.

  • 00:40:00 In diesem Abschnitt des Transkripts erläutert der Referent, wie der endgültige Klassifikator mit der Boosting-Methode berechnet wird. Der endgültige Klassifikator ist eine Kombination der gewichteten Klassifikatoren, die zu seiner Erstellung verwendet wurden. Der Sprecher wendet dann den endgültigen Klassifikator auf zehn Datenpunkte an, um zu bestimmen, wie viele korrekt klassifiziert sind, indem er eine einfache Abstimmung verwendet, um die Ausgabe zu bestimmen. Ein Datenpunkt, Edward Cullen von Twilight, ist falsch, weil zwei von drei Klassifizierern ihn nicht als Vampir klassifiziert haben.

  • 00:45:00 In diesem Abschnitt des Videos bespricht der Sprecher verschiedene Charaktere als entweder böse, Emo oder Vampir, basierend auf ihren Eigenschaften und Liebesinteressen, und die Genauigkeit eines Boosting-Algorithmus bei der Klassifizierung. Die Diskussion führt zu einer Frage über die Verwendung mehrerer Klassifikatoren, um den Klassifikationsprozess zu beschleunigen, was der Sprecher erklärt, dass dies in gewissem Maße richtig ist, aber das Durchlaufen einer größeren Anzahl von Klassifikatoren erfordert. Der Sprecher betont auch, dass der Konvergenzprozess, um alles richtig zu machen, nicht immer einfach ist und möglicherweise die Entscheidung erfordert, nach einer bestimmten Anzahl von Runden aufzuhören.
Mega-R6. Boosting
Mega-R6. Boosting
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Mark SeifterThis mega-recitation covers the boos...
 

Mega-R7. Beinaheunfälle, Arch Learning



Mega-R7. Beinaheunfälle, Arch Learning

In dem Video wird das Konzept des Near-Miss-Lernens vorgestellt, das das Lernen über verschiedene Arten von Lichtquellen und ihre Eigenschaften beinhaltet. Der Arch Learning-Ansatz verwendet sechs Heuristiken, um ein Modell zu verfeinern, darunter Require Link, Forbid Link, Climb-Tree, Extend Set, Closed Interval und Drop Link. Das Video behandelt verschiedene Techniken, die beim maschinellen Lernen verwendet werden, wie Extend Set, Climb Tree, Closed Interval und Drop Link. Die Referenten sprechen auch über Probleme im Zusammenhang mit der Fragilität und Anfälligkeit des Arch Learning-Modells für Ordnung, was zu uneinheitlichen Reaktionen auf widersprüchliche Informationen führt. Das Video diskutiert auch das Konzept der Verallgemeinerung für den Mega-R7 und wie es sich von früheren Modellen unterscheidet. Darüber hinaus werden die Kompromisse zwischen irischem Lernen und Gitterlernen in Bezug auf ihre Fähigkeit, Teilmengen von Informationen auszudrücken, sowie das Unterrichten des Systems unter Verwendung mehrerer Modelle mit unterschiedlichen Implementierungsdetails diskutiert.

  • 00:00:00 In diesem Abschnitt wird das Konzept des Beinahe-Unfall-Lernbaums vorgestellt, bei dem es darum geht, verschiedene Arten von Lichtquellen und ihre Eigenschaften kennenzulernen. Das Ausgangsmodell ist eine Glühbirne mit flachem Sockel und Schirm, die mit Strom betrieben wird. Der Arch-Learning-Ansatz umfasst die Verwendung von sechs Heuristiken, darunter Require Link, Forbid Link, Climb-Tree, Extend Set, Closed Interval und Drop Link. Require link macht ein zuvor irrelevantes Feature zu einer Anforderung, und Forbid Link verbietet ein Feature. Diese Heuristik hilft dabei, das Modell zu verfeinern, indem sie bestimmte Funktionen notwendig oder unnötig macht, und kann dabei helfen, Beinaheunfall-Szenarien zu identifizieren.

  • 00:05:00 In diesem Abschnitt erörtert der Referent verschiedene Techniken, die beim maschinellen Lernen verwendet werden, darunter Extend Set, Climb Tree, Closed Interval und Drop Link. Die Extend-Set-Technik beinhaltet das Erstellen einer Reihe positiver Beispiele, aber das Verbot bestimmter Elemente, um Platz zu sparen. Die Climb-Tree-Technik bewegt sich im Baum nach oben, um ein allgemeineres Modell zu erstellen, während das geschlossene Intervall das gesamte Intervall abdeckt, um es akzeptabel zu machen. Die Drop-Link-Technik ermöglicht es dem System, sparsam zu sein, indem es einen Link fallen lässt, wenn alle Elemente akzeptabel sind. Der Referent geht dann auf die Verwendung der einzelnen Techniken ein und hebt die Bedeutung des Wissens beim maschinellen Lernen hervor, um das Modell für neue Beispiele akzeptabler zu machen und die Quizzeit zu verkürzen.

  • 00:10:00 In diesem Abschnitt erörtert das Video die Idee eines Generalisierers und wie er auf positive Beispiele ausgedehnt oder für enge Intervalle vergrößert werden kann. Kommt es jedoch zu einem Negativbeispiel, kann dies das System verkomplizieren und die Implementierung muss ggf. angepasst werden. Das Video zeigt dann ein Beispiel einer Lampe und wie das Modell mithilfe der Generalisierer-Heuristik angepasst werden kann, um das Intervall zu verallgemeinern, wenn es ein positives Beispiel gibt. Wenn es ein negatives Beispiel gibt, muss die Implementierung möglicherweise den Drop-Link-Ansatz verwenden, damit das System effektiv funktioniert.

  • 00:15:00 In diesem Abschnitt des Videos diskutieren die Redner einige Probleme im Zusammenhang mit dem Arch-Learning-Modell, einer Art maschinellem Lernmodell, das in den 1960er Jahren entwickelt wurde. Sie beschreiben, wie zerbrechlich und besonders anfällig das System für Ordnung ist, was bedeutet, dass die Reihenfolge, in der Daten präsentiert werden, die Lernfähigkeit des Systems stark beeinflussen kann. Darüber hinaus erklären sie, wie das System inkonsistent sein und schlecht auf widersprüchliche Informationen reagieren kann. Die Referenten erklären auch eine alternative Art des Lernens namens Gitterlernen, das alle gesehenen Beispiele speichert und sie mit neuen Beispielen vergleicht und kontrastiert, wodurch es Muster erkennen und sein Verständnis eines Themas verfeinern kann.

  • 00:20:00 In diesem Abschnitt diskutiert das Video das Konzept des Arch-Lernens, ein System, das sich absichtlich nicht an Dinge erinnert, um Eleganz und Einfachheit zu suchen. Dieser Abschnitt vergleicht die Idee mit einem Baby, das Ihnen nichts über einen Block erzählen kann, mit dem es zuvor gespielt hat, da es nicht alles speichert und sich an alles erinnert, was es erlebt hat. Menschen sind jedoch gute Lehrmeister und bieten entsprechende Beispiele, von denen eine Maschine lernen kann. Das Video spricht auch darüber, wie man den Treffer verallgemeinern kann, indem man auf den Baum klettert, anstatt das Ausmaß sparsamer, eleganter und einfacher festzulegen. Schließlich wird ein Beispiel einer Leuchtstofflampe diskutiert, und die zur Verallgemeinerung verwendete Heuristik besteht darin, den Baum von einer flachen Basis zu einer Basisstütze selbst zu erklimmen.

  • 00:25:00 In diesem Abschnitt bespricht der Sprecher ein neues Modell für den Mega-R7 und wie es sich von den vorherigen unterscheidet. Sie gehen einige Beispiele für Beinahe-Unfälle durch, d. h. Fälle, in denen das System auf Eingaben stößt, die ähnlich, aber nicht ganz gleich sind wie das, was es zuvor gesehen hat. Der Referent erklärt, dass diese Beinaheunfälle keine Änderungen am Modell erfordern und dass es akzeptabel ist, sie so zu belassen. Darüber hinaus geht der Redner auf die Frage ein, ob ein negatives Beispiel wie fluoreszierend als Beinaheunfall angesehen würde, worauf er verneint, weil das System gedächtnislos ist und nicht weiß, dass fluoreszierend früher ein positives Beispiel war .

  • 00:30:00 In diesem Abschnitt diskutiert der Sprecher die Kompromisse beim Irisch-Lernen und beim Gitter-Lernen in Bezug auf ihre Fähigkeit, Teilmengen von Informationen auszudrücken. Das irische Lernen ist zwar gedächtnislos, kann aber eine Teilmenge nicht als akzeptabel ausdrücken, ohne ein positives Beispiel dafür zu sehen, was dazu führen kann, dass etwas Ausdruckskraft verloren geht. Dieses Problem wird jedoch beim Gitterlernen behoben, hat jedoch seine eigenen Probleme. Der Referent hebt auch hervor, wie man das System unterrichtet, wie zum Beispiel die Präsentation mehrerer Modelle, die die Anforderung erfüllen, eine Basisunterstützung zu haben, während verschiedene Glühbirnen und Stromquellen verwendet werden. Die Implementierungsdetails müssen erfragt und geklärt werden, da die Wahl eines gegenüber dem anderen zu unterschiedlichen Ergebnissen führen könnte.
Mega-R7. Near Misses, Arch Learning
Mega-R7. Near Misses, Arch Learning
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Mark SeifterThis mega-recitation covers a questi...
 

AlphaGo - Der Film | Vollständiger preisgekrönter Dokumentarfilm



AlphaGo - Der Film | Vollständiger preisgekrönter Dokumentarfilm

Ein Dokumentarfilm über die Entwicklung des Computerprogramms AlphaGo, das menschliche Spieler beim Go-Spiel schlagen soll. Der Film folgt dem Sieg des Programms über einen menschlichen Weltmeister in einem Fünf-Spiele-Match. Einige Zuschauer glauben, dass der Sieg von AlphaGo das Ende der Menschheit, wie wir sie kennen, einläuten könnte, da Maschinen immer besser darin werden, kognitive Aufgaben auszuführen.

  • 00:00:00 In diesem Video geht es um AlphaGo, ein Computerprogramm, das einen menschlichen Weltmeister beim Go-Spiel besiegte. Das Video beschreibt die Bedeutung des Sieges von AlphaGo und zeigt Aufnahmen des Computerspiels gegen einen menschlichen Spieler. Das Unternehmen hinter AlphaGo, DeepMind, möchte den stärksten Go-Spieler der Welt, Demyster Harbis, einladen, seine Büros in London zu besuchen, um das Projekt in Aktion zu sehen. Wenn Sie an einer Teilnahme interessiert sind, wären sie sehr dankbar!

  • 00:05:00 AlphaGo, ein von DeepMind entwickeltes Computerprogramm, besiegt den professionellen Go-Spieler Lee Sedol in einem Match mit fünf Spielen. Der Dokumentarfilm verfolgt die Bemühungen des Teams, das Programm und das Spiel selbst zu entwickeln und zu trainieren.

  • 00:10:00 AlphaGo, ein von Google entwickeltes Computerprogramm, besiegt den Go-Europameister Lee Sedol in einem Match über fünf Spiele. Die Dokumentation folgt der Entwicklung von AlphaGo und den Vorbereitungen für das Spiel. Trotz anfänglicher Skepsis ist die Öffentlichkeit von der Leistung von AlphaGo weitgehend beeindruckt, einige läuten sie sogar als Zeichen des Endes der menschlichen Dominanz im Bereich der künstlichen Intelligenz ein.

  • 00:15:00 AlphaGo, ein Computerprogramm, das entwickelt wurde, um menschliche Champions beim Go-Spiel zu schlagen, wurde letzte Woche in einem Match öffentlich von einem menschlichen Spieler, Lee Sedol, besiegt. Das Video diskutiert die Bedeutung des Verlusts sowie die laufenden Bemühungen des AlphaGo-Teams, sein System zu verbessern.

  • 00:20:00 AlphaGo, ein Computerprogramm, das als „der beste Go-Spieler der Welt“ gilt, tritt in einem Fünf-Spiele-Match gegen einen professionellen menschlichen Spieler an. Fanway ist ein Berater des Teams und hilft, seine Strategie zu verbessern.

  • 00:25:00 AlphaGo wird morgen in einem historischen Match gegen den professionellen südkoreanischen Go-Spieler Lee Sedol antreten. Der Dokumentarfilm begleitet das Team bei der Vorbereitung auf das Spiel und spricht über seine Erwartungen.

  • 00:30:00 AlphaGo, ein Computerprogramm, das einen menschlichen Champion in einem Brettspiel besiegte, ist Gegenstand eines preisgekrönten Dokumentarfilms. Der Dokumentarfilm verfolgt die Entwicklung des Programms und seinen erfolgreichen Kampf gegen einen menschlichen Gegner.

  • 00:35:00 AlphaGo, ein von Google entwickeltes Computerprogramm, besiegt einen menschlichen Weltmeister in einem Match mit fünf Spielen. Der Erfolg des Programms ist für viele eine Überraschung, ebenso wie seine Fähigkeit, aus seinen Erfahrungen zu lernen.

  • 00:40:00 AlphaGo, ein von DeepMind entwickeltes Computerprogramm, schlug einen professionellen Go-Spieler in einem Fünf-Spiele-Match. Das Computerprogramm wurde von Menschen entwickelt und gilt als Durchbruch in der künstlichen Intelligenzforschung.

  • 00:45:00 AlphaGo, ein Computerprogramm, das entwickelt wurde, um einen menschlichen professionellen Spieler in einem Go-Spiel zu besiegen, verblüffte Beobachter mit seiner Leistung im zweiten Spiel der Google DeepMind Challenge. Das Richtliniennetzwerk, das Wertnetz und die Baumsuche der KI waren alle sehr effektiv bei der Vorhersage des besten Zugs für die jeweilige Spielsituation, was zu einem Sieg für AlphaGo führte.

  • 00:50:00 AlphaGo, ein von Google entwickeltes Computerprogramm, hat ein Meisterschaftsspiel gegen einen weltberühmten menschlichen Spieler gewonnen. Der Dokumentarfilm untersucht das Match und die Bedeutung des Sieges von AlphaGo.

  • 00:55:00 AlphaGo gewann zwei von drei Spielen gegen einen menschlichen Weltmeister, aber die Traurigkeit und das Gefühl des Verlustes unter den Zuschauern sind greifbar. AlphaGo ist nur ein Computerprogramm, aber Kommentatoren bezeichnen es als ein bewusstes Wesen und machen sich Sorgen über die Auswirkungen seiner zunehmenden Macht.
AlphaGo - The Movie | Full award-winning documentary
AlphaGo - The Movie | Full award-winning documentary
  • 2020.03.13
  • www.youtube.com
With more board configurations than there are atoms in the universe, the ancient Chinese game of Go has long been considered a grand challenge for artificial...
 

Deepmind AlphaZero - Spiele ohne menschliches Wissen meistern



Deepmind AlphaZero - Spiele ohne menschliches Wissen meistern

Das Video untersucht die Entwicklung von DeepMinds Deep-Reinforcement-Learning-Architektur AlphaZero, die ein einheitliches Richtlinien- und Wertenetzwerk nutzt, um in Spielen mit enormen Zustandsräumen ohne vorherige menschliche Daten erfolgreich zu sein. Der Algorithmus von AlphaZero beinhaltet das Training eines neuronalen Netzwerks, um die Aktion vorherzusagen, die von einer vollständigen Monte-Carlo-Baumsuche ausgewählt wird, wobei iterativ Wissen destilliert wird, um im Laufe der Zeit stärkere Spieler zu generieren. Der Algorithmus zeigte beeindruckende Lernkurven, übertraf frühere Versionen in nur wenigen Trainingsstunden und zeigte eine bemerkenswerte Skalierbarkeit, obwohl er weniger Positionen auswertete als frühere Suchmaschinen. Das Video diskutiert auch die Fähigkeit von AlphaZero, das Beste aus menschlichen und maschinellen Ansätzen zu kombinieren und gleichzeitig das Potenzial für allgemeines bestärkendes Lernen aufzuzeigen.

  • 00:00:00 In diesem Abschnitt des Videos spricht David über AlphaGo, die Originalversion von DeepMinds Deep-Reinforcement-Learning-Architektur, die einen menschlichen Profispieler und Weltmeister besiegen konnte. AlphaGo verwendet zwei Convolutional Neural Networks: ein Policy Network, das Spielzüge basierend auf einer Wahrscheinlichkeitsverteilung empfiehlt, und ein Value Network, das den Gewinner des Spiels vorhersagt. Die Netzwerke werden durch überwachtes Lernen und Verstärkungslernen an einem menschlichen Datensatz und Spielen gegen sich selbst trainiert. Der Erfolg von AlphaGo im Go-Spiel zeigt das Potenzial für maschinelles Lernen und auf künstlicher Intelligenz basierende Ansätze, um in Spielen mit enormen Zustandsräumen erfolgreich zu sein.

  • 00:05:00 In diesem Abschnitt erörtert der Redner die Schulungspipeline von AlphaGo und wie es das Richtliniennetzwerk und das Wertenetzwerk nutzt, um die Suche angesichts der Weite des Suchbeckens im Go-Spiel handhabbarer zu machen. Das Richtliniennetzwerk schlägt Schritte vor, um die Breite des Suchbaums zu verringern, während das Wertenetzwerk den Gewinner des Spiels von jeder Position aus vorhersagt, um die Suchtiefe zu verringern. Dies ermöglicht es dem Algorithmus, wichtige Teile des Baums mithilfe der Monte-Carlo-Baumsuche effizient zu durchsuchen, wodurch ein großer Suchbaum effektiv erweitert wird, indem nur die relevantesten Teile berücksichtigt werden. Dies führte zur Entwicklung von AlphaGo Master, das mit tieferen Netzwerken und mehr Iterationen des bestärkenden Lernens trainiert wurde und 60 Spiele zu null gegen die besten menschlichen Spieler der Welt gewann.

  • 00:10:00 In diesem Abschnitt beschreibt der Referent die Entwicklung von AlphaGo Zero, das lernt, wie man das Go-Spiel ohne vorherige menschliche Daten spielt, anstatt von völlig zufälligen Spielen auszugehen und nur die Spielregeln zu verwenden. AlphaGo Zero unterscheidet sich vom ursprünglichen AlphaGo dadurch, dass es keine handgefertigten Funktionen verwendet, das Richtlinien- und Wertenetzwerk vereinheitlicht, eine einfachere Suche ohne randomisierte Monte-Carlo-Rollouts verwendet und einen einfacheren Ansatz zur Reduzierung der Komplexität hat, was zu einer größeren Allgemeingültigkeit führt, die potenziell anwendbar ist in jede Domäne. Der Algorithmus für AlphaGo Zero beinhaltet die Durchführung einer Monte-Carlo-Baumsuche unter Verwendung des aktuellen neuronalen Netzwerks für jede Position und das Spielen des vorgeschlagenen Zuges, dann das Trainieren eines neuen neuronalen Netzwerks aus diesen Positionen, die im abgeschlossenen Spiel erreicht wurden.

  • 00:15:00 In diesem Abschnitt erläutert der Referent den Prozess des AlphaGo Zero-Algorithmus, bei dem ein neuronales Netzwerk trainiert wird, um direkt die Aktion vorherzusagen, die von einer vollständigen Monte-Carlo-Baumsuche (MCTS) ausgewählt wurde, um das gesamte Wissen zu destillieren in sein direktes Verhalten und trainiert ein neues Wertenetzwerk, um den Gewinner des Spiels vorherzusagen. Das Verfahren wird wiederholt, um jedes Mal einen stärkeren Spieler zu generieren und qualitativ hochwertigere Daten zu generieren, was zu einem immer stärkeren Spiel führt. AlphaGo Zero verwendet eine suchbasierte Richtlinienverbesserung, indem es seine Suche in die Richtlinienbewertung einbezieht, was qualitativ hochwertige Ergebnisse und präzise Trainingssignale für neuronale Netze ermöglicht. Die Lernkurve zeigt, dass AlphaGo Zero frühere Versionen in nur 72 Stunden übertroffen und menschliche Spieler nach 21 Tagen um 60 besiegt hat.

  • 00:20:00 In diesem Abschnitt geht der Referent auf die verschiedenen Versionen von AlphaGo ein, die entwickelt wurden, angefangen von der Originalversion, die den Europameister um fünf Spiele zu Null besiegte, bis hin zum AlphaGo Zero, das komplett aus Zufallsgewichten trainiert wurde und wurde rund 5.000 Elo und ist damit die stärkste Version von AlphaGo. Die neue Version, AlphaZero, wendet denselben Algorithmus auf drei verschiedene Spiele an: Schach, Shogi und Go. Insbesondere das Schachspiel ist ein hochgradig untersuchter Bereich in der KI, wobei Computerschach der am besten untersuchte Bereich in der Geschichte der künstlichen Intelligenz ist und in hochspezialisierten Systemen gipfelt, die derzeit unbestreitbar besser sind als Menschen.

  • 00:25:00 In diesem Abschnitt erörtert der Sprecher die Komplexität des Shogi-Spiels, das schwieriger zu berechnen ist und einen größeren und interessanteren Aktionsraum als Schach hat. Er erklärt, dass die stärksten Computerprogramme für Shogi erst kürzlich das Niveau eines menschlichen Weltmeisters erreicht haben, was es zu einer interessanten Fallstudie für DeepMind macht. Die hochmodernen Engines für Schach und Shogi basieren auf einer Alpha-Beta-Suche, die durch eine handgefertigte Bewertungsfunktion erweitert wurde, die von menschlichen Großmeistern über viele Jahre hinweg optimiert wurde, sowie einer Vielzahl hochoptimierter Sucherweiterungen. Der Redner vergleicht dann die Komponenten des Top-Schachprogramms Stockfish mit AlphaZero, das buchstäblich keine der gleichen Komponenten hat, und ersetzt sie durch prinzipielle Ideen, die auf Selbstspiel, Verstärkungslernen und Monte-Carlo-Suche basieren. Der Sprecher merkt an, dass Schach anders als Go ist, da es eine perfekte Translationsinvarianz hat, keine Symmetrie hat, einen interessanteren Aktionsraum mit zusammengesetzten Aktionen hat und Remis enthält.

  • 00:30:00 In diesem Abschnitt erörtert der Sprecher die Lernkurven für die drei Spiele: Schach, Shogi und Go. AlphaZero hat den Weltmeister Stockfish im Schachspiel innerhalb von nur vier Stunden Training von Grund auf übertroffen, wobei für alle Spiele die gleiche Netzwerkarchitektur und die gleichen Einstellungen verwendet wurden. AlphaZero besiegte frühere Versionen von AlphaGo Zero und den aktuellen Weltmeister Shogi mit Leichtigkeit nach nur wenigen hunderttausend Schritten oder 8 Stunden Training. Die Skalierbarkeit der Monte-Carlo-Baumsuche von AlphaZero wurde mit den in früheren Programmen verwendeten Alpha-Beta-Suchmaschinen verglichen, darunter Stockfish, das etwa 70 Millionen Positionen pro Sekunde auswertet, während AlphaZero nur etwa 80.000 Positionen pro Sekunde auswertet. Der Sprecher stellt die Theorie auf, dass der Grund, warum MCTS trotz der Bewertung von um Größenordnungen weniger Positionen so effektiv ist, in Kombination mit Approximatoren für tiefe Funktionen wie neuronale Netze darin besteht, dass es hilft, bei der Suche vorhandene Approximationsfehler auszugleichen, was zu einer besseren Leistung führt und Skalierbarkeit. Schließlich entdeckte AlphaZero auch das menschliche Schachwissen für sich, indem es die 12 häufigsten menschlichen Eröffnungen im Schachspiel heraussuchte.

  • 00:35:00 In diesem Abschnitt diskutiert der Sprecher die Verwendung bestimmter Schacheröffnungen durch AlphaZero und wie es sie während des Selbstspiels spielte. AlphaZero verbrachte viel Zeit damit, diese Variationen zu spielen, begann aber schließlich, andere Eröffnungen zu bevorzugen und verwarf einige, die häufiger gespielt wurden. Der Referent erwähnt auch die Fortschritte bei der Verwendung der Methoden von AlphaZero für universelles Deep Reinforcement Learning, die auf andere Bereiche übertragen werden können. Je spezialisierter ein Algorithmus ist, desto weniger kann er sich an andere Domänen anpassen. Während der gemeinsame Einsatz von Mensch und Maschine eine interessante Perspektive ist, betont der Sprecher, dass AlphaZero menschlicher spielt als frühere Schachprogramme, was auf seine Fähigkeit hinweist, das Beste aus beiden Welten zu kombinieren.

  • 00:40:00 In diesem Abschnitt erklärt der Sprecher, dass, obwohl sie nur die Spielregeln als menschliches Wissen in AlphaGo Zero eingebettet haben, dies die grundlegende Kodierung und Dekodierung von Aktionen beinhaltet. Beim Schach verwendeten sie beispielsweise die räumliche Darstellung, um die aufgenommene Figur und die Ebene, mit der sie abgelegt wurde, zu codieren. Sie schließen illegale Züge aus dem Aktionsfeld aus. Der Referent erklärt weiter, dass sie keine Fehlerbalken in ihre Experimente eingebaut haben, weil sie nur einen Lauf pro Spiel durchgeführt haben. Sie haben jedoch mehrere Experimente durchgeführt und die Ergebnisse sind sehr gut reproduzierbar.
Deepmind AlphaZero - Mastering Games Without Human Knowledge
Deepmind AlphaZero - Mastering Games Without Human Knowledge
  • 2018.01.29
  • www.youtube.com
2017 NIPS Keynote by DeepMind's David Silver. Dr. David Silver leads the reinforcement learning research group at DeepMind and is lead researcher on AlphaGo....
 

AlphaGo – Wie KI das härteste Brettspiel der Geschichte gemeistert hat



AlphaGo – Wie KI das härteste Brettspiel der Geschichte gemeistert hat

Das Video untersucht die technischen Details von AlphaGo Zero, einem KI-System, das vollständig durch Selbstspiel und ohne Verwendung menschlicher Datensätze trainiert wurde. Das System verwendete eine Residual-Netzwerkarchitektur und einen Zwei-Research-Ansatz, um Wert und starke Bewegungen vorherzusagen. Das Video hebt die vorgenommenen Verbesserungen hervor, darunter die Fähigkeit, Spielergebnisse vorherzusagen, und die Entdeckung und Bewegung des Systems weg von bekannten Zügen in Go. Die reale Anwendung des Systems ist jedoch durch die Notwendigkeit eines perfekten Simulators begrenzt, was es schwierig macht, den Ansatz auf andere Bereiche anzuwenden.

  • 00:00:00 In diesem Abschnitt werden die technischen Details der Verbesserungen von AlphaGo Zero gegenüber früheren Versionen besprochen. Die erste große Änderung war, dass AlphaGo Zero vollständig aus dem Selbstspiel heraus trainiert und keine Datensätze von menschlichen professionellen Go-Spielern verwendet. Es verwendet auch keine der zuvor handgefertigten Funktionen für das Spiel und lernt stattdessen vollständig, indem es den Zustand des Bretts beobachtet. Die Netzwerkarchitektur wurde in eine vollständig restliche Architektur geändert, und anstatt ein separates Richtlinien- und Bewertungsnetzwerk zu haben, werden sie nun zu einem einzigen großen Netzwerk kombiniert, das beides tut. Die Monte-Carlo-Rollouts wurden durch einen einfacheren Zwei-Research-Ansatz ersetzt, der das einzelne Netzwerk verwendet, um Wertvorhersagen zu machen und starke Züge zu finden. Insgesamt führte dies zu einer Board-Repräsentation von 19 mal 19 mal 16 Binärzahlen, einem Residuennetzwerk und einer Werterepräsentation und einem Richtlinienvektor, die aus dem Merkmalsvektor generiert werden.

  • 00:05:00 In diesem Abschnitt erklärt das Video, wie AlphaGo trainiert wurde, gute Züge zu spielen, indem eine Netzwerkarchitektur verwendet wurde, die zu einer hohen Wahrscheinlichkeit für gute Züge und einer geringen Wahrscheinlichkeit für schlechte führt. Die erste Version von AlphaGo wurde mit überwachtem Lernen an einem Datensatz professioneller Go-Bewegungen trainiert, gefolgt von einer Feinabstimmungsphase mit Selbstspiel. Die neue Version, AlphaGo Zero, verwendet jedoch keinen Datensatz und lernt vollständig durch das Selbstspiel mithilfe einer Monte-Carlo-Baumsuche, die den Eigengewichtstrainingsprozess stabilisiert. Durch Auflösen des Suchbaums und Verwenden der Monte-Carlo-Baumsuche kann das System abschätzen, welche Bewegungen stark sind und welche nicht. Schließlich hebt das Video hervor, dass der Prozess spezifisch für Spiele wie Go ist, wo Sie einen perfekten Simulator haben, was die realen Anwendungen dieses Ansatzes zu einer Herausforderung macht.

  • 00:10:00 In diesem Abschnitt erörtert der Sprecher verschiedene Diagramme, die die Verbesserungen darstellen, die in der Netzwerkarchitektur von AlphaGo vorgenommen wurden. Eine Grafik zeigt die Fähigkeit des AlphaGo Zero-Netzwerks, das Ergebnis eines Spiels basierend auf der aktuellen Brettposition vorherzusagen, mit einer erheblichen Verbesserung gegenüber früheren Versionen. Der Referent merkt auch an, dass der Übergang von einer normalen Faltungsarchitektur zu einem Restnetzwerk zu einer wesentlichen Verbesserung geführt habe. Darüber hinaus zeigt eine Grafik, wie AlphaGo Zero bekannte Züge im Go-Spiel entdeckte und dann weitermachte. Insgesamt ist der Referent von den Ergebnissen des Google DeepMind-Teams beeindruckt und ermutigt die Zuschauer, im Kommentarbereich Fragen zu stellen.
AlphaGo - How AI mastered the hardest boardgame in history
AlphaGo - How AI mastered the hardest boardgame in history
  • 2017.11.13
  • www.youtube.com
In this episode I dive into the technical details of the AlphaGo Zero paper by Google DeepMind.This AI system uses Reinforcement Learning to beat the world's...
 

AlphaZero from Scratch – Lernprogramm für maschinelles Lernen



AlphaZero from Scratch – Lernprogramm für maschinelles Lernen

00:00:00 - 01:00:00 Das Video „AlphaZero from Scratch – Machine Learning Tutorial“ zeigt Benutzern, wie sie den AlphaZero-Algorithmus mit Python und PyTorch erstellen und trainieren, um komplexe Brettspiele auf übermenschlichem Niveau zu spielen, mit Beispielen für Tic -tac-toe und Connect 4. Eine der Schlüsselkomponenten des Algorithmus ist die Monte-Carlo-Baumsuche, bei der die vielversprechendste Aktion ausgewählt, der Baum erweitert und das Spiel simuliert wird, wobei die Ergebnisse für das Training zurückpropagiert werden. Das Tutorial demonstriert die Erweiterung von Knoten während des Monte-Carlo-Forschungsalgorithmus, den Prozess des Selbstspiels und das Trainieren des Modells mit Verlustfunktionen, die den Unterschied zwischen der Police und der MCTS-Verteilung sowie dem Wert und der endgültigen Belohnung minimieren. Das Video endet damit, dass ein Tic-Tac-Toe-Spiel erstellt und in einer While-Schleife getestet wird.

01:00:00 - 02:00:00 In diesem Abschnitt des Tutorials zum Erstellen von AlphaZero von Grund auf demonstriert der Kursleiter die Implementierung des Monte Carlo Tree Search (MCTS)-Algorithmus für das Spiel Tic-tac-toe. Der Algorithmus wird durch eine neue Klasse für MCTS implementiert, die ein Suchverfahren enthält, das eine Schleife wiederholter Iterationen für Auswahl-, Erweiterungs-, Simulations- und Backpropagation-Phasen definiert. Das Video behandelt auch die Implementierung der Architektur des neuronalen AlphaZero-Netzwerks, das zwei Köpfe umfasst, einen für die Richtlinie und einen für den Wert, und ein Restnetzwerk mit Skip-Verbindungen verwendet. Der Policy Head verwendet eine Softmax-Funktion, um die vielversprechendste Aktion anzuzeigen, während der Value Head eine Einschätzung gibt, wie gut der aktuelle Zustand ist. Der Referent erörtert auch die Implementierung des Startblocks und des Backbones für die ResNet-Klasse und erklärt, wie das AlphaZero-Modell verwendet wird, um eine Richtlinie und einen Wert für einen bestimmten Zustand in Tic-Tac-Toe zu erhalten.

02:00:00 - 03:00:00 Das Tutorial „AlphaZero from Scratch“ demonstriert den Aufbau des AlphaZero-Algorithmus durch maschinelles Lernen. Der Präsentator deckt ein breites Themenspektrum ab, von der Aktualisierung des MCTS-Algorithmus, Selbstspiel- und Trainingsmethoden bis hin zu Verbesserungen wie dem Hinzufügen von Temperatur zur Wahrscheinlichkeitsverteilung, dem Gewichtsabfall und der GPU-Unterstützung im Modell sowie dem Hinzufügen von Rauschen zum Wurzelknoten. Das Tutorial führt den Betrachter Schritt für Schritt durch die Implementierung dieser Funktionen, indem es zeigt, wie der Knotenzustand codiert wird, Richtlinien- und Wertausgaben abgerufen werden und die Richtlinie mithilfe von Softmax, gültigen Bewegungen und Dirichlet-Zufallsrauschen optimiert wird, um die Erkundung hinzuzufügen und gleichzeitig sicherzustellen Erfolgversprechende Aktionen werden nicht ausgelassen.

03:00:00 - 04:05:00 In diesem YouTube-Tutorial zum Erstellen von AlphaZero von Grund auf mithilfe von maschinellem Lernen behandelt der Kursleiter verschiedene Themen, z komplexere Spiele, Aktualisierung des Quellcodes, um ein Connect Four-Spiel zu erstellen, Steigerung der Effizienz der AlphaZero-Implementierung durch Parallelisierung, Erstellung von zwei neuen Klassen in Python für Self-Play-Spiele, Kodierung von Zuständen zur Steigerung der Effizienz, Implementierung des Monte-Carlo-Baumsuchalgorithmus für AlphaZero und Trainieren eines Modells für Connect Four mit parallelisiertem fs0. Das Tutorial bietet schrittweise Anleitungen zu jedem Thema mit Schwerpunkt auf der Erstellung einer effizienten und effektiven AlphaZero-Implementierung. Der Moderator demonstriert, wie man eine Connect Four-Umgebung mit dem Kegel-Umgebungspaket erstellt, und führt dann das Spiel aus und visualisiert es mit zwei Agenten, die den MCTS-Suchalgorithmus basierend auf einem trainierten AlphaZero-Modell verwenden. Der Präsentator nimmt auch geringfügige Korrekturen im Code vor und definiert Spieler eins als den Agenten, der den MCTS-Algorithmus für Vorhersagen auf der Grundlage des trainierten Modells verwendet. Das Tutorial endet damit, dass der Präsentator ein GitHub-Repository mit Jupyter-Notebooks für jeden Checkpoint und einen Gewichtsordner mit dem letzten Modell für Tic-Tac-Toe und Connect Four bereitstellt und sein Interesse an der Erstellung eines Folgevideos zu Mu Zero bekundet, falls vorhanden Interesse daran.


Teil 1

  • 00:00:00 In diesem Abschnitt stellt das Tutorial das Konzept von AlphaZero vor, einem KI-Algorithmus, der maschinelle Lerntechniken verwendet, um zu lernen, komplexe Brettspiele auf übermenschlichem Niveau zu spielen. Der Algorithmus wurde ursprünglich von DeepMind entwickelt und kann in Spielen wie Go beeindruckende Ergebnisse erzielen und sogar neuartige Algorithmen in der Mathematik erfinden. Das Tutorial wird den Benutzern beibringen, wie sie AlphaZero mit Python und PyTorch von Grund auf neu erstellen und es mit Spielen wie Tic-Tac-Toe und Connect 4 trainieren und bewerten. Der Algorithmus hat zwei Komponenten, Selbstspiel und Training, und verwendet ein neuronales Netzwerk dazu Erstellen einer Richtlinie und eines Werts basierend auf dem Eingabestatus. Durch die Wiederholung dieses Zyklus kann sich der Algorithmus selbst optimieren, um das Spiel besser als Menschen zu spielen.

  • 00:05:00 In diesem Abschnitt erklärt das Video die Monte-Carlo-Baumsuche, einen Suchalgorithmus für das Selbstspiel und den allgemeinen Algorithmus. Es nimmt einen Zustand ein, in diesem Fall eine Blockposition, und findet die vielversprechendste Aktion, indem es einen Baum in die Zukunft baut. Jeder Knoten speichert einen Zustand und eine Gesamtzahl von Gewinnen, die erzielt werden, wenn in diese Richtung in die Zukunft gespielt wird, sowie die Gesamtzahl der Besuche. Das Gewinnverhältnis der Kinder jedes Knotens wird verwendet, um die vielversprechendste Aktion zu bestimmen, und diese Informationen können in einem tatsächlichen Spiel wie Tic-Tac-Toe verwendet werden. Die Daten für die Knoten werden generiert, indem man in der Auswahlphase den Baum hinuntergeht, bis man einen Blattknoten erreicht, der weiter expandiert werden kann.

  • 00:10:00 In diesem Abschnitt erörtert der Sprecher die verschiedenen Phasen, die an der Monte-Carlo-Baumsuche (MCTS) zum Spielen beteiligt sind. Die Auswahlphase beinhaltet die Auswahl eines untergeordneten Knotens, der eine höhere UCB-Formel hat und relativ wenige Male besucht wurde. In der Erweiterungsphase wird ein neuer Knoten erstellt und dem Baum hinzugefügt, während in der Simulationsphase das Spiel zufällig gespielt wird, bis ein Endknoten erreicht ist. In der Backpropagation-Phase werden die aus der Simulationsphase erhaltenen Ergebnisse den Baum hinauf propagiert, wobei die Gewinn- und Besuchszählung für jeden Knoten aktualisiert wird.

  • 00:15:00 In diesem Abschnitt des Videos geht der Kursleiter ein Beispiel des Monte Carlo Tree Search (MCTS)-Prozesses durch, beginnend mit der Auswahlphase, in der der Algorithmus den Baum hinuntergeht, um den nächsten Knoten auszuwählen. Sie fahren dann mit der Erweiterungsphase fort, in der ein neuer Knoten erstellt wird, gefolgt von der Simulationsphase, in der zufällige Aktionen ausgeführt werden, um einen Endknoten zu erreichen. Der Algorithmus prüft dann, ob das Spiel gewonnen, verloren oder gegen eine Regel verstoßen wurde. Da das Spiel gewonnen wurde, wird eine Rückwärtsausbreitung ausgeführt, wobei die Gewinn- und Besuchszählung für die während des MCTS-Prozesses durchlaufenen Knoten aktualisiert wird. Der Prozess wird mit einer neuen Auswahlphase und Erweiterungsphase wiederholt, wobei ein neuer Knoten erstellt und die Simulationsphase erneut durchgeführt wird.

  • 00:20:00 In diesem Abschnitt geht das Tutorial durch den Prozess der Simulation und Backpropagation im MCTS-Algorithmus mit AlphaZero. Das in diesem Tutorial vorgestellte Beispiel zeigt einen Verlust während der Simulationsphase. Bei der Rückübertragung wird nur die Anzahl der Besuche erhöht, und die Gesamtzahl der Siege bleibt gleich, da die KI das Spiel während der Simulation verloren hat. Das Tutorial fährt dann fort, um die Auswahl- und Erweiterungsprozesse von MCTS mit AlphaZero zu erklären. Das Tutorial zeigt, wie die UCB-Punktzahl für jedes Kind berechnet wird und wie das Kind mit der höchsten Punktzahl ausgewählt wird. Der Prozess wiederholt sich dann, wobei die KI die UCB-Formel für jeden Knoten berechnet, bis sie einen Blattknoten erreicht, an dem die Expansion stattfindet.

  • 00:25:00 In diesem Abschnitt des Tutorials liegt der Schwerpunkt darauf, wie sich die Monte-Carlo-Forschungstechnik ändert, wenn sie an den General AlphaZero-Algorithmus angepasst wird. Es gibt zwei kritische Änderungen, die am Algorithmus vorgenommen werden. Zunächst wird die aus dem Modell erhaltene Richtlinie in die Auswahlphase aufgenommen, indem die UCB-Formel mit den Richtlinieninformationen aktualisiert wird. Zweitens wird die Simulationsphase eliminiert und der vom neuronalen Netzwerk erhaltene Wert wird für die Rückwärtsausbreitung zusammen mit der Richtlinie für die Auswahlphase verwendet. Mit diesen Änderungen kann sich die Monte-Carlo-Forschungstechnik erheblich verbessern, wenn es ein Modell gibt, das versteht, wie man das Spiel spielt.

  • 00:30:00 In diesem Abschnitt des Videos „AlphaZero from Scratch – Machine Learning Tutorial“ nimmt der Moderator eine kleine Änderung vor, um die möglichen Richtungen des Öls während der Expansionsphase zu erweitern, sodass alle möglichen Knoten erstellt werden können und nicht nur ein neuer Knoten. Anschließend gehen sie auf einem Whiteboard durch die Iterationen, um zu zeigen, wie die vielfarbige Forschung angepasst wird. Während der Erweiterungsphase werden neue Knoten erstellt, indem das neuronale Netzwerk aufgerufen wird, um Richtlinie und Wert zu erhalten, und die Anzahl der Gewinne, die Anzahl der Besuche und Richtlinieninformationen zu den Knoten hinzugefügt werden. Dann wird im Backpropagation-Schritt der Wert zurückpropagiert. Der Moderator erwähnt die UCB-Formel und stellt fest, dass die Gewinnwahrscheinlichkeit für Knoten mit einer Besuchszahl von Null nicht berechnet werden kann, was angegangen werden muss, um einen Fehler bei der Division durch Null zu vermeiden.

  • 00:35:00 In diesem Abschnitt des Tutorials erklärt der Referent den Prozess der Erweiterung von Knoten während des Monte-Carlo-Forschungsalgorithmus. Der Algorithmus wird verwendet, um den besten Zug für einen gegebenen Zustand in einem Spiel zu bestimmen. Der Sprecher geht durch ein Beispiel, wie Knoten erweitert werden und wie die Richtlinie und der Wert für jeden untergeordneten Knoten berechnet werden. Der Vorgang des Backpropagierens des Werts des neuen untergeordneten Knotens zum Wurzelknoten wird ebenfalls erläutert. Das Tutorial fährt dann mit der Erläuterung des Prozesses des Selbstspiels fort, bei dem ein Spiel von einem Algorithmus gegen sich selbst gespielt wird, beginnend mit einem leeren Zustand, und unter Verwendung von Monte-Carlo-Forschung, um den besten Zug basierend auf der Verteilung der Besuchszahlen der Kinder von zu bestimmen der Wurzelknoten.

  • 00:40:00 In diesem Abschnitt sehen wir, wie das Modell mit Monte Carlo Tree Search (MCTS) trainiert wird. Ziel ist es, alle während des Spiels gewonnenen Informationen zu speichern, einschließlich der MCTS-Verteilung und der Belohnung für jeden Zustand. Die Belohnung hängt vom Endergebnis des Spiels für den Spieler in diesem Zustand ab. Sobald wir die Daten gesammelt haben, verwenden wir sie, um das Modell mit einer Verlustfunktion zu trainieren, die die Differenz zwischen der Police und der MCTS-Verteilung und dem Wert V und der endgültigen Belohnung Z minimiert. Wir tun dies, indem wir Backpropagation verwenden, um die Gewichte der zu aktualisieren Modell Theta. Insgesamt hilft dieser Prozess dem Modell, besser zu verstehen, wie das Spiel zu spielen ist, und wird optimiert.

  • 00:45:00 In diesem Abschnitt beginnt das Video-Tutorial zum Erstellen von AlphaZero mithilfe von maschinellem Lernen von Grund auf mit dem Erstellen eines Jupyter-Notebooks und dem Erstellen eines einfachen Tic-Tac-Toe-Spiels mit einer Zeilen- und Spaltenanzahl sowie einer Aktionsgröße . Das Tutorial schreibt dann Methoden zum Abrufen des Anfangszustands, des nächsten Zustands, nachdem eine Aktion ausgeführt wurde, und legaler Schritte. Die Aktionseingabe wird in ein Zeilen- und Spaltenformat codiert, das in einem NumPy-Array verwendet werden soll. Der Code ist so geschrieben, dass er flexibel ist, um verschiedene Umgebungen oder Brettspiele zu lösen, und es ist geplant, ihn auf Connect Four zu erweitern.

  • 00:50:00 In diesem Abschnitt schreibt der YouTuber eine Methode, die überprüft, ob ein Spieler nach seinem Zug gewonnen hat oder nicht. Sie beginnen damit, die Reihe und Spalte des Zuges zu erhalten und dann den Spieler zu bestimmen, der diesen Zug gemacht hat. Dann suchen sie mit den Methoden np.sum und np.diac nach allen Möglichkeiten, um das Tic-Tac-Toe-Spiel zu gewinnen, bei dem es sich um drei in einer Reihe, drei in einer Spalte und zwei Diagonalen handelt. Außerdem prüfen sie auf ein Unentschieden, indem sie die Summe der gültigen Züge berechnen und prüfen, ob sie Null ist. Zuletzt erstellen sie eine neue Methode namens get value und beenden sie, die den Wert und true zurückgibt, wenn das Spiel beendet ist.

  • 00:55:00 In diesem Abschnitt schreibt der Autor ein Tic-Tac-Toe-Spiel und eine Gegnermethode zum Spielerwechsel. Sie testen das Spiel, indem sie es ausführen und eine While-Schleife verwenden. In der Schleife werden der Zustand und gültige Züge ausgegeben und der Benutzer wird aufgefordert, seinen Zug einzugeben. Das Spiel prüft, ob die Aktion gültig ist und ob das Spiel beendet wurde. Wenn das Spiel fortgesetzt wird, wird der Spieler umgedreht. Wenn der Wert gleich eins ist, gewinnt der Spieler, und wenn es ein Unentschieden gegeben hat, wird es gedruckt.

Teil 2

  • 01:00:00 In diesem Abschnitt des Tutorials zum Erstellen von AlphaZero von Grund auf mithilfe von maschinellem Lernen beginnt der Kursleiter damit, Tic-Tac-Toe als das Spiel auszuwählen, das zu Demonstrationszwecken verwendet werden soll. Eine neue Klasse für mehrfarbige Forschung (MCTS) wird erstellt, die mit dem Spiel und den Hyperparametern als Argumente initialisiert wird. Innerhalb dieser Klasse wird eine Suchmethode mit einer Schleife für wiederholte Iterationen von Auswahl-, Erweiterungs-, Simulations- und Backpropagation-Phasen definiert, die schließlich die Verteilung der Besuchszahlen der Kinder des Wurzelknotens zurückgibt. Dann wird eine Klasse für einen Knoten mit Attributen wie Spielstatus, Elternteil, durchgeführte Aktion, Kinder und Besuchsanzahl definiert. Der Stammknoten wird auch mit dem Spiel, den Hyperparametern, dem Anfangszustand und „Keine“ für die Platzhalter „übergeordnet“ und „Aktion durchgeführt“ definiert.

  • 01:05:00 In diesem Abschnitt führt das Video durch den Prozess der Auswahl von Knoten im Baum während des Spiels im AlphaZero-Algorithmus. Das Verfahren zum Bestimmen, ob ein Knoten vollständig expandiert ist, wird unter Verwendung von Informationen über die Anzahl der expandierbaren Bewegungen und darüber, ob der Knoten nicht abgeschlossen ist, definiert. Während der Auswahlphase wählt der Algorithmus nach unten, während der Knoten vollständig expandiert ist. Für die Auswahl durchläuft der Algorithmus alle untergeordneten Elemente des Knotens, berechnet die UCB-Bewertung für jedes untergeordnete Element und wählt dann das untergeordnete Element mit der höchsten UCB-Bewertung aus. Der UCB-Score wird anhand des Q-Werts, einer Konstante C für Exploration oder Exploitation und einer logarithmischen Funktion berechnet. Der Q-Wert ist definiert als die Besuchssumme des Kindes dividiert durch seine Besuchszahl, wobei Anpassungen vorgenommen werden, um sicherzustellen, dass der Q-Wert zwischen 0 und 1 liegt.

  • 01:10:00 In diesem Abschnitt behandelt das Video-Tutorial den Auswahlprozess von AlphaZero. Der Code wählt ein Kind aus, das einen sehr negativen oder niedrigen Wert hat, da dies den Gegner in eine schlechte Situation bringen wird. Der Q-Wert des Kindes wird dann invertiert, um dem Elternteil einen Q-Wert von fast 1 zu geben. Auf diese Weise wird der Baum so bearbeitet, dass das Kind in einer schlechten Position ist. Das Video geht auf die Schritte ein, um diese Änderungen im Code zu implementieren, und erklärt, wie wichtig es ist, zu prüfen, ob der schließlich ausgewählte Knoten ein Terminalknoten ist oder nicht. Außerdem wird eine neue Methode hinzugefügt, um die Perspektive des Spiels im Attribut get value zu berücksichtigen.

  • 01:15:00 In diesem Abschnitt des Tutorials zum Erstellen von AlphaZero mithilfe von maschinellem Lernen von Grund auf neu, erklärt der Kursleiter, wie überprüft wird, ob ein Knoten terminal ist, Backpropagation und Erweiterung und Simulation durchführen. Durch Abtasten einer erweiterbaren Bewegung aus den definierten heraus wird ein neuer Zustand für ein untergeordnetes Element erstellt und ein neuer Knoten wird an die Liste der untergeordneten Elemente angehängt, um später innerhalb der Auswahlmethode darauf Bezug zu nehmen. Der Kursleiter erörtert auch die Idee, den Status umzukehren, um Spieler zu wechseln, anstatt Spieler explizit zu definieren, wodurch die Logik für Ein-Spieler-Spiele einfacher wird und sichergestellt wird, dass der Code gültig ist.

  • 01:20:00 In diesem Abschnitt erstellt der Sprecher einen untergeordneten Knoten für das Tic-Tac-Toe-Spiel und erklärt die Methode zum Perspektivwechsel. Sie setzen den Spieler als -1 für den Gegner und verwenden Multiplikation, um die Perspektive umzukehren. Nachdem sie den untergeordneten Knoten erstellt haben, hängen sie ihn an die untergeordnete Liste an und geben ihn zurück. Dann geht der Sprecher zur Erörterung des Simulationsprozesses über, bei dem Rollouts verwendet werden, um zufällige Aktionen auszuführen, bis ein Endknoten erreicht und der Wert erhalten wird. Sie verwenden den erhaltenen Wert, um die Knoten, an denen der Spieler des Knotens gewonnen hat, rückzupropagieren, um vielversprechender zu sein.

  • 01:25:00 In diesem Abschnitt des Videos baut der Moderator weiter den Monte Carlo Tree Search (MCTS)-Algorithmus für das Spielprogramm AlphaZero auf. Sie zeigen, wie man den aktuellen Rohzustand verwendet, um eine Aktion auszuwählen, den nächsten Zustand zu erhalten und zu prüfen, ob dieser Zustand endgültig ist. Der Präsentator schreibt eine if-Anweisung, um zu unterscheiden, ob Spieler eins oder zwei Spieler einen positiven Wert erhalten, wenn das Spiel von ihnen gewonnen wird, und fährt dann damit fort, die Backpropagation-Methode zu schreiben, um den Wert und die Besuchsanzahl für jeden Knoten zu aktualisieren. Schließlich erstellt der Präsentator eine Variable, die die Wahrscheinlichkeit der vielversprechendsten Aktionen berechnet, action_props.

  • 01:30:00 In diesem Abschnitt zeigt das Video-Tutorial, wie ein eigenständiger Monte Carlo Tree Search (MCTS)-Algorithmus für das Spiel Tic-tac-toe implementiert wird. Das Tutorial zeigt, wie Sie alle untergeordneten Elemente durchlaufen und Aktionsrequisiten für jedes untergeordnete Element schreiben. Die Besuchszählung jedes Kindes wird verwendet, um sie in Wahrscheinlichkeiten umzuwandeln. Die Summe der Wahrscheinlichkeiten wird dann durch 1 geteilt, um sie in Wahrscheinlichkeiten umzuwandeln. Das MCTS-Objekt wird dann erstellt und die Quadratwurzel von 2 wird für den C-Wert in der UCB-Formel verwendet. Das Skript wird gegen das Spiel getestet, und der Algorithmus wird mit dem neutralen Zustand getestet. Der MCTS-Baum wird dann zusammen mit der besten Kindfunktion verwendet, um das Kind zurückzugeben, das am häufigsten besucht wurde.

  • 01:35:00 In diesem Abschnitt wird die Architektur des neuronalen Netzwerks für den AlphaZero-Algorithmus diskutiert. Der als Eingabe an das neuronale Netzwerk gegebene Zustand ist eine Brettposition, die in drei verschiedene Ebenen für Spieler-Positiv-Eins, Spieler-Negativ-Eins und leere Felder codiert ist. Diese Kodierung ermöglicht es, Muster zu erkennen und zu verstehen, wie man das Spiel spielt. Die verwendete neuronale Netzwerkarchitektur ist ein Restnetzwerk mit Sprungverbindungen, um den anfänglichen X-Wert zu speichern und die Ausgabe als die Summe der Ausgabe von den Faltungsblöcken und dem anfänglichen X-Wert zu liefern. Das Modell ist in zwei Teile aufgeteilt, den Richtlinienkopf und den Wertkopf, und für den Fall von Tic-Tac-Toe gibt es neun Neuronen im Richtlinienkopf, eines für jede potenzielle Aktion.

  • 01:40:00 In diesem Abschnitt erklärt der Referent die Architektur des neuronalen Netzwerks AlphaZero von Grund auf. Das Netzwerk hat zwei „Köpfe“, einen für Richtlinien und einen für Werte. Der Richtlinienkopf hat neun Neuronen, und die Ausgabe wird mit einer Soft-Max-Funktion angewendet, um sie in eine Wahrscheinlichkeitsverteilung umzuwandeln, die angibt, wie vielversprechend eine bestimmte Aktion ist. Der Wertekopf hat nur ein Neuron und verwendet die 10-Stunden-Aktivierungsfunktion, um alle potenziellen Werte in den Bereich von negativ eins bis positiv zu quetschen, was eine Einschätzung darüber gibt, wie gut der aktuelle Zustand ist. Der Code wird in einem Jupyter-Notebook unter Verwendung des Deep-Learning-Frameworks PyTorch erstellt. Das Modell umfasst einen Startblock und ein Rückgrat aus Faltungsrestblöcken, und jeder Block enthält eine Faltungsschicht, gefolgt von zwei Schichten der Stapelnormalisierung und einer ReLU-Aktivierungsfunktion.

  • 01:45:00 In diesem Abschnitt erörtert der Referent die Erstellung des Startblocks für das AlphaZero-Modell, was die Erstellung eines conf 2D-Blocks, eines Stapelnormblocks und eines Werteblocks umfasst. Sie richten auch ein Rückgrat für das Modell ein, indem sie eine Reihe von Ruheblöcken verwenden, und erstellen eine Klasse für Ruheblöcke. Die restlichen Blöcke bestehen aus einem conf-Block, einem Batch-Norm-Block und einem weiteren conf-Block, die verwendet werden, um die Eingabe mithilfe übersprungener Verbindungen zu aktualisieren. Die Forward-Methode ist so definiert, dass sie die Eingabe durch die conf-Blöcke leitet und die resultierende Ausgabe zum Rest hinzufügt.

  • 01:50:00 In diesem Abschnitt geht der Sprecher den Code zum Erstellen eines Restnetzwerks (ResNet) für den AlphaZero-Algorithmus von Grund auf durch. Sie zeigen, wie das Rückgrat des ResNet erstellt wird, indem die verbleibenden Blöcke für die angegebene Anzahl von verborgenen Schichten überschleift werden. Anschließend erstellen sie den Richtlinienkopf und den Wertekopf, indem sie nn.sequential verwenden und die Ebenen in der Sequenz definieren. Abschließend zeigt der Sprecher, wie die Vorwärtsmethode für die ResNet-Klasse definiert wird, indem die Eingabe durch den Startblock geleitet wird, die Restblöcke durchlaufen werden und am Ende die Summe zurückgegeben wird.

  • 01:55:00 In diesem Abschnitt erläutert der Referent, wie das AlphaZero-Modell verwendet wird, um eine Richtlinie und einen Wert für einen bestimmten Zustand in Tic-Tac-Toe zu erhalten. Er schreibt Code, um die Richtlinie und den Wert abzurufen, indem er einen Tensorzustand durch das Modell leitet, dann die Richtlinie vereinfacht und das Wertelement abruft. Er erklärt auch, wie wichtig es ist, den Zustand im richtigen Format zu codieren und dem Tensor eine Batch-Dimension hinzuzufügen.

Teil 3

  • 02:00:00 In diesem Abschnitt zeigt der Referent, wie man einen Policy-Tensor mit der Punktelementmethode in einen Float umwandelt und dann die Softmax-Funktion anwendet, um Aktionen mit der höchsten Wahrscheinlichkeit auszuwählen. Der Sprecher visualisiert dann die Richtlinienverteilung mit Matplotlib, um zu zeigen, wo gespielt werden soll. Als Nächstes legt der Sprecher einen Startwert für Torch fest, um die Reproduzierbarkeit sicherzustellen, und aktualisiert den MCTS-Algorithmus, indem er eine ResNet-Modelleingabe zur Vorhersage eines Werts und einer Richtlinie basierend auf dem Zustand des Blattknotens bereitstellt. Der Simulationsteil wird entfernt und der aus dem Modell erhaltene Wert wird für die Backpropagation verwendet.

  • 02:05:00 In diesem Abschnitt des Videos demonstriert der Moderator, wie der Knotenzustand eines Tic-Tac-Toe-Spiels kodiert und mithilfe von „torch.tensor“ in einen Tensor umgewandelt wird, um ihn als Eingabe für das Modell bereitzustellen. Die Richtlinie, die aus Logits besteht, muss mithilfe von torque.softmax in eine Wahrscheinlichkeitsverteilung umgewandelt werden. Der Referent erklärt auch, wie illegale Bewegungen mithilfe der Richtlinie und gültiger Bewegungen maskiert werden und wie die Richtlinien neu skaliert werden, sodass sie Prozentsätze darstellen. Der Wert wird aus dem Wertkopf extrahiert, indem value.item() aufgerufen wird. Darüber hinaus zeigt der Moderator, wie die Richtlinie zum Erweitern und der Wert für die Backpropagation verwendet wird, falls der Knoten ein Blattknoten ist.

  • 02:10:00 In diesem Abschnitt des Video-Tutorials zum Erstellen von AlphaZero von Grund auf mithilfe von maschinellem Lernen erklärt der Referent, wie die Expand- und UCB-Formelmethoden aktualisiert werden. Die Erweiterungsmethode wird aktualisiert, um sofort in alle möglichen Richtungen zu erweitern und die Wahrscheinlichkeit innerhalb des Knotenobjekts zur späteren Verwendung in der UCB-Formel während der Auswahl zu speichern. Die neue UCB-Formel verwendet eine andere Formel als die mehrfarbige Standardforschung, und der Sprecher demonstriert, wie das math.log entfernt und eine Eins zur Besuchszählung des Kindes hinzugefügt wird. Diese Aktualisierungen ermöglichen die Anwendung der UCB-Methode bei einem Kind, das zuvor noch nicht besucht wurde.

  • 02:15:00 In diesem Abschnitt aktualisiert der Ausbilder das MCTS mit einer kindgerechten Richtlinie zur Auswahl von Zügen und testet sie, indem er ein Spiel durchführt. Anschließend bauen sie den AlphaZero-Hauptalgorithmus auf, indem sie eine AlphaZero-Klasse definieren, die ein Modell, einen Optimierer, ein Spiel und andere Argumente enthält. Sie definieren auch die Selbstspiel- und Trainingsmethoden und erstellen eine Schleife, die mehrere Spielzyklen durchläuft, Daten sammelt, das Modell trainiert und es erneut testet. Der Ausbilder erstellt auch eine Speicherklasse zum Speichern von Trainingsdaten und Schleifen über jedes Selbstspiel im Trainingszyklus.

  • 02:20:00 In diesem Abschnitt des Video-Tutorials geht der Moderator den Code für das Selbstspiel und die Trainingsschleife für AlphaZero durch. Sie behandeln, wie die neuen Daten, die aus der Selbstspielmethode erhalten wurden, in die Speicherliste erweitert werden und wie der Modus des Modells in den Bewertungsmodus geändert wird, um Batch-Knöpfe während des Spiels zu vermeiden. In der Trainingsschleife wird auch detailliert beschrieben, wie die Zugmethode aufgerufen und die Gewichte des Modells gespeichert werden. Abschließend wird die Selbstspielmethode erläutert, einschließlich der Definition eines neuen Speichers, der Erstellung eines Anfangszustands und der Schleife durch das Gameplay, während auch auf Endzustände geprüft und Daten im Tuple-Format an den Speicher zurückgegeben werden.

  • 02:25:00 In diesem Abschnitt führt das Video-Tutorial durch, wie der neutrale Zustand, Action-Requisiten und Spielerinformationen im Speicher gespeichert werden, um sie später zum Sammeln von Trainingsdaten zu verwenden. Das Tutorial zeigt, wie man eine Aktion aus den Aktionsrequisiten mit der random.choice-Funktion von NumPy abtastet und dann basierend auf dieser Aktion spielt. Das Video geht auch darauf ein, wie man prüft, ob der Zustand beendet ist oder nicht, und wenn ja, wie man das Endergebnis für jede Instanz zurückgibt, in der ein Spieler gespielt hat. Schließlich zeigt das Tutorial, wie der neutrale Zustand, die Aktionsstützen und das Ergebnis an die Speichervariable angehängt werden und wie diese Daten später für das Training abgerufen werden.

  • 02:30:00 In diesem Abschnitt des „AlphaZero from Scratch“-Tutorials wird der Code aktualisiert, um ihn allgemeiner zu machen, indem negative Werte in Werte geändert werden, die vom Gegner für verschiedene Spiele wahrgenommen werden. Die Visualisierung von Schleifen wird durch die Verwendung des tqdm-Pakets und der Fortschrittspfade verbessert. Die Implementierung von AlphaZero wird getestet, indem eine Instanz der Klasse mit einem Resnet-Modell, einem Adam-Optimierer und spezifischen Argumenten erstellt wird. Als Beispiel wird das Tic-Tac-Toe-Spiel mit 4 Ruheblöcken und einer versteckten Dimension von 64 verwendet. Die Erkundungskonstante, Anzahl der Suchen, Iterationen, Selbstspielspiele und Epochen werden festgelegt und das Modell wird für die zukünftige Verwendung gespeichert .

  • 02:35:00 In diesem Abschnitt des Tutorials wird die Trainingsmethode innerhalb der AlphaZero-Implementierung implementiert, indem die Trainingsdaten gemischt und der gesamte Speicher in Stapeln durchlaufen wird, um einen Stapel verschiedener Proben für das Training abzutasten. Die Zustände, MCTS-Requisiten und endgültigen Belohnungen werden aus dem Beispiel abgerufen, indem die Zip-Methode aufgerufen wird, um die Liste der Tupel in Listen von MP-Arrays zu transponieren. Diese werden dann in NP-Arrays geändert, und die Werteziele werden neu geformt, sodass sich jeder Wert in einem eigenen Unterarray befindet, um ihn besser mit der Ausgabe des Modells vergleichen zu können.

  • 02:40:00 In diesem Abschnitt des Tutorials erläutert der Videoersteller, wie der Zustand, die Richtlinienziele und die Wertziele mithilfe von Torch.float32 in Tensoren umgewandelt werden, um die Ausgangsrichtlinie und den Ausgangswert aus dem Modell abzurufen ermöglicht es, den Zustand vorherzusagen. Anschließend definieren sie den Policenschaden und den Wertverlust, aus denen sie die Summe beider Schäden berechnen, um den Gesamtschaden durch Back Propagation zu minimieren. Anschließend demonstrieren sie den Trainingsprozess mit einer Standard-Batchgröße von 64, mit Fortschrittsbalken, die die Iterationen des Trainingsprozesses anzeigen. Nachdem sie das Modell für 3 Iterationen trainiert haben, laden sie das statische Modell, um zu testen, was das neuronale Netzwerk über das Spiel gelernt hat.

  • 02:45:00 In diesem Abschnitt des Video-Tutorials demonstriert der Moderator, wie man das neuronale Netzwerkmodell verwendet, um ein Spiel zu spielen und seine Fähigkeit zu testen, vorherzusagen, welche Züge zu machen sind. Durch Ausführen einer Simulation in der MCTS-Suche ist das Modell in der Lage, eine Verteilung der Spielorte und eine Wertvorhersage für den gegebenen Zustand bereitzustellen. Der Präsentator fügt dem Algorithmus auch GPU-Unterstützung hinzu, um ihn beim Training und Testen schneller zu machen. Der Moderator zeigt, wie das Gerät deklariert und als Argument an das Modell übergeben wird, um eine Nvidia-GPU zu verwenden, falls verfügbar. Zusätzlich wird das Modell während des Selbstspiels und des Trainings zur Optimierung der Geschwindigkeit zum Gerät bewegt.

  • 02:50:00 In diesem Abschnitt bespricht der Redner mehrere Optimierungen, die AlphaZero hinzugefügt werden können, um seine Leistung zu verbessern. Erstens fügen sie dem Modell Gewichtsverlust und GPU-Unterstützung hinzu. Als nächstes führen sie das Konzept der Temperatur ein, das eine flexiblere Verteilung von Wahrscheinlichkeiten beim Abtasten von Aktionen ermöglicht. Eine höhere Temperatur führt zu mehr Erkundung, während eine niedrigere Temperatur zu mehr Ausbeutung führt. Schließlich schlägt der Sprecher vor, der ursprünglichen Richtlinie, die dem Wurzelknoten während der Monte-Carlo-Forschung gegeben wird, Rauschen hinzuzufügen. Diese Optimierungen können die Ergebnisse des AlphaZero-Algorithmus erheblich verbessern.

  • 02:55:00 In diesem Abschnitt des Tutorials zum Erstellen von AlphaZero von Grund auf durch maschinelles Lernen liegt der Schwerpunkt darauf, dem Stammknoten Rauschen hinzuzufügen, um Zufälligkeiten zu integrieren und mehr zu erkunden, während gleichzeitig sichergestellt wird, dass keine vielversprechende Aktion verpasst wird. Dies wird erreicht, indem zunächst eine Richtlinie und ein Wert abgerufen werden, indem save.model aufgerufen und Torch.tensor und das Gerät des Modells für den Zustand verwendet werden. Die Richtlinie wird dann mit Softmax optimiert und mit gültigen Zügen multipliziert, um illegale Züge zu maskieren. Dirichlet-Zufallsrauschen wird der Richtlinie hinzugefügt, indem die alte Richtlinie mit einem Koeffizienten kleiner als eins multipliziert wird und dieser Koeffizient mit einem anderen Koeffizienten multipliziert mit dem Zufallsrauschen addiert wird. Auf diese Weise wird die Richtlinie geändert, um mehr Erkundung zu ermöglichen, insbesondere zu Beginn, wenn das Modell nicht viel über das Spiel weiß.

Teil 4

  • 03:00:00 In diesem Abschnitt konzentriert sich das Video-Tutorial darauf, der Richtlinie Exploration hinzuzufügen, indem ein Rauschfaktor verwendet wird. Durch Ändern der Richtlinie kann der Bot Aktionen priorisieren, die nicht oft ausgewählt wurden, indem er die Erkundung verstärkt. Das Video zeigt, wie die Gleichung für die Richtlinie angepasst und der Alpha-Wert als Eingabe für die NP-Punkt-Zufallspunkt-Dirichlet-Funktion verwendet wird, die die Art und Weise ändert, wie die Zufallsverteilung basierend auf der Anzahl verschiedener Aktionen im Spiel aussieht, so dass der Alpha möglicherweise je nach Umgebung ändern. Die Stammknoten-Erweiterungsrichtlinie wird ebenfalls umrissen, um sicherzustellen, dass der Knoten bei der Erweiterung rückpropagiert wird (Besuchszahl auf eins gesetzt), sodass der Prior der Auswahl des untergeordneten Knotens zu Beginn der Monte-Carlo-Forschung zugestimmt hat.

  • 03:05:00 In diesem Abschnitt des Tutorials fügt der Kursleiter CPU- und GPU-Unterstützung hinzu, um Modelle für komplexere Spiele wie Connect Four zu trainieren. Sie definieren ein Gerät mit Torch.device() und prüfen, ob Torch.cuda.is_available() ist, um zu entscheiden, ob ein CPU- oder ein CUDA-Gerät verwendet werden soll. Sie fügen das Gerät auch dem Tensor-Zustandsstapel und dem Laden der statischen Datei hinzu. Der Instruktor trainiert und testet das Modell auf Tic-Tac-Toe und zeigt, dass das Modell gelernt hat, illegale Bewegungen zu erkennen. Anschließend definieren sie das Spiel „Vier gewinnt“ mit Reihenanzahl, Spaltenanzahl und Aktionsgröße.

  • 03:10:00 In diesem Abschnitt führt das Video-Tutorial durch die Aktualisierung des Quellcodes, um ein Connect Four-Spiel zu erstellen. Das Spiel wird mit einem leeren Array und einer gespeicherten Punkt-in-einer-Reihen-Variablen von vier für die Anzahl der zum Gewinnen erforderlichen Steine initialisiert. Die Methode zum Abrufen des nächsten Zustands wird aktualisiert, um eine Zeile abzurufen, indem eine gegebene Spalte betrachtet wird und dann das tiefste leere Feld in dieser Spalte gefunden wird, um einen Stein zu platzieren. Die Methode zum Abrufen gültiger Züge wird aktualisiert, um die oberste Reihe auf verfügbare Züge zu prüfen. Die Methode „Überprüfen auf Gewinn“ wird aus dem Tic Tac Toe-Spiel mit Optimierungen kopiert, um beide Diagonalen zu überprüfen, und die Methode „Nächsten Zustand abrufen“ wird aktualisiert, um die Aktionsvariable anstelle der Variablen der Spalte zu verwenden. Der aktualisierte Code wird getestet, um sicherzustellen, dass er funktioniert.

  • 03:15:00 In diesem Abschnitt ersetzt der Sprecher Tic-tac-toe durch das Spiel Connect Four und setzt die Anzahl der Suchen zur Validierung auf 20. Die Größe des Modells wird auch auf 9 für die Anzahl der Ruheblöcke und 128 für die versteckten Dims geändert, damit das Modell besser lernen kann. Die Effizienz des Trainings wird dann erhöht, sodass es weniger Zeit für komplexe Umgebungen benötigt. Das Modell wird dann für eine Iteration trainiert, was mehrere Stunden dauert. Mit dem Bewertungsset wird dann getestet, ob das Modell etwas gelernt hat oder nicht.

  • 03:20:00 In diesem Abschnitt des Tutorials liegt der Fokus auf der Steigerung der Effizienz der AlphaZero-Implementierung durch Parallelisierung. Der Plan ist, so viel wie möglich von der Implementierung zu parallelisieren, indem die Staaten zusammengefasst werden, um parallele Vorhersagen für die Richtlinie und den Wert zu erhalten. Auf diese Weise wird die Anzahl der Aufrufe des Modells drastisch reduziert, wodurch die GPU-Kapazitäten voll ausgenutzt und die Geschwindigkeit erhöht werden. Das Tutorial erklärt, wie Sie die parallelisierte Version mit Python implementieren, ohne Pakete wie Ray zu verwenden, und eine neue Klasse namens „AlphaZeroParallel“ und „MCTSParallel“ wird erstellt, indem die ursprünglichen Klassen kopiert werden.

  • 03:25:00 In diesem Abschnitt diskutiert der Sprecher die Erstellung von zwei neuen Klassen in Python: „SPG“, um Informationen über selbstspielende Spiele zu speichern, und „ParallelMCD“, das die Methoden „save_play“ und „search“ implementiert die neue `SPG`-Klasse. Die „SPG“-Klasse speichert den Anfangszustand des Spiels, eine leere Speicherliste und „root“- und „note“-Variablen, die auf „None“ gesetzt sind. Die Klasse „ParallelMCD“ aktualisiert auch die Methode „set_play“, um eine Liste von „SPG“-Instanzen zu erstellen, wobei das „Spiel“ und die Anzahl paralleler Spiele als Eingaben verwendet werden. Die „while“-Schleife führt dann die „set_play“-Methode aus, bis alle selbstspielenden Spiele beendet sind, was eine effiziente Parallelisierung ermöglicht.

  • 03:30:00 In diesem Abschnitt erklärt der Sprecher, wie man eine Liste aller Bundesstaaten erhält und sie in ein Zahlenfeld umwandelt, um die Effizienz zu steigern. Sie zeigen auch, wie man die Perspektive für alle Zustände ändert, indem man einen Funktionsaufruf verwendet, um die Werte mit negativ eins zu multiplizieren, wenn der Spieler auf negativ eins gesetzt ist. Als Nächstes demonstriert der Referent, wie die neutralen Zustände an die Monte-Carlo-Recherche übergeben, die Suchmethode der Monte-Carlo-Recherche aktualisiert und Richtlinien für das Video unter Verwendung aller Stapelzustände abgerufen werden. Schließlich erklären sie, wie man die Reihenfolge des codierten Zustands vertauscht, um mit mehreren Zuständen und nicht nur einem zu arbeiten, wenn man die get encoded state-Methode aufruft, und wie man diesen Prozess auf das Tic-Tac-Toe-Spiel überträgt.

  • 03:35:00 Diese Schleife in ein numpy-Array und stattdessen die Vektorisierung von numpy verwenden. Dann können wir das Modell auf alle Zustände im numpy-Array anwenden, ohne jeden einzelnen durchlaufen zu müssen, was viel Zeit spart. Wir können die Ausgabe dann wieder in ihre ursprüngliche Form umformen und mit dem Rest der MCTS-Suche wie gewohnt fortfahren. Schließlich aktualisieren wir die Statistiken für jedes Selbstspielspiel und geben den Stammknoten für die gewählte Aktion zurück. Damit ist die Implementierung der MCTS-Suche mit Richtlinien- und Wertenetzwerk unter Verwendung des AlphaZero-Algorithmus abgeschlossen.

  • 03:40:00 In diesem Abschnitt des Videos nimmt der Kursleiter einige Änderungen am Code vor, um alle erweiterbaren Knoten anstelle von SPG-Klassen zu speichern. Dann verlagert sich der Fokus darauf, herauszufinden, welche Safe-Play-Spiele erweiterbar sind oder nicht, indem eine Liste erstellt wird, um sie zu speichern, und der Mapping-Index für jedes Safe-Play-Spiel abgerufen wird. Der Ausbilder prüft, ob erweiterbare Spiele vorhanden sind, und wenn ja, werden die Zustände gestapelt und codiert, damit die Richtlinie und der Wert später abgerufen werden können.

  • 03:45:00 In diesem Abschnitt des Tutorials erläutert der Kursleiter die Codeimplementierung für den Monte-Carlo-Baumsuchalgorithmus für AlphaZero. Sie zeigen, wie die erweiterbaren Zustände verwendet werden und müssen nicht entkomprimiert, gequetscht oder Rauschen hinzugefügt werden, sowie einen Index erstellen, um die Richtlinie zu erhalten, und Indizes zum Zuordnen von Richtlinien im Index für selbstspielende Spiele abbilden. Die Knoten werden unter Verwendung der SPG-Richtlinie erweitert, unter Verwendung des SPG-Punktwerts zurückpropagiert, und dann werden Aktionsstützen erhalten, anstatt die OSF-Planet-Methode zu verwenden. Der Kursleiter kopiert den Parallelisierungscode und nimmt Änderungen vor, um mit den Aktionsstützen anstelle der OSF-Planet-Methode als Teil der Implementierung des Monte-Carlo-Baumsuchalgorithmus für AlphaZero zu arbeiten.

  • 03:50:00 In diesem Abschnitt konzentriert sich das Video-Tutorial auf die Aktualisierung des Codes für die parallele Implementierung der MCTS-Suche. Der Ausbilder betont, wie wichtig es ist, selbstspielende Spiele aus der Liste zu entfernen, wenn es sich um Terminalspiele handelt, und den Status durch Aufrufen von „spg.state“ anstelle von „SPG-Klasse“ zu aktualisieren. Der Code wird auch geändert, um den Speicher an den allgemeinen regionalen Speicher anzuhängen und den Spieler umzudrehen, nachdem die Schleife über alle Selbstspielspiele abgeschlossen ist. Das Ziel ist es, eine reibungslose Schleife zu erstellen, die effizient funktioniert und den Kreis zum richtigen Zeitpunkt aus der Liste der Self-Play-Spiele entfernt.

  • 03:55:00 In diesem Abschnitt erörtert der Sprecher das Trainieren eines Modells für Connect Four unter Verwendung der parallelisierten fs0-Implementierung. Das Modell wird für acht Iterationen trainiert und wertet die Ergebnisse mit einem Connect-Four-Board aus. Der Referent stellt fest, dass die Anzahl der Suchen im Vergleich zu anderen in der Praxis verwendeten Suchalgorithmen recht gering ist, die Ergebnisse jedoch zufriedenstellend sind. Sie spielen gegen das Modell und machen einige Bewegungen, und das Modell reagiert entsprechend. Insgesamt dauerte das Training einige Stunden, aber das endgültige Modell hat ein gutes Verständnis dafür, wie man das Spiel spielt.
  • 04:00:00 In diesem Abschnitt des Tutorials demonstriert der Moderator, wie man eine Connect Four-Umgebung mit dem Kegel-Umgebungspaket erstellt und das Spiel mit zwei Agenten spielt. Die Agenten verwenden den MCTS-Suchalgorithmus, um Vorhersagen auf der Grundlage eines trainierten AlphaZero-Modells zu treffen. Der Präsentator nimmt auch einige kleinere Korrekturen am Code vor, wie z. B. das Einfügen der Requisiten für die Temperaturaktion in fs03 und die Verwendung des save.optimizer anstelle des gewöhnlichen Optimierers. Außerdem setzt der Präsentator die Temperatur auf null, um immer den Arc Max der Richtlinie zu erhalten, und setzt das Reflexions-Epsilon auf eins, um dem Spiel etwas Zufälligkeit hinzuzufügen. Schließlich definiert der Präsentator Spieler eins als einen berechneten Agenten, der den MCTS-Algorithmus verwendet, um Vorhersagen basierend auf dem trainierten Modell zu treffen.

  • 04:05:00 In diesem Abschnitt von „AlphaZero from Scratch – Machine Learning Tutorial“ modelliert der Sprecher das Spiel und die Argumente, indem er Codes für Spieler 1 und Spieler 2 schreibt, was mehr Flexibilität bietet, um verschiedene Spieler auszuprobieren. Sie führen dann die Zelle aus und erhalten Visualisierungen der gegeneinander spielenden Modelle, was zu einem Unentschieden führte, da das Modell alle Angriffe abwehren kann. Sie demonstrierten auch, wie man den Code für Tic-Tac-Toe modifiziert, indem man das Spiel und die Argumente ändert und den Pfad aktualisiert, was dazu führt, dass die Modelle wieder unentschieden gegeneinander antreten. Das Tutorial wurde abgeschlossen, und der Referent stellte ein GitHub-Repository mit Jupyter-Notebooks für jeden Checkpoint und einen Gewichtsordner mit dem letzten Modell für Tic-Tac-Toe und Connect Four zur Verfügung. Der Sprecher bekundete auch sein Interesse daran, ein Folgevideo zu Mu Zero zu machen, falls Interesse daran besteht.
AlphaZero from Scratch – Machine Learning Tutorial
AlphaZero from Scratch – Machine Learning Tutorial
  • 2023.02.28
  • www.youtube.com
In this machine learning course, you will learn how to build AlphaZero from scratch. AlphaZero is a game-playing algorithm that uses artificial intelligence ...
 

Google Panik wegen ChatGPT [Die KI-Kriege haben begonnen]



Google Panik wegen ChatGPT [Die KI-Kriege haben begonnen]

Das Video erläutert, wie Google sich auf das Potenzial von Chatbots vorbereitet, die leistungsfähiger werden, und wie sich dies auf ihr Geschäftsmodell auswirken könnte. Berichten zufolge arbeitet Microsoft an einem Chatbot, der es Benutzern ermöglichen würde, auf menschlichere Weise mit Bing zu kommunizieren, und diese Funktion wird für Suchen von Vorteil sein, bei denen derzeit keine Bilder vorhanden sind. Microsoft hat gesagt, dass sie eng mit offener KI zusammenarbeiten, damit diese Funktion keine expliziten oder unangemessenen visuellen Elemente erzeugt. Es sieht also so aus, als würde Bing mit integrierten Chat-GPT- und Dali-2-Funktionen grundlegend überarbeitet.

  • 00:00:00 Google mietete 1998 ein Haus neben einem anderen Haus. Die Tischtennisplatte war im anderen Haus.

  • 00:05:00 Das Video diskutiert, wie besorgt Google über das Potenzial von Chatbots ist, leistungsfähiger zu werden, und wie dies ihrem Geschäftsmodell schaden könnte. Berichten zufolge hat Google an einem Plan gearbeitet, um dies zu bekämpfen, und ihre Mitbegründer Larry Page und Sergey Brin wurden zu einem Treffen eingeladen, um das Problem zu diskutieren.

  • 00:10:00 In diesem Video wird Google als Konkurrenz zu Microsoft gesehen, da letzteres zusätzliche 10 Milliarden Dollar in offene KI investiert. Dies ist jedoch möglicherweise nicht im besten Interesse der offenen KI-Bewegung, da dies zum Tod der KI führen kann, bevor sie wirklich eine Chance zum Starten erhält. Google soll auch an 20 KI-Projekten arbeiten, von denen einige dem Chat-GPT ähneln, was dazu geführt hat, dass Microsoft 300 Millionen in das Unternehmen investiert hat. Es ist unklar, wie sich das auswirken wird, aber es scheint, dass Google gezwungen sein wird, die Sicherheitsprobleme in den Hintergrund zu rücken und seine KI-Produkte zu entfesseln.

  • 00:15:00 Das Video spricht über die Gerüchte, dass Microsoft an einem Chatbot arbeitet, der es Benutzern ermöglichen würde, auf menschlichere Weise mit Bing zu kommunizieren. Es wird auch erwähnt, dass diese Funktion für Suchen von Vorteil ist, bei denen derzeit keine Bilder vorhanden sind. Schließlich spricht das Video darüber, wie diese Integration es Benutzern ermöglicht, Text einzugeben und Bilder zu generieren, was besonders für Suchen von Vorteil ist, bei denen derzeit keine Bilder vorhanden sind. Microsoft hat gesagt, dass sie eng mit offener KI zusammenarbeiten, damit diese Funktion keine expliziten oder unangemessenen visuellen Elemente erzeugt. Es sieht also so aus, als würde Bing mit integrierten Chat-GPT- und Dali-2-Funktionen grundlegend überarbeitet. Es wird mit Sicherheit die Aufmerksamkeit aller auf sich ziehen, wenn es auf den Markt kommt.
Google Panics Over ChatGPT [The AI Wars Have Begun]
Google Panics Over ChatGPT [The AI Wars Have Begun]
  • 2023.02.06
  • www.youtube.com
Google's newly announced BARD AI system is mentioned at 12:25In this episode we see why Google has called a code red because of ChatGPT but why? Why is ChatG...
 

KONFERENZ JENSEN HUANG (NVIDIA) und ILYA SUTSKEVER (OPEN AI).KI HEUTE UND VISION DER ZUKUNFT



KONFERENZ JENSEN HUANG (NVIDIA) und ILYA SUTSKEVER (OPEN AI).KI HEUTE UND VISION DER ZUKUNFT

Der CEO von NVIDIA, Jensen Huang, und der Mitbegründer von OpenAI, Ilya Sutskever, diskutieren auf einer Konferenz über die Ursprünge und Fortschritte der künstlichen Intelligenz (KI). Sutskever erklärt, wie ihm Deep Learning klar wurde, wie unüberwachtes Lernen durch Komprimierung zur Entdeckung eines Neurons führte, das dem Sentiment entsprach, und wie das Vortrainieren eines neuronalen Netzwerks zum Instruieren und Verfeinern mit der Zusammenarbeit von Mensch und KI führte. Sie diskutieren auch die Fortschritte und Grenzen von GPT-4 und multimodalem Lernen sowie die Rolle der Generierung synthetischer Daten und die Verbesserung der Zuverlässigkeit von KI-Systemen. Obwohl es sich um dasselbe Konzept wie vor 20 Jahren handelt, staunen beide über die Fortschritte in der KI-Forschung.

  • 00:00:00 In diesem Abschnitt lobt Jensen Huang, der CEO von NVIDIA, Ilia Sutskever, den Mitbegründer von OpenAI, für seine Leistungen im Bereich der künstlichen Intelligenz. Er fragt Ilia nach seiner Intuition in Bezug auf Deep Learning und woher er wusste, dass es funktionieren würde. Ilia erklärt, dass er sich aufgrund seiner Neugier auf das Bewusstsein und seine Auswirkungen für künstliche Intelligenz interessierte, und es schien, als würden Fortschritte in der KI dabei wirklich helfen. Er fügt hinzu, dass Computer 2002-2003 nichts lernen konnten und es nicht einmal klar war, ob es theoretisch möglich war, aber die Entdeckung von Jeff Hinton, der an neuronalen Netzwerken arbeitete, gab Ilia Hoffnung.

  • 00:05:00 In diesem Abschnitt erörtert Sutskever die Ursprünge des AlexNet und wie ihm die Idee klar wurde, mithilfe von überwachtem Lernen ein tiefes und großes neuronales Netzwerk aufzubauen. Er erklärt, dass sich das maschinelle Lernen zu dieser Zeit nicht mit neuronalen Netzen beschäftigte und andere Methoden verwendete, die theoretisch elegant waren, aber keine gute Lösung darstellen konnten. Sutskever erwähnt auch die bahnbrechende Optimierungsmethode eines anderen Doktoranden, die bewies, dass große neuronale Netze trainiert werden können. Damit war klar: Wenn ein großes Convolutional Neural Network auf dem ImageNet-Datensatz trainiert wird, muss es gelingen. Sutskever spricht auch über das Erscheinen der GPU im Labor und wie Alex Krizhevsky in der Lage war, schnelle Faltungskerne zu programmieren und den neuronalen Netzwerkdatensatz zu trainieren, was dazu führte, dass der Rekord einer Computervision so weit gebrochen wurde. Die Bedeutung dieses Durchbruchs bestand darin, dass der Datensatz so offensichtlich hart und außerhalb der Reichweite klassischer Techniken lag.

  • 00:10:00 In diesem Abschnitt sprechen Jensen Huang und Ilya Sutskever über die Anfänge von OpenAI und ihre anfänglichen Ideen, wie man sich Intelligenz nähern kann. In den Jahren 2015-2016 steckte das Feld noch in den Kinderschuhen, mit weit weniger Forschern und viel weniger Verständnis. Die erste große Idee von OpenAI war das Konzept des unüberwachten Lernens durch Komprimierung, das zu dieser Zeit ein ungelöstes Problem im maschinellen Lernen war. Sutskever glaubte, dass eine wirklich gute Komprimierung von Daten zu unüberwachtem Lernen führen und die Extraktion aller darin enthaltenen verborgenen Geheimnisse ermöglichen würde. Dies führte zu mehreren Arbeiten bei OpenAI, darunter das Sentiment-Neuron, das ein Neuron in einem LSTM entdeckte, das seiner Stimmung entsprach.

  • 00:15:00 In diesem Abschnitt erörtert Ilya Sutskever das Konzept des unbeaufsichtigten Lernens und die Bedeutung der Vorhersage des nächsten Tokens in einer Sequenz als lohnendes Ziel, um eine Repräsentation zu lernen. Er erwähnt, dass der schwierige Teil beim überwachten Lernen nicht darin besteht, woher man die Daten bekommt, sondern warum man sich die Mühe macht, neuronale Netze zu trainieren, um das nächste Token vorherzusagen. Skalierung zur Leistungssteigerung war ebenfalls ein wichtiger Faktor in ihrer Arbeit, und Reinforcement Learning war ein weiterer entscheidender Schwerpunkt, insbesondere beim Training eines Agenten für Reinforcement Learning, das Echtzeit-Strategiespiel DotA 2 zu spielen, um gegen die besten Spieler anzutreten in der Welt.

  • 00:20:00 In diesem Abschnitt erklärt Ilya Sutskever den Prozess des Vortrainierens eines großen neuronalen Netzwerks, um das nächste Wort in verschiedenen Texten aus dem Internet vorherzusagen, was zum Lernen einer komprimierten abstrakten verwendbaren Darstellung der Welt führt. Das Vortraining spezifiziert jedoch nicht das gewünschte Verhalten, das wir vom neuronalen Netzwerk erwarten, und hier kommt die zweite Phase der Feinabstimmung und des Verstärkungslernens aus der Zusammenarbeit von Mensch und KI ins Spiel. Die zweite Phase ist wichtig, weil sie dort ankommt Wir kommunizieren mit dem neuronalen Netzwerk und weisen es an, was zu tun und zu lassen ist.

  • 00:25:00 In diesem Abschnitt diskutieren die Redner die Fortschritte in der KI-Technologie wie GPT-4, die nur wenige Monate nach ihrer Einführung zur am schnellsten wachsenden Anwendung in der Geschichte der Menschheit geworden ist. GPT-4 ist eine Verbesserung gegenüber Chat GPT, mit besserer Genauigkeit bei der Vorhersage des nächsten Wortes im Text, was zu einem besseren Verständnis des Textes führt. Durch die ständige Erforschung und Innovation der Wiedergabetreue ist die KI zuverlässiger und präziser geworden, wenn es darum geht, beabsichtigte Anweisungen zu befolgen. Darüber hinaus kann die Konversation die Mehrdeutigkeit verfeinern, bis die KI die Absicht des Benutzers versteht. Darüber hinaus ist die verbesserte Leistung von GPT-4 in vielen Bereichen wie SAT-Ergebnissen, GRE-Ergebnissen und Anwaltsprüfungen unter anderem bemerkenswert und bemerkenswert.

  • 00:30:00 In diesem Abschnitt erörtern die Referenten die aktuellen Einschränkungen und das Verbesserungspotenzial der Argumentationsfähigkeiten neuronaler Netze, insbesondere GPT4. Während neuronale Netze einige Denkfähigkeiten demonstrieren, bleibt die Zuverlässigkeit ein Haupthindernis für ihre Nützlichkeit. Die Redner schlagen vor, dass die Aufforderung an das neuronale Netzwerk, laut zu denken, und die Einführung ehrgeiziger Forschungspläne die Zuverlässigkeit und Genauigkeit verbessern könnten. Derzeit verfügt GPT4 nicht über eine integrierte Abruffunktion, aber es zeichnet sich dadurch aus, dass es ein Next-Word-Prädiktor ist und Bilder verarbeiten kann.

  • 00:35:00 In diesem Abschnitt erörtern Jensen Huang und Ilya Sutskever multimodales Lernen und seine Bedeutung. Sie erklären, dass multimodales Lernen, bei dem sowohl aus Text als auch aus Bildern gelernt wird, für neuronale Netze nützlich ist, um die Welt besser zu verstehen, da Menschen visuelle Tiere sind. Multimodales Lernen ermöglicht es neuronalen Netzen auch, mehr über die Welt zu erfahren, indem zusätzliche Informationsquellen bereitgestellt werden. Sie argumentieren, dass es zwar wichtig ist zu sehen, um Dinge wie Farben zu verstehen, dass neuronale Netze, die nur aus Text bestehen, dennoch Informationen lernen können, die nur schwer aus Text allein zu lernen sind, da sie Billionen von Wörtern ausgesetzt sind.

  • 00:40:00 In diesem Abschnitt erörtern Sutskever und Huang die Bedeutung verschiedener Datenquellen beim KI-Lernen, einschließlich Bild und Ton. Sie berühren die Idee der Multimodalität und wie die Kombination verschiedener Datenquellen äußerst hilfreich sein kann, um etwas über die Welt zu lernen und visuell zu kommunizieren. Sutskever erwähnt auch ein Papier, das darauf hindeutet, dass der Welt irgendwann die Token zum Trainieren ausgehen werden, und wie KI, die ihre eigenen Daten generiert, eine mögliche Lösung für dieses Problem sein könnte.

  • 00:45:00 In diesem Abschnitt diskutieren die Referenten die Rolle der Generierung synthetischer Daten im KI-Training und im Selbststudium. Während die Verfügbarkeit vorhandener Daten nicht zu unterschätzen ist, ist die Möglichkeit, dass KI eigene Daten zum Lernen und Problemlösen generiert, eine zukünftige Möglichkeit. In naher Zukunft wird der Fokus darauf liegen, die Zuverlässigkeit von KI-Systemen zu verbessern, damit man ihnen bei wichtigen Entscheidungen vertrauen kann. Das Potenzial von KI-Modellen wie GPT-4, mathematische Probleme zuverlässig zu lösen und kreative Inhalte zu produzieren, ist aufregend, aber es gibt noch viel zu tun, um ihre Genauigkeit und Klarheit beim Verständnis und der Reaktion auf Benutzerabsichten zu verbessern.

  • 00:50:00 In diesem Abschnitt diskutieren Jensen Huang und Ilya Sutskever den überraschenden Erfolg neuronaler Netze in der heutigen KI. Obwohl es sich um das gleiche neuronale Netzwerkkonzept von vor 20 Jahren handelt, ist es ernster und intensiver geworden, da es auf unterschiedliche Weise mit demselben grundlegenden Trainingsalgorithmus an größeren Datensätzen trainiert wird. Sutskevers bahnbrechende Arbeiten zu Alexnet und GPT bei Open AI sind bemerkenswerte Errungenschaften, und Huang bewundert seine Fähigkeit, das Problem aufzuschlüsseln und den Stand der Technik großer Sprachmodelle zu beschreiben. Die beiden tauschen sich aus und staunen über die Fortschritte im Bereich KI.
CONFERENCE JENSEN HUANG (NVIDIA) and ILYA SUTSKEVER (OPEN AI).AI TODAY AND VISION OF THE FUTURE
CONFERENCE JENSEN HUANG (NVIDIA) and ILYA SUTSKEVER (OPEN AI).AI TODAY AND VISION OF THE FUTURE
  • 2023.03.23
  • www.youtube.com
#chatgpt,#ai#chatbot,#openai,#nvidia,#artificialintelligence,@ilyasutskever
 

Es ist an der Zeit, der KI Aufmerksamkeit zu schenken (ChatGPT und darüber hinaus)



Es ist an der Zeit, der KI Aufmerksamkeit zu schenken (ChatGPT und darüber hinaus)

Das Video diskutiert die Entwicklung der künstlichen Intelligenz (KI) und wie sie unsere Arbeits- und Lebensweise verändert. Einige Menschen sind begeistert vom Potenzial der KI, während andere sich Sorgen über die möglichen Auswirkungen machen. Der Referent gibt auch eine kurze Zusammenfassung einer aktuellen Podcast-Episode.

  • 00:00:00 ChatGPT ist ein 2022 veröffentlichtes KI-Programm, das in der Lage ist, Text zu generieren, der versucht vorherzusagen, was das nächste Wort in einem Satz sein wird, basierend auf dem, was es in seinem riesigen Internet-Datensatz gesehen hat. ChatGPT ist eine verbesserte Version von gpt3, die Open AI nennt GPT 3.5. Der Hauptunterschied zwischen GPT 3.5 und GPT besteht darin, dass sie während des Trainingsprozesses menschliches Feedback hinzugefügt haben, das als überwachtes Verstärkungslernen bezeichnet wird. Im Wesentlichen wurden während des Trainings mehrere Versionen der Antworten der KI von den Menschen nach Qualität von der besten bis zur schlechtesten eingestuft, und die KI wird digital belohnt, wenn sie das Modell verbessert. ChatGPT wird von angehenden Unternehmern genutzt, um sich zu fragen, was das nächste große Ding ist, da der CEO von Open AI einige interessante Einblicke in die Zukunft der gesamten Branche hat.

  • 00:05:00 ChatGPT ist ein Startup, das es Kunden erleichtern soll, Beschwerden einzureichen, Abonnements zu kündigen und mehr. Außerdem kann sich ChatGPT Meinungen zu ganz bestimmten Themen bilden, was keine Suchmaschine kann. ChatGPT soll auch gut im Programmieren sein, etwas, das allgemein nicht als Fähigkeit angesehen wird, die mit KI verbessert werden kann. Während ChatGPT viele nützliche Anwendungen hat, befindet es sich noch in einem frühen Stadium und hat noch einen langen Weg vor sich, bevor es als wirklich revolutionäre Technologie angesehen werden kann. Dennoch sind die potenziellen Auswirkungen von ChatGPT eine Überlegung wert, und es ist wahrscheinlich, dass es in Zukunft noch wichtiger wird.

  • 00:10:00 ChatGPT ist ein Chatbot, der in der Lage ist, auf menschenähnliche Weise zu „sprechen“, und der verwendet wurde, um ethische Grenzen zu hinterfragen, die durch offene KI gesetzt wurden. Es wird darauf hingewiesen, dass ChatGPT unvorhersehbar und instabil sein kann, was die Kontrolle erschwert. Es wird auch darauf hingewiesen, dass ChatGPT das Potenzial hat, die Anzahl der in mehreren Bereichen benötigten Mitarbeiter zu reduzieren.

  • 00:15:00 Der Autor erörtert die potenziellen Auswirkungen der Automatisierung auf die Belegschaft und wie man sich darauf vorbereitet. Er erörtert auch, wie schnell sich die KI entwickelt, mit einigen Prognosen für die nahe Zukunft, die Unternehmer im Hinterkopf behalten sollten.

  • 00:20:00 ChatGPT ist eine neue technologische Plattform, die verwendet wird, um Modelle der Zukunft zu erstellen, wie beispielsweise Modelle der Medizin oder Computer. Es wird eine neue Gruppe von Startups geben, die die Plattform nutzen werden, um bestehende große Modelle zu optimieren, um Modelle zu erstellen, die für eine Branche oder einen Anwendungsfall spezifisch sind.

  • 00:25:00 Das Video diskutiert die Entwicklung der künstlichen Intelligenz (KI) und wie sie unsere Arbeits- und Lebensweise verändert. Einige Menschen sind begeistert vom Potenzial der KI, während andere sich Sorgen über die möglichen Auswirkungen machen. Der Referent gibt auch eine kurze Zusammenfassung einer aktuellen Podcast-Episode.
It’s Time to Pay Attention to A.I. (ChatGPT and Beyond)
It’s Time to Pay Attention to A.I. (ChatGPT and Beyond)
  • 2022.12.15
  • www.youtube.com
Imagine being able to have a language conversation about anything with a computer. This is now possible and available to many people for the first time with ...
 

Die Insidergeschichte des erstaunlichen Potenzials von ChatGPT | Greg Brockmann | TED



Die Insidergeschichte des erstaunlichen Potenzials von ChatGPT | Greg Brockmann | TED

In diesem Abschnitt des Videos erörtert Greg Brockman die Rolle der KI bei der Verbesserung der Bildung. Er argumentiert, dass traditionelle Bildungsmethoden oft ineffizient und ineffektiv sind, da die Schüler Schwierigkeiten haben, ihr Wissen zu behalten, und die Lehrer Schwierigkeiten haben, auf eine Weise zu unterrichten, die jeden Schüler einbezieht. Brockman schlägt vor, dass KI helfen könnte, diese Probleme zu lösen, indem sie jedem Schüler personalisierte Lernerfahrungen bietet. Mit KI-Tools ist es möglich, den Fortschritt der Schüler in Echtzeit zu überwachen und den Lehrplan an ihre Bedürfnisse und Vorlieben anzupassen. Dies könnte zu ansprechenderen und effizienteren Lernerfahrungen führen, die es den Schülern ermöglichen, mehr Wissen zu behalten, und den Lehrern, sich auf wichtigere Aufgaben zu konzentrieren. Brockman betont auch, wie wichtig es ist, KI-Tools unter Berücksichtigung des Datenschutzes zu entwickeln und sicherzustellen, dass Schülerdaten geschützt und nur für Bildungszwecke verwendet werden.

  • 00:00:00 In diesem Abschnitt demonstrierte Greg Brockman, der CEO von OpenAI, die Fähigkeiten eines KI-Tools namens Dolly, das Tools für KIs erstellt. Durch die Verwendung dieses Tools mit ChatGPT können Benutzer Bilder und Text generieren, um ihre Absicht mit einer einheitlichen Sprachschnittstelle zu erreichen, die es ihnen ermöglicht, kleine Details zu entfernen und sie zu überprüfen, indem sie sie in andere Anwendungen integrieren. Diese neue Art, über eine Benutzeroberfläche nachzudenken, wird die Möglichkeiten erweitern, was KI im Namen des Benutzers tun kann, und die Technologie auf neue Höhen bringen.

  • 00:05:00 In diesem Abschnitt erklärt Greg Brockman, wie die KI trainiert wird, die Tools zu verwenden und durch Feedback das gewünschte Ergebnis zu erzielen. Der Prozess besteht aus zwei Schritten: Zuerst wird ein unüberwachter Lernprozess verwendet, bei dem der KI die ganze Welt gezeigt wird und sie aufgefordert wird, in Texten, die sie noch nie zuvor gesehen hat, vorherzusagen, was als nächstes kommt. Der zweite Schritt beinhaltet menschliches Feedback, bei dem der KI beigebracht wird, was mit diesen Fähigkeiten zu tun ist, indem mehrere Dinge ausprobiert werden, und menschliches Feedback wird bereitgestellt, um den gesamten Prozess zu verstärken, der zur Erstellung der Antwort verwendet wird. Dieses Feedback ermöglicht es, das Gelernte zu verallgemeinern und auf neue Situationen anzuwenden. Die KI wird auch zur Überprüfung von Fakten verwendet und kann Suchanfragen stellen und ihre gesamte Gedankenkette aufschreiben, wodurch es effizienter wird, jeden Teil der Argumentationskette zu überprüfen.

  • 00:10:00 In diesem Abschnitt des Videos diskutiert Greg Brockman das Potenzial für die Zusammenarbeit zwischen Menschen und KI bei der Lösung komplexer Probleme. Er zeigt ein Beispiel für ein Instrument zur Überprüfung von Fakten, das menschliche Eingaben erfordert, um nützliche Daten für eine andere KI zu produzieren, und demonstriert, wie Menschen Management, Aufsicht und Feedback bieten können, während Maschinen auf vertrauenswürdige und überprüfbare Weise arbeiten. Brockman glaubt, dass dies zur Lösung bisher unmöglicher Probleme führen wird, einschließlich eines Umdenkens, wie wir mit Computern interagieren. Er demonstriert, wie ChatGPT, ein leistungsstarkes KI-Sprachmodell, verwendet werden kann, um eine Tabelle mit 167.000 KI-Papieren zu analysieren und Einblicke durch explorative Grafiken zu geben, die das Potenzial von KI zur Unterstützung der Datenanalyse und Entscheidungsfindung zeigen.

  • 00:15:00 In diesem Abschnitt diskutiert Greg Brockman das Potenzial der KI und erklärt, dass die Beteiligung aller erforderlich ist, um sie richtig zu machen, um die Regeln und Richtlinien für ihre Integration in unser tägliches Leben festzulegen. Er glaubt, dass das Erreichen der OpenAI-Mission, sicherzustellen, dass künstliche allgemeine Intelligenz der gesamten Menschheit zugute kommt, durch Alphabetisierung und die Bereitschaft, die Art und Weise, wie wir Dinge tun, zu überdenken, möglich ist. Brockman räumt ein, dass die Technologie zwar erstaunlich, aber auch beängstigend ist, da sie ein Umdenken bei allem, was wir derzeit tun, erfordert. Der Erfolg des chatGPT-Modells von OpenAI ist zum Teil auf ihre bewussten Entscheidungen, die Konfrontation mit der Realität und die Förderung der Zusammenarbeit zwischen verschiedenen Teams zurückzuführen. Brockman schreibt das Entstehen neuer Möglichkeiten auch dem Wachstum von Sprachmodellen und dem Emergenzprinzip zu, bei dem viele einfache Komponenten zu komplexen emergenten Verhaltensweisen führen können.

  • 00:20:00 In diesem Abschnitt des Videos erörtert Greg Brockman das erstaunliche Potenzial der Lern- und Vorhersagefähigkeit von ChatGPT, selbst in Bereichen, die der Maschine nicht explizit beigebracht wurden. Er stellt jedoch fest, dass die Maschine zwar das Addieren von 40-stelligen Zahlen handhaben kann, jedoch häufig ein Additionsproblem verursacht, wenn eine 40-stellige Zahl und eine 35-stellige Zahl angezeigt werden. Brockman betont auch die Bedeutung der technischen Qualität mit maschinellem Lernen, indem er den gesamten Stack neu aufbaut, um sicherzustellen, dass jedes Teil richtig konstruiert ist, bevor Vorhersagen getroffen werden. Er räumt ein, dass die Skalierung einer solchen Technologie zu unvorhersehbaren Ergebnissen führen könnte, glaubt jedoch an die Bereitstellung schrittweiser Änderungen, um die Absicht der Maschine ordnungsgemäß zu überwachen und mit unserer abzustimmen. Letztendlich glaubt Brockman, dass mit angemessenem Feedback und Integration mit Menschen die Reise zu Wahrheit und Weisheit mit KI möglich ist.

  • 00:25:00 In diesem Abschnitt geht Greg Brockman auf Bedenken hinsichtlich der Verantwortung und der Sicherheitsauswirkungen der Veröffentlichung künstlicher Intelligenz (KI) wie GPT ohne angemessene Leitplanken ein. Er erklärt, dass der Standardplan, im Geheimen zu bauen und dann zu hoffen, dass die Sicherheit ordnungsgemäß ausgeführt wird, erschreckend ist und sich nicht richtig anfühlt. Stattdessen argumentiert er, dass der alternative Ansatz darin besteht, die KI freizugeben und den Menschen die Möglichkeit zu geben, Beiträge zu leisten, bevor sie zu mächtig werden. Brockman erzählt, wie er darüber nachgedacht hat, ob er die Technologie in 5 oder 500 Jahren zurücklegen möchte, und kommt zu dem Schluss, dass es besser ist, dieses Recht mit kollektiver Verantwortung anzugehen und Leitplanken für die KI zu schaffen, damit sie weise statt rücksichtslos ist.