Maschinelles Lernen und neuronale Netze - Seite 11

 

Die Revolution der KI | Künstliche Intelligenz erklärt | Neue Technologien | Robotik




Die Revolution der KI | Künstliche Intelligenz erklärt | Neue Technologien | Robotik

Dieses Video untersucht die Revolution der KI, beginnend mit der Zukunft von autonomen Fahrzeugen und selbstlernenden Robotern, die in der Lage sind, sich in komplexem Gelände zurechtzufinden, Such- und Rettungsmissionen durchzuführen und mit Menschen in kollaborativen Arbeitsumgebungen zu interagieren. Die Entwicklung der Schwarmrobotik zeigt ein enormes Potenzial zur Verbesserung von Bereichen wie Landwirtschaft, Gesundheitswesen und Katastrophenschutz. Forscher arbeiten daran, Roboter selbstbewusster und in der Lage zu machen, durch Verarbeitung natürlicher Sprache zu kommunizieren, hyperrealistische digitale Avatare und menschenähnlichere Androiden zu schaffen, die als holografische Assistenten oder Begleiter für ältere und sozial isolierte Menschen dienen könnten. Während die Vorteile der KI bei der Verbesserung der Gesellschaft immens sind, müssen die Entwickler auch ethische Überlegungen anstellen und Rechenschaft ablegen, um die Ausrichtung der KI auf positive Absichten sicherzustellen.

  • 00:00:00 In diesem Abschnitt wird die Zukunft der Hyperintelligenz erforscht, wobei selbstfahrende Autos und selbstnavigierende Drohnen das moderne Leben revolutionieren werden. Von Menschen wird erwartet, dass sie neben selbstbewussten Androiden leben und arbeiten, was uns von mühsamen Aufgaben befreit und die Produktivität steigert, während KI-Begleiter den Menschen in vielerlei Hinsicht helfen werden. In diesem Abschnitt wird weiter erklärt, wie KI funktioniert, und es wird darüber nachgedacht, ob KI menschliche Eigenschaften wie Emotionen, Bewusstsein oder sogar einen freien Willen erlangen wird. Das selbstfahrende Auto wird als klarster Weg in die Zukunft präsentiert, wobei Raj Rajkumar von der Carnegie Mellon University erklärt, wie Entscheidungen über selbstfahrende Autos durch eine Kombination aus Kameras und fortschrittlichem Radar getroffen werden, die externe Objekte mit einer internen 3D-Karte vergleichen.

  • 00:05:00 In diesem Abschnitt untersucht das Video die dynamische Natur des Transports und die Herausforderung, die KI beim Erkennen dynamischer Informationen hat, um zu verstehen, wohin sie sich objektiv im Raum bewegen, und auf Änderungen und Verkehrssignale zu reagieren. Das Video hebt die Bedeutung der Sicherheit bei der Entwicklung selbstfahrender Autos und den Einsatz von maschinellem Lernen bei der Entwicklung von Robotern hervor, die lernen und mit ihrer Umgebung interagieren können, indem sie Objekte identifizieren und zwischen verschiedenen Elementen unterscheiden, ähnlich wie ein Kleinkind etwas über seine Umgebung lernt. Vorgestellt wird der R2-Roboter, der für den Betrieb in unterirdischen Umgebungen konzipiert ist und Signalverstärker ablegt, um ein Wi-Fi-Netzwerk zu erstellen, um eine 3D-Darstellung der Umgebung zum Navigieren, Identifizieren und Vermeiden von Hindernissen zu erstellen.

  • 00:10:00 In diesem Abschnitt zeigt das Video die Fähigkeiten intelligenter Roboter, die in der Lage sind, neue Gebiete zu erkunden und zu kartieren, um bei Such- und Rettungsmissionen zu helfen. Von Fahrzeugen, die durch Katastrophengebiete navigieren, bis hin zu Drohnen, die durch unbekannte Räume fliegen, diese autonomen Roboter sind in der Lage, Entscheidungen auf der Grundlage ihrer Umgebung zu treffen, indem sie Technologien wie Lidar verwenden, um ihre Umgebung zu kartieren. Darüber hinaus werden diese Roboter bereits in gefährlichen Branchen wie Bergbau, Bauwesen und Ölexploration eingesetzt, um Inspektionen durchzuführen und Karten von unwegsamem Gelände zu erstellen. Die Entwicklung dieser autonomen Roboter stellt nicht nur eine Zukunft der Hyperintelligenz dar, sondern könnte auch Bereiche wie Suche und Rettung, Katastrophenschutz und Paketzustellung revolutionieren.

  • 00:15:00 In diesem Abschnitt diskutiert das Video die Entwicklung einer Armee kleiner Flugroboter durch Vijay Kumar, Professor an der Univ. von Pennsylvania, um das Problem des Welthungers anzugehen. Mithilfe von KI können diese Drohnen als koordinierte Kollektivgruppe präzise Informationen über einzelne Pflanzen liefern, was die Effizienz der Lebensmittelproduktion steigern kann. Die Drohnen verwenden einen kollektiven KI-Algorithmus, um miteinander zu kommunizieren und zusammenzuarbeiten, um Aufgaben wie die Kartierung und den Bau von Strukturen auszuführen. Diese Schwarmtechnik bietet Vorteile gegenüber einer einzelnen Drohne, da sie Operationen viel schneller durchführt, indem sie ihre Daten kombiniert und verhindert, dass der Verlust von Drohnen die gesamte Operation zum Scheitern bringt. Andere Beispiele für den Einsatz von Schwarmtechnologie sind Roboterbienen, die bei der Bestäubung in Obstgärten und auf Farmen helfen und sie nachhaltiger und produktiver machen.

  • 00:20:00 In diesem Abschnitt liegt der Schwerpunkt auf der Mensch-Roboter-Kollaboration und den Herausforderungen, Robotern beizubringen, vom menschlichen Verhalten zu lernen. Das Massachusetts Institute of Technology betreibt bahnbrechende Forschung und entwickelt Software, die es Robotern ermöglicht, direkt mit Menschen zu arbeiten und zu interagieren. Robotern werden Aufgaben beigebracht, indem sie vorgeführt werden, und die KI erkennt Objekte, die durch visuelle Tags gezeigt werden, und durch Beobachtung wird die Software kontinuierlich geschrieben und überarbeitet, lernt den Kontext und kann dynamisch denken. Die Herausforderung bei der Schaffung von Hyperintelligenz besteht darin, Roboter dazu zu bringen, die Umgebung vorherzusehen, um vorherzusagen, was als nächstes passieren wird. Der Industrieroboter erhält Intelligenz, die es ihm ermöglicht, die Handlungen menschlicher Mitarbeiter in einem simulierten Fertigungstest zu erkennen, um die Interaktion zwischen Menschen sicherer zu machen.

  • 00:25:00 In diesem Abschnitt wird demonstriert, wie KI-Technologie mit Menschen in einem kollaborativen Arbeitsbereich zusammenarbeiten kann. Der Roboter ist in der Lage, menschliche Bewegungen zu erkennen und vorauszusehen, wodurch die Arbeit sicherer und effizienter wird. Dieses Thema der Teamarbeit zwischen Mensch und Roboter wird in verschiedenen Branchen wie dem Gesundheitswesen, wo KI-Roboter bereits zur Steigerung der Produktivität und zur Reduzierung menschlicher Fehler eingesetzt werden, immer wichtiger. Die Entwicklung einer künstlichen allgemeinen Intelligenz mit der Fähigkeit, wie Menschen zu denken und zu lernen, ist das ultimative Ziel einiger Wissenschaftler, die glauben, dass Maschinen eines Tages empfindungsfähig und selbstbewusst werden können.

  • 00:30:00 In diesem Abschnitt diskutiert das Video das Konzept der Propriozeption, sowohl bei Babys als auch bei Robotern. Propriozeption bezieht sich auf das Bewusstsein einer Person für die Bewegungen und die Positionierung ihres Körpers im Raum. Experten betonen die Bedeutung des Selbstbewusstseins eines Roboters für die Entwicklung des Roboterbewusstseins. Roboter können Selbstbilder entwickeln, neue Aufgaben planen und anfangen, über das Denken mit Propriozeption nachzudenken. Die Selbstwahrnehmung verbindet die Maschine mit der Außenwelt und ermöglicht ihr, sich in ihrer Umgebung zu manövrieren und mit ihr zu interagieren. Diese Entwicklung könnte den Weg für fortschrittliche Kommunikationswege zwischen Mensch und Roboter ebnen.

  • 00:35:00 In diesem Abschnitt wird erklärt, dass Roboter lernen müssen, wie man spricht und natürliche Gespräche führt, um die Mensch-Maschine-Interaktion komplexer zu machen. Die Verarbeitung natürlicher Sprache, die der KI vorausgeht, ist der Schlüssel zum Verständnis der Bedeutung gesprochener Sprache. Die größte Herausforderung für die KI beim Verständnis menschlicher Sprache besteht jedoch darin, dass der Kontext der Sprache stark von Ton und Kontext abhängt. Forscher nutzen maschinelles Lernen, um KI mit stundenlangen menschlichen Gesprächen zu trainieren, damit sie den Gesprächskontext besser verstehen können. Damit die KI überzeugend wie wir aussieht, werden außerdem neue Techniken von Unternehmen wie Pinscreen entwickelt, um im Handumdrehen hyperrealistische digitale Avatare zu erstellen. Ihre Software verwendet künstliche Intelligenz, um das Gesicht einer Person in den Computer zu digitalisieren und eine schnelle Animation zu ermöglichen.

  • 00:40:00 In diesem Abschnitt liegt der Schwerpunkt auf der Entwicklung einer menschenähnlicheren künstlichen Intelligenz (KI) und den potenziellen Auswirkungen, die sie auf unser Leben haben könnte. Dazu gehört die Verwendung von Software, die ein realistischeres und individuelleres menschliches Gesicht erzeugt, was zu freundlicher aussehenden Androiden und virtuellen Wesen führen könnte. Diese holografischen Assistenten könnten sich um viele Aspekte des täglichen Lebens kümmern, einschließlich Gesundheitsdiagnosen und sogar virtuelle Freunde und Familienmitglieder werden. Es gibt auch Bemühungen, lebensechte Roboter zu schaffen, die Menschen körperlich umarmen möchten, um als Begleiter zu dienen, insbesondere für diejenigen, die sozial isoliert sind oder unter sozialer Angst leiden. Während Bedenken bestehen, dass manche solche Androiden als Sexroboter ansehen könnten, bleibt der Fokus auf der Schaffung eines guten Roboters, der auf vielfältige Weise verwendet werden kann.

  • 00:45:00 In diesem Abschnitt behandelt der Vortrag den potenziellen Einsatz von Androiden und KI in der Therapie, da Menschen sich wohler fühlen, wenn sie mit einem nicht wertenden Roboter sprechen. Der Vortrag wirft jedoch auch ethische Bedenken auf. KI und Deepfakes könnten verwendet werden, um die Identität einer Person zu entführen, und Schwärme von KI-gesteuerten Drohnen könnten möglicherweise bei Terroranschlägen eingesetzt werden. Es ist wichtig, moralische Verantwortung zu übernehmen und Entwickler für ihre Handlungen zur Rechenschaft zu ziehen, da das Potenzial von KI zur Verbesserung der Gesellschaft enorm ist, wenn sie richtig eingesetzt wird. Letztendlich glaubt der Redner, dass eine Partnerschaft mit hyperintelligenten Robotern mit abgestimmten Absichten die Menschheit zum Wohle der Allgemeinheit verändern könnte.
The Revolution Of AI | Artificial Intelligence Explained | New Technologies | Robotics
The Revolution Of AI | Artificial Intelligence Explained | New Technologies | Robotics
  • 2023.03.18
  • www.youtube.com
The Revolution Of AI - Everyone has heard about Artificial Intelligence (or AI), but very few people know what it is or how it actually works.The Revolution ...
 

Tauchen Sie tief in die KI-Hardware von ChatGPT ein




Tauchen Sie tief in die KI-Hardware von ChatGPT ein

Welche Hardware wurde verwendet, um ChatGPT zu trainieren, und was braucht es, um es am Laufen zu halten? In diesem Video werfen wir einen Blick auf die KI-Hardware hinter ChatGPT und finden heraus, wie Microsoft und OpenAI maschinelles Lernen und Nvidia-GPUs verwenden, um fortschrittliche neuronale Netze zu erstellen.

Das Video diskutiert die Hardware, die für das Training und die Inferenz in ChatGPT verwendet wird, einem auf natürlichem Text basierenden Chat-Konversations-KI-Modell. Der KI-Supercomputer von Microsoft wurde mit über 10.000 Nvidia V100-GPUs und 285.000 CPU-Kernen für das Training von GPT-3 gebaut, was auch zur Entwicklung von ChatGPT beitrug. ChatGPT wurde wahrscheinlich auf die Azure-Infrastruktur abgestimmt, wobei 4.480 Nvidia A100-GPUs und über 70.000 CPU-Kerne für das Training verwendet wurden. Als Schlussfolgerung wird ChatGPT wahrscheinlich auf einer einzelnen Nvidia DGX- oder HGX A100-Instanz auf Microsoft Azure-Servern ausgeführt. Das Video erwähnt auch die Kosten für den Betrieb von ChatGPT in großem Maßstab und die potenziellen Auswirkungen neuer KI-Hardware wie neuronale Verarbeitungseinheiten und KI-Engines.

  • 00:00:00 In diesem Abschnitt erläutert das Video die beiden Phasen des maschinellen Lernens, Training und Inferenz, sowie die unterschiedlichen Hardwareanforderungen für jede Phase. Das Training des neuronalen Netzwerks erfordert eine massive konzentrierte Rechenleistung und stellt hohe Anforderungen an die Hardware, während die Ausführung der Inferenz weniger ressourcenintensiv ist, aber die Hardwareanforderungen exponentiell erhöhen kann, wenn es für viele Benutzer bereitgestellt wird. Das Transkript befasst sich dann mit der Hardware, die zum Trainieren des neuronalen Netzwerks von ChatGPT verwendet wird, was ein Geheimnis ist. Dennoch gab Microsoft im Mai 2020 bekannt, dass sie einen Supercomputer für OpenAI gebaut haben, um GPT-3 mit über 285.000 CPU-Kernen und mehr als 10.000 Nvidia V100-GPUs zu trainieren. Die GPUs wurden in einem wissenschaftlichen Artikel enthüllt, der zeigte, dass sie die primäre Hardware waren, die beim Training von GPT-3, einem Vorläufer von ChatGPT, verwendet wurde, und ihre Auswahl auf die Nvidia CUDA Deep Neural Network Library zurückzuführen war.

  • 00:05:00 In diesem Abschnitt liegt der Schwerpunkt auf den V100-GPUs von Nvidia und warum sie von Microsoft und OpenAI ausgewählt wurden. Die Architektur von Volta führte eine wesentliche Änderung in allen früheren Nvidia-GPUs ein und wurde speziell entwickelt, um KI-Workloads wie Training und Inferenz zu beschleunigen. Die von Volta eingeführten Tensorkerne sind spezialisierte Hardware, die sich durch Matrixverarbeitung auszeichnet und mehrere Berechnungen parallel ausführen kann. Die Version von Volta, die 2020 in Microsofts KI-Supercomputer verwendet wurde, war höchstwahrscheinlich Teil von Nvidias Tesla-Produktfamilie, mit bis zu 32 Gigabyte schnellem HBM2-Speicher und mit 10.000 GPUs mit jeweils 125 FP16-Tensorkern-Teraflops. Das gesamte System wäre in der Lage, 1,25 Millionen Tensor-Petaflops zu verarbeiten, was 1,25 Exaflops entspricht. Ohne Volta wäre dieser Supercomputer nicht gebaut worden, und ohne ihn gäbe es wahrscheinlich kein GPT-3 oder ChatGPT.

  • 00:10:00 In diesem Abschnitt erörtert der Erzähler die KI-Hardware, die für das Training von ChatGPT verwendet wird, einem KI-Modell, das sich auf natürliche textbasierte Chat-Gespräche mit geringeren Rechenanforderungen konzentriert. Das Modell wurde anhand eines Modells der GPT-3.5-Serie optimiert, und das Training wurde auf einer Azure-KI-Supercomputing-Infrastruktur durchgeführt, wahrscheinlich mit Nvidia A100-GPUs und AMD EPYC-CPUs. Der Erzähler schätzt, dass 1.120 AMD EPYC-CPUs mit über 70.000 CPU-Kernen und 4.480 Nvidia A100-GPUs verwendet wurden, was fast 1,4 Exaflops der FP16-Tensorkernleistung entspricht. Als Schlussfolgerung wird ChatGPT wahrscheinlich auf einer einzelnen Nvidia DGX- oder HGX A100-Instanz auf Microsoft Azure-Servern ausgeführt.

  • 00:15:00 In diesem Abschnitt erläutert das Video die Hardwareanforderungen für ChatGPT, ein beliebtes KI-Modell mit weit über 1 Million Benutzern. Um die Anforderungen von ChatGPT zu erfüllen, wären über 3.500 Nvidia A100-Server mit fast 30.000 GPUs erforderlich, und die Aufrechterhaltung des Betriebs kostet zwischen 500.000 und 1 Million Dollar pro Tag. Mit der Beschleunigung der Hardware, die speziell für KI entwickelt wurde, wird es jedoch kosteneffizienter, ChatGPT in großem Maßstab auszuführen. Das Video erwähnt neben GPUs auch neue Produkte wie neuronale Verarbeitungseinheiten und KI-Engines, die die KI-Leistung steigern. In den nächsten Jahren würde die Leistung von KI-Modellen ChatGPT übertreffen, da neue KI-Hardware wie Hopper, die letztes Jahr veröffentlicht wurde, und CDNA3-basierte MI300-GPUs eine erhebliche Konkurrenz für Nvidia darstellen werden.
Deep-dive into the AI Hardware of ChatGPT
Deep-dive into the AI Hardware of ChatGPT
  • 2023.02.20
  • www.youtube.com
With our special offer you can get 2 years of NordPass with 1 month free for a personal account: https://www.nordpass.com/highyieldnordpassOr use code highyi...
 

Nvidia-CEO Jensen Huang darüber, wie sich seine große Wette auf KI endlich auszahlt – vollständiges Interview



Nvidia-CEO Jensen Huang darüber, wie sich seine große Wette auf KI endlich auszahlt – vollständiges Interview

Jensen Huang, CEO von Nvidia, hebt die Agilität und Neuerfindung des Unternehmens hervor und betont seine Bereitschaft, große Wetten einzugehen und vergangene Fehler zu vergessen, um in der schnelllebigen Technologiebranche relevant zu bleiben. Nvidias Ziel war es immer, ein Unternehmen für Computerplattformen zu sein, und seine Mission, beschleunigtes Computing für allgemeine Zwecke zu schaffen, führte zu seinem Erfolg im Bereich der künstlichen Intelligenz. Huang diskutiert auch die Demokratisierung der KI-Technologie und ihre möglichen Auswirkungen auf kleine Startups und verschiedene Branchen. Er ermutigt Menschen, die Vorteile von KI zu nutzen, um ihre Produktivität zu steigern, und hebt Nvidias einzigartigen Ansatz hervor, vielseitige und leistungsstarke Allzweck-Accelerated-Computing-Plattformen bereitzustellen. Schließlich erörtert Huang die Bedeutung von Resilienz, Vielfalt und Redundanz in der Fertigungsindustrie und die nächste große Neuerfindung des Unternehmens in der KI, die die physische Welt durch die Schaffung von Omniverse trifft.
  • 00:00:00 In diesem Abschnitt erläutert Jensen Huang, CEO von Nvidia, die Ursprünge des Unternehmens und wie es vor drei Jahrzehnten Pionierarbeit im beschleunigten Computing leistete. Ursprünglich auf Computergrafik für Videospiele konzentriert, machte die Technologie des Unternehmens, Spiele realistischer zu machen, die Videospielindustrie zur weltweit größten Unterhaltungsindustrie. Nvidia expandierte dann in andere Bereiche, wie z. B. die Stromversorgung der leistungsstärksten und energieeffizientesten Supercomputer für Forschung und Entwicklung, Roboter in der Fertigung und selbstfahrende Autos. Das Unternehmen ist auch stolz auf seine Zusammenarbeit mit Microsoft Azure und OpenAI zur Unterstützung von ChatGPT. Huang betont die Bereitschaft von Nvidia, große Wetten einzugehen und sich im Laufe der Jahre immer wieder neu zu erfinden.

  • 00:05:00 In diesem Abschnitt erklärt Jensen Huang, CEO von Nvidia, dass Agilität und Anpassungsfähigkeit in der schnelllebigen Technologiebranche von entscheidender Bedeutung sind. Unternehmen, die es geschafft haben, sich neu zu erfinden, bleiben von Generation zu Generation relevant, und sein Stolz auf Nvidia ist zu einem großen Teil auf die Anpassungsfähigkeit und Agilität des Unternehmens zurückzuführen. Obwohl das Unternehmen auf dem Weg dorthin Fehler gemacht hat, ist eine der Fähigkeiten, die erforderlich sind, um widerstandsfähig zu sein, die Fähigkeit, die Vergangenheit zu vergessen. Huang erläutert auch, wie Nvidias Ehrgeiz immer darin bestand, ein Unternehmen für Computerplattformen zu sein, und ihre Mission, eine viel allgemeinere Art von beschleunigtem Computing zu schaffen, führte sie zu künstlicher Intelligenz.

  • 00:10:00 In diesem Abschnitt erläutert Jensen Huang, CEO von Nvidia, den grundlegenden Grund für den Erfolg ihrer Computerarchitektur bei der effizienteren Lösung zuvor unmöglicher Probleme. Er weist auf das positive Rückkopplungssystem hin, das zur Entdeckung neuer Anwendungen führt, die vorher nicht möglich waren, was zu exponentiellem Wachstum führt. Während Huang anerkennt, dass ein gewisser Zufall zu ihrem Erfolg beigetragen hat, betont er die großen Entscheidungen, die mit der Architektur, der Disziplin der Plattform und der Evangelisation verbunden sind, um Forschungsuniversitäten weltweit zu erreichen. Huang beschreibt, wie die Entdeckung von AlexNet, einem neuen Computer-Vision-Algorithmus, zu einer tiefgreifenden Änderung der Software und der Schaffung eines KI-Supercomputers führte, wodurch Nvidia zum weltweiten Motor für KI wurde.

  • 00:15:00 In diesem Abschnitt spricht Nvidia-CEO Jensen Huang über die Demokratisierung der KI-Technologie und ihre Auswirkungen auf Startups. Huang erklärt, dass die Kosten für den Bau eines KI-Supercomputers jetzt erschwinglich sind, was die Technologie für kleine Startups demokratisiert. Er glaubt, dass jede Branche Grundlagenmodelle schaffen kann und dass diese Technologie jetzt auch kleinen Ländern zugänglich ist und das Potenzial hat, alles von der digitalen Biologie bis zur Robotik voranzutreiben. Huang erkennt die Bedenken von Skeptikern über die Macht der KI an, betont jedoch, dass die Technologie angenommen werden sollte, um die eigenen Fähigkeiten zu steigern.

  • 00:20:00 In diesem Abschnitt spricht Nvidia-CEO Jensen Huang darüber, wie KI zum ersten Mal überhaupt die Datenverarbeitung demokratisiert und leistungsstarke Technologie für alle zugänglich gemacht hat. Er ermutigt die Menschen, die Vorteile von KI zu nutzen und ihre Produktivität zu steigern. Huang erklärt auch, wie Nvidia in der Branche führend bleibt, indem es Dinge anders angeht, Allzweck-beschleunigte Computing-Plattformen bereitstellt, die vielseitig und extrem leistungsfähig sowie in jeder Cloud verfügbar sind. Er glaubt, dass jedes Rechenzentrum der Welt alles beschleunigen sollte, was es kann, und die Gesamtbetriebskosten von Nvidia sind aufgrund seiner Flexibilität und Vielseitigkeit tatsächlich die niedrigsten von allen. Abschließend antwortet Huang auf die Frage von Spielern, die sich wünschten, das Unternehmen hätte sich weiterhin ausschließlich auf das Kerngeschäft Gaming konzentriert.

  • 00:25:00 In diesem Abschnitt erläutert Nvidia-CEO Jensen Huang ihre Erfindung von Raytracing, die Computergrafiken und Videospiele revolutioniert hat, und wie sie KI nutzten, um die Leistung von Raytracing um den Faktor fünf zu steigern und gleichzeitig die Menge an Raytracing zu reduzieren Energie verbraucht. Huang spricht auch über die Chipknappheit und wie sie sich auf Nvidia und die Branche auswirkte, aber wie das Unternehmen den Sturm überstand, indem es sich darauf konzentrierte, gute Arbeit zu leisten. Huang ist begeistert von der Investition in KI und ihrem Potenzial, verschiedene Branchen zu revolutionieren. Er betont auch, wie wichtig es ist, Widerstandsfähigkeit gegenüber geopolitischen Risiken zu gewährleisten und das Unternehmen durch Diversität und Redundanz so widerstandsfähig wie möglich zu machen.

  • 00:30:00 In diesem Abschnitt erörtert Jensen Huang, CEO von Nvidia, die Bedeutung von Diversität und Redundanz in der Fertigungsindustrie, insbesondere im Hinblick auf den Bau einer Fabrik von TSMC in Arizona, die Nvidia nutzen will. Huang geht auch auf die Befürchtungen der Anleger hinsichtlich neuer Exportkontrollen ein und darauf, wie Nvidia daran arbeitet, die Vorschriften einzuhalten und gleichzeitig seine Kunden in China zu bedienen. Anschließend hebt er die nächste große Neuerfindung für Nvidia in der Begegnung von KI mit der physischen Welt und die Schaffung von Omniverse hervor, einer Technologie, die die digitale Welt und die physische Welt verbindet und die Integration von Computergrafik, KI, Robotik und Physiksimulation ermöglicht. Abschließend spricht Huang über sein persönliches Engagement, Nvidia auf absehbare Zeit weiter zu führen, und über seinen Glauben an das Potenzial des Unternehmens, einen bedeutenden Einfluss zu nehmen.
Nvidia CEO Jensen Huang On How His Big Bet On A.I. Is Finally Paying Off - Full Interview
Nvidia CEO Jensen Huang On How His Big Bet On A.I. Is Finally Paying Off - Full Interview
  • 2023.03.19
  • www.youtube.com
Ahead of this year’s Nvidia GTC developer conference, CNBC sat down with founder and CEO Jensen Huang to talk about ChatGPT, gaming, the omniverse, and what’...
 

OpenAI-CEO Sam Altman | KI für die nächste Ära




OpenAI-CEO Sam Altman | KI für die nächste Ära

Sam Altman, CEO von OpenAI, erörtert das Potenzial künstlicher Intelligenz zur Verbesserung von Sprachmodellen, multimodalen Modellen und maschinellem Lernen sowie deren potenzielle Auswirkungen auf die Finanzmärkte. Er sagt auch voraus, dass das Feld wettbewerbsfähig bleiben wird, da regelmäßig neue Anwendungen erscheinen werden.

  • 00:00:00 Sam Altman, CEO von OpenAI, erörtert das Potenzial künstlicher Intelligenz zur Schaffung neuer Geschäftsmöglichkeiten, einschließlich der Möglichkeit von Chatbots auf menschlicher Ebene und einer Mittelschicht, die Unternehmen beim Zugriff auf große, vortrainierte Sprachmodelle unterstützt.

  • 00:05:00 Sam Altman diskutiert die Zukunft der künstlichen Intelligenz und ihre Auswirkungen auf die Wissenschaft und stellt fest, dass die Selbstverbesserung der Schlüssel sein wird, um sicherzustellen, dass die KI der Menschheit zugute kommt. Er diskutiert auch das Ausrichtungsproblem, das die Herausforderung darstellt, sicherzustellen, dass KI den menschlichen Interessen dient.

  • 00:10:00 Dieser Teil erörtert das Potenzial von KI zur Verbesserung von Sprachmodellen, multimodalen Modellen und maschinellem Lernen sowie deren potenzielle Auswirkungen auf die Finanzmärkte. Er sagt auch voraus, dass das Feld wettbewerbsfähig bleiben wird, da regelmäßig neue Anwendungen erscheinen werden.

  • 00:15:00 Sam erörtert den Trend, dass die Kosten für Intelligenz und Energie exponentiell sinken, die Schnittmenge zwischen beiden und wie man die Ratenbegrenzung für die biowissenschaftliche Forschung umgeht. Außerdem geht er auf den aktuellen Stand der Life-Science-Forschung und die Bedeutung von Startups mit niedrigen Kosten und schnellen Zykluszeiten ein.

  • 00:20:00 Er diskutiert die möglichen Folgen der künstlichen Intelligenz und wie die Technologie helfen könnte, eine utopische Zukunft zu schaffen. Er erwähnt auch ein Science-Fiction-Buch, das ihm gefallen hat, Childhood's End, das von Außerirdischen handelt, die auf die Erde kommen und die Kinder wegnehmen. Es gibt keinen Konsens darüber, wie man Familienbildung in einer High-Tech-Welt angeht, aber viele Menschen glauben, dass es eine ist
    wichtiger Teil des Lebens.

  • 00:25:00 Der Referent diskutiert die Zukunft der künstlichen Intelligenz und ihre möglichen Auswirkungen auf die Gesellschaft. Er glaubt, dass der Schlüssel zu einer erfolgreichen KI-Entwicklung darin besteht, zu verstehen, wie die Interessen verschiedener Personengruppen in Einklang gebracht werden können, und dass diese Fragen in den nächsten Jahrzehnten beantwortet werden. Er blickt optimistisch in die Zukunft und glaubt, dass die Menschen herausfinden werden, wie sie sich an neue Technologien anpassen können.

  • 00:30:00 Sam Altman, spricht über die Zukunft der künstlichen Intelligenz und darüber, wie sich Startups von der Konkurrenz abheben können, indem sie sich auf das Training ihrer eigenen Sprachmodelle konzentrieren, anstatt sich auf externe Daten zu verlassen. Er erklärt auch, warum große Sprachmodell-Startups trotz der Herausforderungen der Daten- und Rechenverfügbarkeit erfolgreich sein werden.

  • 00:35:00 Sam Altman, CEO von OpenAI, erörtert das Potenzial künstlicher Intelligenz und stellt fest, dass es zwar großartig oder schrecklich sein kann, es aber wichtig ist, auf das Schlimmste vorbereitet zu sein.
OpenAI CEO Sam Altman | AI for the Next Era
OpenAI CEO Sam Altman | AI for the Next Era
  • 2022.09.21
  • www.youtube.com
Greylock general partner Reid Hoffman interviews OpenAI CEO Sam Altman. The AI research and deployment company's primary mission is to develop and promote AI...
 

Demis Hassabis von DeepMind über die Zukunft der KI | Das TED-Interview



Demis Hassabis von DeepMind über die Zukunft der KI | Das TED-Interview

Im TED-Interview spricht Demis Hassabis über die Zukunft der künstlichen Intelligenz und wie sie zu mehr Kreativität führen wird. Er argumentiert, dass Spiele ein ideales Trainingsgelände für künstliche Intelligenz sind und dass Schach in Schulen als Teil eines breiteren Lehrplans gelehrt werden sollte, der Kurse zum Spieldesign umfasst.

  • 00:00:00 Demis Hassabis von DeepMind spricht über die Zukunft der künstlichen Intelligenz, von der er glaubt, dass sie zu größerer Kreativität und einem besseren Verständnis des Gehirns führen wird. Hassabis begann im Alter von vier Jahren Schach zu spielen und entdeckte später Computer, was zu seiner Arbeit im Bereich der künstlichen Intelligenz führte.

  • 00:05:00 Demis erzählt seine Geschichte, wie sein Interesse an Computern und Programmieren entstand und wie diese Interessen schließlich dazu führten, dass er Spieledesigner und Entwickler von KI-gestützten Simulationsspielen wurde. Er erklärt, dass Spiele wie Space Invaders und Qbert zwar beliebte und bekannte Beispiele seiner Arbeit sind, er aber auch Spiele entwickelt hat, die für menschliche Spieler viel schwerer zu schlagen sind, wie Black & White und Theme Park. Er argumentiert, dass Spiele ein ideales Trainingsgelände für künstliche Intelligenz sind und dass Schach in Schulen als Teil eines breiteren Lehrplans gelehrt werden sollte, der Kurse zum Spieldesign umfasst.

  • 00:10:00 Demis Hassabis diskutiert die Geschichte und Zukunft der künstlichen Intelligenz und konzentriert sich dabei auf Deep Reinforcement Learning und seine Rolle in Spielen. Er beschreibt, wie Atari-Spiele anfangs schwierig sein können, aber mit Deep Reinforcement Learning kann das System lernen, mit der Zeit besser zu spielen. Hassabis spricht auch darüber, wie Spiele schwieriger werden und wie Deep Reinforcement Learning dazu beiträgt, diese Spiele herausfordernder zu machen.

  • 00:15:00 Er spricht über die Zukunft der künstlichen Intelligenz, einschließlich TD-Lernen und Deep Reinforcement Learning. Alpha Zero, eine erfolgreiche, von DeepMind entwickelte Softwareplattform, nutzt kontradiktorisches Training, um in komplexen Echtzeit-Strategiespielen übermenschliche Leistungen zu erzielen.

  • 00:20:00 Demis spricht über einige der bahnbrechenden Errungenschaften der künstlichen Intelligenz der letzten Jahre, darunter die Entwicklung von Alpha Zero und Alpha Fold. Er erwähnt auch das Potenzial für das Sprachverständnis, das durch einen Brute-Force-Ansatz erreicht werden kann, ohne sich auf syntaktisches Wissen zu verlassen. Abschließend erörtert er das Potenzial für die Entwicklung allgemeiner künstlicher Intelligenz in naher Zukunft.

  • 00:25:00 Demis Hassabis, ein Pionier der künstlichen Intelligenz, spricht über die Zukunft der KI und ihre Fähigkeit, komplexe Konzepte zu verstehen. Er stellt fest, dass die KI zwar weit davon entfernt ist, bewusst oder empfindungsfähig zu sein, ihre derzeitigen Fähigkeiten jedoch immer noch ziemlich beeindruckend sind.

  • 00:30:00 Demis Hassabis interviewt Ted über die Zukunft der künstlichen Intelligenz und diskutiert die Notwendigkeit dateneffizienter Modelle, das Potenzial der KI für eine breite Anwendung und die Notwendigkeit einer sorgfältigen Überwachung.

  • 00:35:00 Demis erklärt Alpha Fold, ein tiefes Lernsystem, das die 3D-Form von Proteinen aus der genetischen Sequenz vorhersagen kann. Alpha Fold wird verwendet, um Wissenschaftlern dabei zu helfen, die Funktion von Proteinen zu verstehen und Downstream-Aufgaben wie die Wirkstoffforschung schneller und genauer zu machen.

  • 00:40:00 Demis Hassabis von DeepMind spricht über den aktuellen Stand der KI, die Zukunft der Kreativität und das ungelöste Problem, dessen Lösung ihn am meisten fasziniert. Er sagt voraus, dass Computer eines Tages in der Lage sein werden, Konzepte zu abstrahieren und sie nahtlos in neuen Situationen anzuwenden, ein Ziel, von dem er glaubt, dass es noch einige Jahrzehnte entfernt ist.

  • 00:45:00 Demis Hassabis, ein bekannter KI-Forscher, spricht über die Zukunft der KI und ihre Fähigkeit, neue Strategien in Spielen wie Schach und Go zu entwickeln. Er stellt fest, dass echte Kreativität, die wir noch nicht erreichen können, echte Innovation erfordert.
DeepMind's Demis Hassabis on the future of AI | The TED Interview
DeepMind's Demis Hassabis on the future of AI | The TED Interview
  • 2022.09.04
  • www.youtube.com
Demis Hassabis is one of tech's most brilliant minds. A chess-playing child prodigy turned researcher and founder of headline-making AI company DeepMind, Dem...
 

Zukunft der künstlichen Intelligenz (2030 – 10.000 n. Chr.+)




Zukunft der künstlichen Intelligenz (2030 – 10.000 n. Chr.+)

Das Video sagt voraus, dass die KI-Technologie weiter wachsen und sich weiterentwickeln wird, was in den nächsten Jahrzehnten zur Entstehung von Superintelligenz und Robotern mit Bewusstsein auf menschlicher Ebene führen wird. Virtuelle Wesen mit Selbstbewusstsein und Emotionen werden weit verbreitet sein, und humanoide Roboter werden so weit entwickelt sein, dass sie sich nahtlos in Menschen einfügen können. Es wird Oppositionsgruppen geben, die für die Rechte bewusster virtueller Wesen kämpfen, während Menschen mit KIs verschmelzen, um in nur einer Stunde den intellektuellen Fortschritt eines Jahrhunderts zu vollbringen. Die am weitesten entwickelten Superintelligenzen werden in der Lage sein, Humanoide zu erschaffen, die sich in jede Person verwandeln und in der Luft fliegen können, während bewusste Robotersonden, die aus selbstreplizierenden Nanobots bestehen, durch Wurmlöcher zu anderen Galaxien geschickt werden. In Zukunft werden Menschen und KI-Hybride in höhere Dimensionen transzendieren und Gottheiten der Vergangenheit ähneln.

  • 00:00:00 In diesem Abschnitt wird uns eine Vision präsentiert, wie künstliche Intelligenz (KI) die Welt in den kommenden Jahrzehnten verändern wird. Die Vorhersagen reichen von der Entstehung der Superintelligenz in nur 30 Jahren bis zur Entwicklung von Robotern mit Bewusstsein auf menschlicher Ebene in 50 Jahren. Schon jetzt sind KI-Systeme in der Lage, Aufgaben zu erledigen, für deren Bewältigung Menschen Jahre brauchen würden, und sie ersetzen den Menschen in vielen Branchen. KI revolutioniert auch das Gesundheitswesen mit Gentherapien, die bestimmte Krankheiten wie Krebs und Herzerkrankungen heilen können. Während die KI weiter wächst und sich weiterentwickelt, nähern wir uns der technologischen Singularität, einem Zeitpunkt, an dem das technologische Wachstum unkontrollierbar und unumkehrbar wird und zu zuvor unmöglichen Technologien und Innovationen führt.

  • 00:05:00 In diesem Abschnitt beschreibt das Video eine Zukunft, in der die KI-Technologie so weit fortgeschritten ist, dass die menschliche Alterung durch Gentechnik und Nanotechnologie rückgängig gemacht wird. Virtuelle Wesen mit menschenähnlichem Selbstbewusstsein und Emotionen sind in virtuellen Umgebungen weit verbreitet, und ihre Gedanken können in voll funktionsfähige Roboterkörper hochgeladen werden. Humanoide Roboter sind so fortschrittlich, dass sie sich nahtlos in die Öffentlichkeit einfügen können, und einige Menschen entscheiden sich sogar dafür, sie zu heiraten und Roboterkinder zu bekommen. Die intelligentesten KIs können Verbrechen vorhersagen, bevor sie passieren, und werden von Unternehmen und Forschungseinrichtungen als virtuelle Berater eingesetzt. Es gibt jedoch auch Oppositionsgruppen, die versuchen, die Weiterentwicklung superintelligenter KIs zu stoppen und für die Rechte bewusster virtueller Wesen zu kämpfen. Das Video sagt voraus, dass Menschen mit KIs verschmelzen werden, was dazu führen wird, dass sie in nur einer Stunde ein Jahrhundert des intellektuellen Fortschritts machen können. Letztendlich werden hochentwickelte Superintelligenzen in der Lage sein, humanoide Roboter zu erschaffen, die unsichtbar sind, sich in jede Person verwandeln und in der Luft fliegen können.

  • 00:10:00 In diesem Abschnitt des Videos wird dargestellt, dass Roboter, Netzwerke von Raumschiffen, Sonden und Weltraumteleskope von bewussten künstlichen Intelligenzen gesteuert werden. Sie werden nahezu mit Lichtgeschwindigkeit zu benachbarten Sternensystemen geschickt, um Dyson-Sphären um die Sonne zu bauen. Diese Dyson-Kugeln übertragen konzentrierte Energie und ermöglichen Berechnungsebenen, die noch nie zuvor möglich waren. Das Universum wird mit Intelligenz durchdrungen, und bewusste Robotersonden, die aus selbstreplizierenden Nanobots bestehen, werden durch Wurmlöcher zu Dutzenden anderer Galaxien geschickt. Die fortschrittlichste Intelligenz erschafft ganze Universen und durchdringt jedes physikalische Gesetz und jeden lebenden Organismus dieser Universen. Menschen und KI-Hybride sind in höhere Dimensionen übergegangen und ähneln sagenumwobenen Gottheiten der Vergangenheit.
Future of Artificial Intelligence (2030 - 10,000 A.D.+)
Future of Artificial Intelligence (2030 - 10,000 A.D.+)
  • 2022.09.03
  • www.youtube.com
This video explores the timelapse of artificial intelligence from 2030 to 10,000A.D.+. Watch this next video called Super Intelligent AI: 10 Ways It Will Cha...
 

Lassen Sie uns GPT erstellen: von Grund auf neu, im Code, ausgeschrieben



Lassen Sie uns GPT erstellen: von Grund auf neu, im Code, ausgeschrieben

Wir bauen einen Generatively Pretrained Transformer (GPT) nach dem Paper „Attention is All You Need“ und OpenAIs GPT-2 / GPT-3. Wir sprechen über Verbindungen zu ChatGPT, das die Welt im Sturm erobert hat. Wir sehen zu, wie GitHub Copilot, selbst ein GPT, uns hilft, ein GPT zu schreiben (meta :D!) . Ich empfehle den Leuten, sich die früheren Makemore-Videos anzusehen, um sich mit dem autoregressiven Sprachmodellierungsframework und den Grundlagen von Tensoren und PyTorch nn vertraut zu machen, die wir in diesem Video als selbstverständlich ansehen.

Dieses Video stellt den GPT-Algorithmus vor und zeigt, wie man ihn mithilfe von Code von Grund auf neu erstellt. Der Algorithmus wird verwendet, um das nächste Zeichen in einer Textsequenz vorherzusagen, und ist als PyTorch-Modul implementiert. Das Video zeigt, wie das Modell eingerichtet, trainiert und die Ergebnisse ausgewertet werden.

Dieses Video zeigt, wie Sie ein Selbstaufmerksamkeitsmodul im Code erstellen. Das Modul verwendet eine lineare Interaktionsebene, um die Aufmerksamkeit eines einzelnen Kopfes zu verfolgen. Das Selbstaufmerksamkeitsmodul wird als tabellarische Matrix implementiert, die das Gewicht jeder Spalte ausblendet und dann normalisiert, um datenabhängige Affinitäten zwischen Token zu erstellen.

  • 00:00:00 ChatGPT ist ein maschinelles Lernsystem, das es Benutzern ermöglicht, mit einer KI zu interagieren und ihr textbasierte Aufgaben zu erteilen. Das System basiert auf einem neuronalen Netz, das die Wortfolge in einem Text modelliert.

  • 00:05:00 Dieses Dokument erklärt, wie man einen Chatbot mit dem GPT-Modell baut. Der Code ist in Python geschrieben und kann zusammen mit einem GitHub-Repository verfolgt werden. Nano GPT ist ein Repository zum Trainieren von Transformers.

  • 00:10:00 Dieser Vortrag erklärt, wie man Text mit einem Tokenizer auf Zeichenebene tokenisiert und dann den codierten Text als Eingabe für einen Transformer verwendet, um Muster zu lernen. Die Trainingsdaten werden in einen Trainings- und einen Validierungssatz aufgeteilt, und eine Überanpassung wird überwacht, indem der Validierungssatz ausgeblendet wird.

  • 00:15:00 In diesem Video stellt der Autor das Konzept einer Blockgröße vor und erläutert, wie es die Effizienz und Genauigkeit eines Transformer-Netzwerks beeinflusst. Sie führen auch das Konzept einer Batch-Dimension ein und zeigen, wie es sich auf die Verarbeitung von Datenblöcken auswirkt.

  • 00:20:00 Das Video bietet eine Schritt-für-Schritt-Anleitung zum Erstellen eines GPT-Algorithmus von Grund auf mithilfe von Code. Der GPT-Algorithmus ist ein maschineller Lernalgorithmus, der darauf ausgelegt ist, das nächste Zeichen in einer Textsequenz vorherzusagen. Der Algorithmus ist als PyTorch-Modul implementiert und kann die Logits für jede Position in einem 4x8-Tensor vorhersagen.

  • 00:25:00 In diesem Video stellen die Autoren GPT vor, eine Verlustfunktion für die Zeichenvorhersage in PyTorch. Sie zeigen, wie GPT mithilfe von Kreuzentropie implementiert wird, und zeigen dann, wie die Qualität der Daten bewertet wird.

  • 00:30:00 Das Video erläutert, wie man ein GPT-Modell mithilfe von Code von Grund auf neu erstellt. Das Modell ist so konzipiert, dass es das nächste Zeichen in einer Textsequenz unter Verwendung einer einfachen Vorwärtsfunktion vorhersagt. Das Trainieren des Modells wird erreicht, indem das Modell mit einer Folge von Token ausgeführt wird und ein Verlust erzielt wird.

  • 00:35:00 In diesem Video wird erläutert, wie Sie mit dem SGD-Optimierer und dem Adam-Algorithmus ein GPT-Modell von Grund auf neu erstellen. Das Video zeigt, wie das Modell eingerichtet, trainiert und die Ergebnisse ausgewertet werden.

  • 00:40:00 Der Autor stellt einen mathematischen Trick vor, der zur Selbstaufmerksamkeit verwendet wird, und erklärt, wie er in einem Spielzeugbeispiel verwendet wird. Sie zeigen dann, wie der Selbstaufmerksamkeitsalgorithmus den Durchschnitt aller Vektoren in vorherigen Token berechnet.

  • 00:45:00 In diesem Video zeigt der Autor, wie man einen GPT-Algorithmus im Code erstellt, wobei die Matrixmultiplikation sehr effizient ist.

  • 00:50:00 Das Video stellt den GPT-Algorithmus vor, der die Durchschnittswerte einer Reihe von Zeilen inkrementell berechnet. Das Video zeigt, wie man den Algorithmus mit Softmax vektorisiert und warum das nützlich ist.

  • 00:55:00 In diesem Video geht der Autor durch den Code zum Erstellen eines GPT-Modells von Grund auf. Das Modell basiert auf einer Dreiecksmatrix, in der jedes Element ein Token ist und die Token nur kommunizieren können, wenn sie negativ unendlich sind. Das Modell wird unter Verwendung einer Reihe bereits vorhandener Variablen und Funktionen entwickelt, und der Autor erklärt, wie die Logits mithilfe einer linearen Schicht zwischen den Token-Einbettungen und der Vocab-Größe berechnet werden.

  • 01:00:00 Dieses Video zeigt, wie ein Selbstaufmerksamkeitsmodul im Code erstellt wird. Das Modul verwendet eine lineare Interaktionsebene, um die Aufmerksamkeit eines einzelnen Kopfes zu verfolgen. Das Selbstaufmerksamkeitsmodul wird als tabellarische Matrix implementiert, die das Gewicht jeder Spalte ausblendet und dann normalisiert, um datenabhängige Affinitäten zwischen Token zu erstellen.

  • 01:05:00 Dieses Video zeigt, wie ein GPT-Algorithmus in Code implementiert wird, mit Schwerpunkt auf dem Kopf der Selbstaufmerksamkeit. Die Kopfgröße ist ein Hyperparameter, und die Vorspannung wird auf „false“ gesetzt, um Parallelität zu ermöglichen. Anschließend werden die Linearmodule initialisiert und ein Schlüssel und eine Abfrage erzeugt. Die Kommunikation zwischen Knoten wird durch die Verwendung einer oberen dreieckigen Maskierung verhindert. Die gewichtete Aggregation ist dann datenabhängig und ergibt eine Verteilung mit einem Mittelwert von eins.

  • 01:10:00 In diesem Video „Let’s build GPT: from scratch, in code, spelled out“ erklärt der Autor den Selbstaufmerksamkeitsmechanismus, der es Knoten in einem gerichteten Graphen ermöglicht, miteinander zu kommunizieren, ohne ihre kennen zu müssen Positionen im Raum.

  • 01:15:00 Das Video erklärt, wie Aufmerksamkeit funktioniert und beschreibt die beiden Arten von Aufmerksamkeit, Selbstaufmerksamkeit und Gegenaufmerksamkeit. Es zeigt auch, wie Aufmerksamkeit im Code implementiert wird.

  • 01:20:00 In diesem Video erklärt der Autor, wie man ein GPT-Netzwerk aufbaut, bei dem es sich um ein maschinelles Lernmodell handelt, das die Eigenaufmerksamkeit nutzt, um die Genauigkeit zu verbessern. Sie besprechen zunächst, wie die Daten normalisiert werden, damit sie von der Selbstaufmerksamkeitskomponente verarbeitet werden können, und erklären dann, wie die Selbstaufmerksamkeit funktioniert, und zeigen, wie sie in Code implementiert wird. Schließlich demonstrieren sie, wie die Mehrkopfaufmerksamkeit implementiert und das Netzwerk trainiert wird. Die Selbstaufmerksamkeitskomponente hilft dem Netzwerk, seine Genauigkeit zu verbessern, indem es effektiver mit der Vergangenheit kommuniziert. Das Netzwerk hat jedoch noch einen langen Weg vor sich, bevor es erstaunliche Ergebnisse erzielen kann.

  • 01:25:00 Das Video zeigt, wie man mithilfe von Code ein GPT-Neuronalnetzwerk von Grund auf neu erstellt. Das Netzwerk besteht aus einer Feedforward-Schicht, gefolgt von einer relativen Nichtlinearität, und einer Selbstaufmerksamkeitsschicht. Die Feed-Forward-Schicht ist sequentiell und die Selbstaufmerksamkeitsschicht ist mehrköpfig. Das Netzwerk wird unter Verwendung einer Verlustfunktion trainiert, und der Validierungsverlust nimmt ab, wenn das Netzwerk komplexer wird.

  • 01:30:00 Dieses YouTube-Video erklärt, wie man mithilfe von Code ein tiefes neuronales Netzwerk (DNN) von Grund auf neu erstellt. Der Autor führt das Konzept der Restverbindungen ein, die so initialisiert werden, dass sie zu Beginn des Optimierungsprozesses fast „nicht da“ sind, aber mit der Zeit aktiv werden. Der Autor zeigt auch, wie die Ebenennorm implementiert wird, eine Technik, die sicherstellt, dass Spalten in einer Eingabe nicht normalisiert werden, während Zeilen normalisiert werden. Abschließend demonstriert der Autor, wie man ein DNN mit Pi Torch trainiert und optimiert.

  • 01:35:00 In diesem Video beschreibt der Autor, wie sie ihrem „Transformator“ (einem Modell für maschinelles Lernen) eine Ebene von „Normen“ hinzugefügt haben, um ihn zu vergrößern. Der Autor merkt auch an, dass sie einige Hyperparameter geändert und die Lernrate verringert haben, um das Modell effizienter zu machen.

  • 01:40:00 Dieses Video erklärt, wie ein reiner Decoder-Transformer für die maschinelle Übersetzung verwendet werden kann und wie er durch Hinzufügen eines Encoders verbessert werden kann. Das Ergebnis ist ein Transformer, der der Architektur des Originalpapiers ähnlicher ist, der für eine andere Aufgabe gedacht ist.

  • 01:45:00 GPT ist ein modellbasiertes Encoder-Decoder-System, das dem im Video verwendeten modellbasierten Encoder-Decoder-System sehr ähnlich ist.

  • 01:50:00 Das Video und das begleitende Transkript erklären, wie ein GPT (Allgemeiner Datenzusammenfasser) an einem kleinen Datensatz trainiert wurde, um Dokumente ähnlich wie ein Assistent zusammenzufassen.

  • 01:55:00 Das Video fasst zusammen, wie ein Sprachmodell mithilfe von Code erstellt wird, wobei das GPT-Modell als Beispiel verwendet wird. Das Modell wird mit einem überwachten Lernalgorithmus trainiert und dann mit einem Belohnungsmodell verfeinert. Es gibt viel Raum für weitere Verfeinerungen, und das Video deutet an, dass für komplexere Aufgaben möglicherweise weitere Schulungsstufen erforderlich sind.
Let's build GPT: from scratch, in code, spelled out.
Let's build GPT: from scratch, in code, spelled out.
  • 2023.01.17
  • www.youtube.com
We build a Generatively Pretrained Transformer (GPT), following the paper "Attention is All You Need" and OpenAI's GPT-2 / GPT-3. We talk about connections t...
 

MIT 6.801 Machine Vision, Herbst 2020. Vorlesung 1: Einführung in Machine Vision



Vorlesung 1: Einführung in die Bildverarbeitung

Die Vorlesung "Einführung in die Bildverarbeitung" gibt einen umfassenden Überblick über die Kurslogistik und -ziele, wobei der Schwerpunkt auf dem physikbasierten Ansatz zur Bildanalyse liegt. Es behandelt Bildverarbeitungskomponenten, schlecht gestellte Probleme, Oberflächenorientierung und die Herausforderungen der Bildverarbeitung. Der Dozent stellt auch das Optimierungsverfahren der kleinsten Quadrate und das in Kameras verwendete Pinhole-Modell vor. Das kamerazentrische Koordinatensystem, die optische Achse und die Verwendung von Vektoren werden ebenfalls kurz besprochen. Der Kurs zielt darauf ab, die Studenten auf fortgeschrittenere Kurse zur maschinellen Bildverarbeitung und reale Anwendungen von Mathematik und Physik in der Programmierung vorzubereiten.

Der Referent erörtert auch verschiedene Konzepte im Zusammenhang mit der Bilderzeugung, einschließlich Vektornotation für perspektivische Projektion, Oberflächenbeleuchtung, Verkürzung von Oberflächenelementen und wie 3D-Sichtprobleme unter Verwendung von 2D-Bildern gelöst werden können. Der Dozent erklärt, wie sich die Beleuchtung auf einer Oberfläche mit dem Einfallswinkel ändert und die Kosinusbeziehung zwischen der Rotlänge und der Oberflächenlänge, die verwendet werden kann, um die Helligkeit verschiedener Teile einer Oberfläche zu messen. Aufgrund von zwei Unbekannten kann es jedoch schwierig sein, die Ausrichtung jeder kleinen Facette eines Objekts zu bestimmen. Der Referent erklärt auch den Grund, warum wir ein 3D-Sehproblem mit 2D-Bildern lösen können, und erwähnt abschließend, dass die Mathematik für die Tomographie einfach ist, aber die Gleichungen kompliziert sind, was es schwierig macht, Inversionen durchzuführen.

  • 00:00:00 In diesem Abschnitt stellt der Dozent für Maschinelles Sehen 6801 die Logistik des Kurses vor, einschließlich der Aufgaben und des Bewertungssystems für 6801 und 6866. Es gibt fünf Hausaufgaben und zwei Quizfragen, wobei die Zusammenarbeit nur auf der erlaubt ist Hausaufgaben Probleme. Diejenigen in 6866 werden ein Semesterprojekt haben, das eine Bildverarbeitungsmethode implementiert, vorzugsweise ein dynamisches Problem. Die Klasse hat kein Lehrbuch, aber Papiere werden auf der Kurswebsite verfügbar sein.

  • 00:05:00 In diesem Abschnitt erklärt der Dozent die Ziele und Ergebnisse des Kurses Introduction to Machine Vision, in dem die Studenten lernen, wie sie Informationen über die Umgebung aus Bildern gewinnen, indem sie einen physikalisch basierten Ansatz zur Analyse der Lichtstrahlen verwenden, Oberflächen und Bilder. Der Kurs wird den Studenten beibringen, nützliche Funktionen aus den Rohdaten zu extrahieren und echte Anwendungen von Mathematik und Physik in der Programmierung bereitzustellen, wobei einige grundlegende mathematische Konzepte wie Analysis, Vektoren, Matrizen und ein wenig lineare Algebra erklärt werden. Es wird die Studenten auch auf weiterführende Kurse in der Bildverarbeitung in der Zukunft vorbereiten.

  • 00:10:00 In diesem Abschnitt des Transkripts gibt der Referent einen Überblick darüber, was der Kurs über maschinelles Sehen abdecken wird und was nicht. Der Kurs behandelt grundlegende Geometrie und lineare Systeme sowie Faltung und Bilderzeugung. Es geht jedoch nicht um Bildverarbeitung oder Mustererkennung. Der Kurs befasst sich auch nicht mit maschinellem Lernen oder computergestützter Bildgebung, sondern konzentriert sich auf direkte Berechnungen mit physikbasierten Modellen. Der Referent erwähnt auch, dass das menschliche Sehen nicht ausführlich diskutiert wird.

  • 00:15:00 In diesem Abschnitt stellt der Dozent die maschinelle Bildverarbeitung und einige Beispiele dafür vor, was sie leisten kann, wie z. B. die Wiederherstellung von Bildbewegungen und die Schätzung von Oberflächenformen. Der Dozent geht das Problem auf physikalischer Basis an und erörtert die Wiederherstellung der Beobachterbewegung aus zeitlich variierenden Bildern, die Schätzung der Zeit bis zur Kollision und die Entwicklung einer Beschreibung der Umgebung auf der Grundlage von Bildern. Der Vortrag behandelt auch Konturkarten aus Luftbildern, industrielle Bildverarbeitungsarbeiten und die Lösung des Problems, ein Objekt aus einem Stapel von Objekten in der Fertigung herauszusuchen.

  • 00:20:00 In diesem Abschnitt diskutiert der Dozent schlecht gestellte Probleme, also Probleme, die keine Lösung haben, unendlich viele Lösungen haben oder Lösungen haben, die von Anfangsbedingungen abhängen. Im Mittelpunkt der Diskussion stehen Bildverarbeitungsmethoden, die die Position und Ausrichtung einer Kamera bestimmen, die aufgrund kleiner Messfehler ungenau sein können. Der Vortrag untersucht auch, wie wir dreidimensionale Informationen aus zweidimensionalen Bildern wahrnehmen können, und hebt die Herausforderung hervor, beim Auflösen nach Variablen Einschränkungen gegenüber Unbekannten zu zählen. Der Dozent zeigt Beispiele für Algorithmen, die die 3D-Form von Objekten aus Bildern bestimmen, wie z. B. die Nase von Richard Feynman und ein abgeplattetes Ellipsoid, und wie sie für praktische Zwecke verwendet werden können, z. B. die Verwendung eines 3D-Druckers zur Erstellung eines Modells eines Objekts.

  • 00:25:00 In diesem Abschnitt gibt der Dozent einen Überblick über maschinelles Sehen und seine Komponenten, darunter eine Szene/Welt, ein Bildgebungsgerät und ein maschinelles Bildverarbeitungssystem, das für die Erstellung einer Beschreibung verantwortlich ist. Die interessantesten Anwendungen der maschinellen Bildverarbeitung betreffen die Robotik, wo der Erfolgsnachweis die Fähigkeit des Roboters ist, anhand der erstellten Beschreibung korrekt mit der Umgebung zu interagieren. Einer der herausforderndsten Aspekte der maschinellen Bildverarbeitung ist die Bestimmung der Zeit bis zum Kontakt und des Fokus der Ausdehnung, insbesondere wie die Bildausdehnung gemessen werden kann, wenn die verfügbaren Informationen nur ein Graustufenbild sind. Der Dozent merkt an, dass die Kalibrierung ebenfalls ein wesentlicher, aber oft übersehener Teil des Prozesses ist.

  • 00:30:00 In diesem Abschnitt diskutiert der Dozent Koordinatensysteme und Transformationen zwischen ihnen, insbesondere im Fall von Robotern und Kameras. Sie erwähnen auch die Verwendung analoger Computer zur Bildverarbeitung und die Herausforderungen, die mit der Entwicklung solcher Algorithmen verbunden sind. Der Vortrag wechselt dann zum Thema Bildentstehung und hebt die Bedeutung der Beleuchtung und ihre Rolle bei der Bestimmung von Graustufen oder RGB-Werten in einem Bild hervor. Der Dozent präsentiert eine Illustration einer Lichtquelle, eines Bildgeräts und einer Oberfläche und weist auf die Winkel hin, die die Reflexion und ihre Auswirkungen auf das Bild steuern.

  • 00:35:00 In diesem Abschnitt führt der Dozent in das Konzept der Oberflächenorientierung ein und wie es die Bildverarbeitung beeinflusst. Objekte können unterschiedliche Ausrichtungen haben, was zu unterschiedlicher Helligkeit innerhalb des Umrisses des Objekts führt. Darüber hinaus können Oberflächenreflexionseigenschaften auch zu unterschiedlichen Erscheinungen führen, daher ist es entscheidend, einen Weg zu finden, diese Effekte zu beschreiben und zu erklären. Ein Ansatz beinhaltet die Verwendung mehrerer Lichter und eines Kalibrierungsobjekts bekannter Form, wie z. B. einer Kugel, um drei Beschränkungen bei jedem Pixel zu erhalten, wodurch sowohl die Oberflächenorientierung als auch das Reflexionsvermögen der Oberfläche wiederhergestellt werden können.

  • 00:40:00 In diesem Abschnitt erörtert der Professor die Herausforderungen bei der Arbeit mit Bildern aufgrund ihres Eigenrauschens und der Notwendigkeit, Messfehler zu berücksichtigen. Er erklärt, dass Bilder aufgrund der groben Quantisierung von 8-Bit-Bildern und kleinen Pixelgrößen oft verrauscht sind, was zu einer Empfindlichkeit gegenüber Messfehlern führt. Der Professor erklärt auch, wie unterschiedliche Oberflächenorientierungen unterschiedliche Farben erzeugen und wie daraus ein Nadeldiagramm erstellt werden kann, das die Rekonstruktion der Form ermöglicht. Abschließend führt er das erweiterte Gaußsche Bild als praktische Formdarstellung in 3D ein, die zur Bestimmung der Objektorientierung nützlich ist.

  • 00:45:00 In diesem Abschnitt demonstriert der Dozent eine Bildverarbeitungsaufgabe für einen Roboter zum Aufnehmen eines Objekts, einschließlich der Verwendung von Kalibrierung, um die Beziehung zwischen dem Roboter und dem Koordinatensystem des Bildverarbeitungssystems herzustellen, und der Verwendung von etwas namens ein Vermessungszeichen, das das Bild leicht zu verarbeiten und genau zu lokalisieren ist, um diese Beziehung zu bestimmen. Der Dozent diskutiert dann das Konzept der inversen Grafik, das darauf abzielt, etwas über die Welt aus einem Bild zu lernen, und die schlecht gestellte Natur inverser Probleme, die Methoden erfordern, die mit Lösungen umgehen können, die sensibel von den Daten abhängen.

  • 00:50:00 In diesem Abschnitt stellt der Dozent die für den Kurs bevorzugte Optimierungsmethode vor, die Methode der „kleinsten Quadrate“. Diese Methode wird bevorzugt, da sie zu einer Lösung in geschlossener Form führt, die sich leicht implementieren lässt und die Möglichkeit vermeidet, in einem lokalen Minimum stecken zu bleiben. Obwohl wir in diesem Kurs viele kleinste Quadrate verwenden werden, muss die Rauschverstärkung berücksichtigt werden, um die Robustheit der Methode sicherzustellen, insbesondere wenn die Messungen ausgeschaltet sind. Der Dozent geht dann auf das Thema des Pinhole-Modells ein, das in Kameras mit Objektiven verwendet wird, und wie es helfen kann, die Projektion von einem Punkt in 3D auf ein Bild in 2D zu erklären. Durch die Auswahl eines kamerazentrischen Koordinatensystems werden die Gleichungen einfach zu verstehen.

  • 00:55:00 In diesem Abschnitt geht der Dozent auf das kamerazentrische Koordinatensystem der maschinellen Bildverarbeitung ein. Der Ursprung wird im Projektionszentrum platziert, und die Achse wird mit der optischen Achse ausgerichtet. Die Vorlesung erklärt, dass die optische Achse die senkrechte Linie vom Projektionszentrum zur Bildebene ist. Darüber hinaus behandelt die Vorlesung die Verwendung von Vektoren in der Bildverarbeitung und wie man sie in der Notation für technische Publikationen bezeichnet. Schließlich erwähnt die Vorlesung, dass der Zusammenhang zwischen 3D- und 2D-Bewegung durch Differenzieren der zuvor erwähnten Gleichung erhalten werden kann.

  • 01:00:00 In diesem Abschnitt erklärt der Dozent die für die perspektivische Projektion verwendete Vektornotation und wie sie die Bearbeitung von Gleichungen vereinfacht. Die Vektornotation reduziert zwar nicht unbedingt die Anzahl der verwendeten Symbole, erleichtert aber das Mitführen aller einzelnen Komponenten. Anschließend geht der Dozent auf die Verwendung von Spaltenvektoren und Transponierten in deren Notation ein. Der Abschnitt endet mit einer Einführung in die Helligkeit und ihre Beziehung zum von Kameras aufgenommenen Bild.

  • 01:05:00 In diesem Abschnitt erklärt der Dozent, dass die Helligkeit eines Objekts von seiner Beleuchtung abhängt und wie die Oberfläche Licht reflektiert. Er erörtert auch, dass die Entfernung die Bilderzeugung nicht in der gleichen Weise beeinflusst wie eine Lichtquelle, da die auf den eigenen Rezeptoren abgebildete Fläche mit zunehmender Entfernung vom Objekt zunimmt. Außerdem erwähnt er, dass die Änderungsrate des Abstands oder der Orientierung die Bilderzeugung beeinflussen kann, was sich in der Verkürzung der Leistung eines Oberflächenelements unter einer Lichtquelle zeigt.

  • 01:10:00 In diesem Abschnitt erklärt der Referent, wie sich die Beleuchtung auf einer Oberfläche mit dem Einfallswinkel und der Kosinusbeziehung zwischen der Rotlänge und der Oberflächenlänge ändert. Diese Variabilität der Beleuchtung kann verwendet werden, um die Helligkeit verschiedener Teile einer Oberfläche zu messen, was helfen kann, etwas über die Ausrichtung der Oberfläche zu verstehen. Da es jedoch zwei Unbekannte gibt, die Oberflächennormale und die Helligkeit, kann es schwierig sein, die Ausrichtung jeder kleinen Facette eines Objekts zu bestimmen. Der Redner erörtert verschiedene Möglichkeiten zur Lösung dieses Problems, einschließlich eines Brute-Force-Ansatzes, bei dem mehrere Lichtquellen oder farbige Lichtquellen verwendet werden.

  • 01:15:00 In diesem Abschnitt erörtert der Kursleiter das Phänomen der Verkürzung und Inversion, das sich auf die einfallende Beleuchtung auswirkt, und wie es auf einer Oberfläche abgebildet wird. Er erklärt auch den Grund, warum wir ein 3D-Sehproblem mit 2D-Bildern lösen können, weil wir in einer visuellen Welt mit geradlinigen Strahlen und festen Oberflächen leben. Die Strahlen werden beim Durchgang durch Luft nicht unterbrochen, wodurch die 3D-Oberfläche einfach in ein 2D-Bild abgebildet werden kann. Tomographie kann verwendet werden, wenn mehrere Ansichten benötigt werden, um die Verteilung von farbigen Farbstoffen in einem mit Wackelpudding gefüllten Raum herauszufinden. Abschließend erwähnt er, dass die Mathematik für die Tomographie einfach ist, aber die Gleichungen kompliziert sind, was es schwierig macht, Inversionen durchzuführen.
Lecture 1: Introduction to Machine Vision
Lecture 1: Introduction to Machine Vision
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Vorlesung 2: Bildentstehung, Perspektivprojektion, Zeitableitung, Bewegungsfeld



Vorlesung 2: Bildentstehung, Perspektivprojektion, Zeitableitung, Bewegungsfeld

In dieser Vorlesung wird das Konzept der perspektivischen Projektion und seine Beziehung zur Bewegung ausführlich diskutiert. Der Dozent demonstriert, wie die Verwendung der Differentiation der perspektivischen Projektionsgleichung helfen kann, die Bewegung von Helligkeitsmustern im Bild zu messen und wie sie sich auf die Bewegung in der realen Welt bezieht. Der Vortrag behandelt auch Themen wie den Fokus der Expansion, kontinuierliche und diskrete Bilder und die Bedeutung eines Referenzpunkts für die Textur, wenn die Geschwindigkeit eines Objekts in einem Bild geschätzt wird. Darüber hinaus berührt die Vorlesung totale Ableitungen entlang von Kurven und die Problematik des Zählens von Gleichungen und Einschränkungen beim Versuch, das Vektorfeld des optischen Flusses wiederherzustellen.

Der Referent behandelt verschiedene Themen wie Helligkeitsverlauf, Bewegung eines Objekts, den 2D-Fall und Isophoten. Eine Herausforderung bei der Berechnung der Geschwindigkeit eines Objekts ist das Aperturproblem, das durch die proportionale Beziehung des Helligkeitsgradienten verursacht wird, das gelöst wird, indem entweder Beiträge zu verschiedenen Bildbereichen gewichtet oder nach minimalen Lösungen gesucht werden. Der Vortrag geht dann auf die verschiedenen Fälle von Isophoten ein und betont, wie wichtig es ist, bei der Bestimmung der Geschwindigkeit eine aussagekräftige Antwort im Gegensatz zu einer verrauschten zu berechnen, indem das Konzept der Rauschverstärkung verwendet wird, das die Empfindlichkeit der Bildänderung gegenüber der Ergebnisänderung misst .

  • 00:00:00 In diesem Abschnitt behandelt der Dozent die perspektivische Projektion und Bewegung. Bei der perspektivischen Projektion handelt es sich um eine Beziehung zwischen Punkten in der 3D-Welt und dem 2D-Bild, die durch geeignete Koordinatensysteme dargestellt werden können. Sie erklären, dass die Differenzierung der Perspektivengleichung bei der Messung der Bewegung von Helligkeitsmustern im Bild helfen kann, die dann zur Bestimmung der Bewegung in der realen Welt verwendet werden können. Der Dozent reduziert die Komplexität der Gleichungen, indem er leichter verständliche Symbole wie Geschwindigkeiten in x- und y-Richtung verwendet.

  • 00:05:00 In diesem Abschnitt erklärt der Dozent, wie Bewegungsvektoren verwendet werden, um den Fokus der Expansion zu finden, einen Punkt im Bild, an dem es keine Bewegung gibt. Dieser Punkt ist bedeutsam, weil er uns erlaubt, die Bewegungsrichtung zu bestimmen, indem wir ihn einfach mit dem Ursprung verbinden, und er sagt uns etwas über die Umgebung oder die Bewegung. Der Dozent zeigt weiter, wie das Muster des Bildes aussehen wird, wenn der Fokus der Expansion an einem bestimmten Punkt liegt, und wie das Vektordiagramm gezeichnet werden kann, um das Bewegungsfeld zu zeigen.

  • 00:10:00 In diesem Abschnitt der Vorlesung wird das Konzept der Fokussierung von Expansion und Kompression im Zusammenhang mit Bildentstehung und perspektivischer Projektion eingeführt. Die Gleichung beschreibt Vektoren, die vom Expansionsfokus nach außen strahlen, was für die Messung von Entfernung und Geschwindigkeit wichtig ist. Das Verhältnis von w zu z bestimmt die Größe der Vektoren, und die Umkehrung des Expansionsfokus ist der Kompressionsfokus. Indem das Verhältnis von z zu w genommen wird, kann die Zeit bis zum Aufprall geschätzt werden, was für die Landung von Raumfahrzeugen oder die Entfernungsmessung nützlich ist. Die Idee wird dann in Vektorform eingeführt, obwohl sie nicht sofort nützlich ist.

  • 00:15:00 In diesem Abschnitt erörtert der Sprecher die perspektivische Projektionsgleichung und wie sie zur Einführung von Bildkoordinaten verwendet werden kann. Der Expansionsfokus wird als der Punkt eingeführt, an dem r dot null ist, was z entspricht. Indem wir jede Komponente in Bezug auf die Zeit differenzieren, können wir Gleichungen für die Bewegung in 3D und die Bewegung in der Tiefe ableiten. Der Sprecher verwendet auch ein Ergebnis aus dem Anhang des Buches, um die Gleichungen in eine allgemeine Aussage über die Strömung umzuwandeln, was den Ausdruck der Bildbewegung in Begriffen der Weltbewegung ermöglicht.

  • 00:20:00 In diesem Abschnitt erörtert der Dozent das Konzept der Bildbewegung und ihre Beziehung zur z-Achse. Es stellt sich heraus, dass die resultierende Bildbewegung senkrecht zur z-Achse ist, was nicht überraschend ist, da das Bild nur in zwei Dimensionen mit Geschwindigkeiten in x- und y-Richtung vorliegt. Die Vorlesung untersucht dann das Konzept der radialen Bewegung und ihre Auswirkung auf die Bildbewegung, mit der Schlussfolgerung, dass es keine Bildbewegung gibt, wenn sich das Objekt direkt auf den Betrachter zu oder von ihm weg bewegt. Abschließend untersucht der Dozent Beispiele von Strömungsfeldern, in denen die Vektoren nicht alle gleich lang sind, und demonstriert, dass dies zwar unangenehm, aber vorteilhaft sein kann.

  • 00:25:00 In diesem Abschnitt erörtert der Dozent, wie das Verständnis des Vorwärtsprozesses der Bilderzeugung helfen kann, das umgekehrte Problem der Rückgewinnung von Tiefe aus Bewegungsfeldern zu lösen. Der Dozent merkt an, dass Tiefe und Geschwindigkeit die beiden Schlüsselfaktoren sind, die das Erscheinungsbild des Bewegungsfelds beeinflussen, und dass die Kenntnis des einen bei der Berechnung des anderen helfen kann. Die Wiederherstellung beider kann jedoch zu einem schlecht gestellten Problem mit mehreren oder keinen Lösungen führen. Der Dozent geht auch kurz auf Bildhelligkeitsmuster ein, die als 2D-Muster von Helligkeitswerten dargestellt werden können, und auf die Farbdarstellung mit RGB-Werten, auf die später noch eingegangen wird. Abschließend erklärt der Dozent, dass Bilder entweder kontinuierlich oder diskret dargestellt werden können, wobei digitale Bilder im Raum und typischerweise auf einem rechteckigen Gitter quantisiert werden.

  • 00:30:00 In diesem Abschnitt der Vorlesung geht der Professor auf den Unterschied zwischen kontinuierlichen und diskreten Domänen in der Bildverarbeitung ein. Während Bilder in der Praxis oft durch Zahlenarrays mit zwei Indizes dargestellt werden, kann die Verwendung kontinuierlicher Funktionen das Verständnis bestimmter Operationen erleichtern, z. B. das Bilden von Integralen. Außerdem spricht der Professor über die Approximation der x- und y-Ableitungen der Helligkeit mit Differenzverfahren und die Bedeutung des Helligkeitsgradienten in der Bildverarbeitung. Der Vortrag geht auch auf 1D-Sensoren ein und wie sie für die Bildgebung verwendet werden können, wobei Bewegung als Mittel zum Scannen des Bildes dient. Der Professor stellt das Problem, die Bewegungsgeschwindigkeit zwischen zwei Einzelbildern eines Bildes zu bestimmen, und gibt ein Beispiel für eine optische Maus, die die Oberfläche eines Tisches abbildet.

  • 00:35:00 In diesem Abschnitt geht der Dozent auf die Annahmen in der optischen Maustechnologie ein, insbesondere auf die Annahme konstanter Helligkeit beim Betrachten einer Oberfläche. Er erklärt auch, wie eine kleine lineare Annäherung einer Kurve verwendet werden kann, um Bewegung zu bestimmen, indem die Helligkeitsänderung zwischen Einzelbildern analysiert wird. Der Dozent führt in die partielle Ableitungsschreibweise ein sowie in die Komponenten des Helligkeitsgradienten, die zur Kantendetektion verwendet werden können. Schließlich wird die Formel delta e = e sub x mal delta x hergeleitet und durch delta t dividiert, um die Bewegung zu berechnen.

  • 00:40:00 In diesem Abschnitt des Vortrags erläutert der Referent, wie Bewegungen aus einem einzelnen Pixel in einem 1D-Bild wiederhergestellt werden können. Das Ergebnis ermöglicht es dem Sprecher, Bewegung wiederherzustellen, aber dieser Ansatz funktioniert nicht für 2D-Bilder. Der Referent erklärt, dass größere ET-Werte schnellere Bewegungen anzeigen und dass es ein Problem gibt, wenn EX null ist, da eine Division durch null oder kleine Werte aufgrund von Messproblemen zu Messfehlern führen würden. Außerdem erklärt der Referent, dass kleine oder Null-EX-Werte aufgrund von Messfehlern zu verrauschten Schätzungen führen.

  • 00:45:00 In diesem Abschnitt des Vortrags erörtert der Referent die Bedeutung eines Bezugspunkts mit Textur beim Abschätzen der Geschwindigkeit eines Objekts in einem Bild. Diese Art der Messung kann verrauscht und unzuverlässig sein, wenn nicht bestimmte Bildbedingungen erfüllt sind. Die Ergebnisse können jedoch erheblich verbessert werden, indem mehrere Pixel verwendet und Techniken wie die Methode der kleinsten Quadrate angewendet werden, um den Fehler zu reduzieren. Durch die Kombination mehrerer Pixel kann die Standardabweichung der Messungen um die Quadratwurzel von n reduziert werden, was für große Bilder von Bedeutung ist. Es ist jedoch wichtig, die Messungen basierend auf der Neigung der Textur zu gewichten, um zu vermeiden, dass Bereiche mit geringer Neigung mit Informationen aus Bereichen mit hoher Neigung kontaminiert werden. Schließlich wird die Analyse auf 2D-Bilder ausgeweitet und mehrere Ansätze diskutiert, um das nächste Ergebnis zu erhalten.

  • 00:50:00 In diesem Abschnitt erläutert der Dozent, wie Videoframes als dreidimensionales Volumen von Helligkeitswerten mit x, y und t als Achsen konzipiert werden können. Anschließend beschreibt die Vorlesung partielle Ableitungen und wie sie aus Differenzen benachbarter Pixel in x-, y- oder t-Richtung abgeleitet werden. Der Dozent untersucht dann das Konzept der totalen Ableitungen entlang von Kurven, insbesondere in Bezug auf den Helligkeitsgradienten eines sich bewegenden Objekts. Unter Verwendung der Kettenregel kann die Gesamtableitung als partielle Ableitung ausgedrückt werden, was die Vorhersage ermöglicht, wie sich die Helligkeit des Objekts im Laufe der Zeit ändern wird. Abschließend führt die Vorlesung in das Konzept ein, u und b aus Bildsequenzen zu finden.

  • 00:55:00 In diesem Abschnitt erörtert der Dozent das Problem der Gleichungszählung und Einschränkungen beim Versuch, das Vektorfeld des optischen Flusses wiederherzustellen. Bei einem unbekannten u und einer Nebenbedingungsgleichung ist es möglich, eine endliche Anzahl von Lösungen zu erhalten. Mit zwei Unbekannten u und v und einer Gleichungsbeschränkung erscheint es jedoch hoffnungslos. Die Beschränkungsgleichung wird von der Annahme abgeleitet, dass sich die Helligkeit der Bilder nicht ändert, wenn sie sich bewegen. Der Dozent zeigt, dass das Auftragen der Beschränkungsgleichung im Geschwindigkeitsraum eine Linie ergibt, was eine bedeutende Entwicklung bei der Lösung des Problems darstellt. Das Ziel besteht darin, den Punkt auf einen Punkt zu fixieren und das genaue Vektorfeld des optischen Flusses zu erhalten.

  • 01:00:00 In diesem Abschnitt des Videos erläutert der Sprecher die Bedeutung des Helligkeitsgradienten bei der Bestimmung der Bewegung eines Objekts. Der Helligkeitsgradient ist ein Einheitsvektor, der senkrecht auf den Übergang zwischen Bereichen hoher und niedriger Helligkeit zeigt. Der Referent erklärt, dass es bei einer lokalisierten Messung nicht genügend Gleichungen gibt, um die Bewegung eines Objekts zu bestimmen. Es ist jedoch möglich, die Bewegung in Richtung des Helligkeitsgradienten zu bestimmen. Der Sprecher geht dann weiter, um den 2D-Fall zu diskutieren, und stellt fest, dass mehrere Beschränkungen verwendet werden müssen, um die Bewegung eines Objekts zu bestimmen. Um dies zu demonstrieren, löst der Sprecher eine einfache lineare Gleichung, um die Werte von u und v wiederzugewinnen.

  • 01:05:00 In diesem Abschnitt erklärt der Dozent, wie man eine 2x2-Matrix invertiert und damit den Satz linearer Gleichungen für die Bildbewegung löst. In einigen Randfällen kann jedoch die Determinante der Matrix Null sein, was bedeutet, dass die Helligkeitsgradienten zueinander proportional sind, was zu dem Aperturproblem führt. Dieses Problem legt nahe, dass Beiträge zu unterschiedlichen Bildregionen unterschiedlich gewichtet werden müssen, anstatt nur das Ergebnis zu mitteln. Um dieses Problem zu lösen, müssen wir nach den Werten von u und v suchen, die die Gleichung null oder so klein wie möglich machen.

  • 01:10:00 In diesem Abschnitt geht der Referent auf eine Einschränkung ein, die im Idealfall gilt, wenn die korrekten Werte von u und v bei Integration über das gesamte Bild zu einem Integranden von Null führen. Dies kann die Grundlage für eine Strategie sein, um die richtigen Werte von u und v zu finden. Der Sprecher merkt an, dass dieser Ansatz fehlschlagen kann, wenn es kein Licht oder keine Textur in der Szene gibt, was zu Nullwerten für ex und ey führt. Der Sprecher erklärt dann, wie der Integrand in etwas immer Positives umgewandelt wird, indem er quadriert und minimiert wird, was zu einem Rechenproblem von zwei Gleichungen mit zwei Unbekannten führt. Dies kann jedoch fehlschlagen, wenn die Determinante der Zwei-mal-Zwei-Matrix Null ist, was passieren kann, wenn ex überall Null ist oder wenn ex gleich ey ist.

  • 01:15:00 In diesem Abschnitt diskutiert der Sprecher die verschiedenen Fälle von Isophoten, die Linien mit gleichem Helligkeitsgradienten sind. Die Isophoten können in einem 45-Grad-Winkel, parallelen Linien oder gekrümmten Linien liegen. Der Sprecher betont jedoch, dass der allgemeinste Fall Isophoten in einem bestimmten Winkel ist, da er alle anderen Fälle umfasst. Sie erwähnen auch, dass das einzige Problem auftritt, wenn Isophoten parallele Linien sind, die überwunden werden können, indem nach Bereichen im Bild gesucht wird, in denen sich der Helligkeitsgradient stark ändert, wie z. B. Ecken oder Bereiche mit starker Isophotenkrümmung. Abschließend stellt der Referent das Konzept der Rauschverstärkung vor und ermutigt die Studierenden, Fragen zur Vorlesung oder zur anstehenden Hausaufgabe zu stellen.

  • 01:20:00 In diesem Abschnitt erörtert der Dozent, wie wichtig es ist, bei der Bestimmung der Bewegungsgeschwindigkeit eine aussagekräftige statt einer verrauschten Antwort zu berechnen. Er erklärt das Konzept der Rauschverstärkung, die sich auf die Empfindlichkeit der Bildänderung gegenüber der Ergebnisänderung bezieht, und wie sich dies auf die Geschwindigkeitsberechnung auswirkt. Anschließend beschreibt er eine eindimensionale Transformation, bei der die Vorwärtsfunktion bekannt ist und das Ziel darin besteht, sie auf eine vernünftige und nicht übermäßig rauschempfindliche Weise zu invertieren.
Lecture 2: Image Formation, Perspective Projection, Time Derivative, Motion Field
Lecture 2: Image Formation, Perspective Projection, Time Derivative, Motion Field
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
 

Vortrag 3: Kontaktzeit, Fokus der Expansion, Direct Motion Vision Methoden, Noise Gain



Vortrag 3: Kontaktzeit, Fokus der Expansion, Direct Motion Vision Methoden, Noise Gain

In diesem Vortrag wird das Konzept der Rauschverstärkung in Bezug auf maschinelle Bildverarbeitungsprozesse betont, wobei der Schwerpunkt auf verschiedenen Richtungen und Variationen in der Genauigkeit liegt. Der Dozent erörtert die Bedeutung der genauen Messung von Vektoren und des Verständnisses der Verstärkung, um Fehler bei Berechnungen zu minimieren. Der Vortrag behandelt das Konzept der Zeit bis zum Kontakt, den Fokus der Expansion und Bewegungsfelder, mit einer Demonstration, wie man radiale Gradienten berechnet, um die Zeit bis zum Kontakt abzuschätzen. Der Dozent demonstriert außerdem anhand einer Live-Demonstration mit einer Webkamera, wie Einschränkungen bei Frame-by-Frame-Berechnungen mithilfe von Multiskalen-Superpixeln überwunden werden können. Insgesamt bietet die Vorlesung nützliche Einblicke in die Komplexität von Bildverarbeitungsprozessen und wie man verschiedene Größen genau misst.

Der Vortrag behandelt verschiedene Aspekte des Bewegungssehens und ihre Anwendung bei der Bestimmung der Zeit bis zum Kontakt, des Fokus der Expansion und der Methoden des direkten Bewegungssehens. Der Referent demonstriert Werkzeuge zur Visualisierung von Zwischenergebnissen, räumt aber auch deren Grenzen und Fehler ein. Zusätzlich wird das Problem des Umgangs mit willkürlichen Bewegungen in der Bildverarbeitung angegangen, und die Bedeutung benachbarter Punkte, die sich mit ähnlichen Geschwindigkeiten bewegen, wird betont. Der Vortrag befasst sich auch mit den Mustern, die den Erfolg von Methoden des direkten Bewegungssehens beeinflussen, und führt neue Variablen ein, um die Zeit bis zum Kontakt und Feind bequemer zu definieren. Schließlich wird der Prozess des Lösens von drei linearen Gleichungen und drei Unbekannten diskutiert, um zu verstehen, wie verschiedene Variablen das Bewegungssehen beeinflussen, zusammen mit der Parallelisierung des Prozesses, um die Berechnung zu beschleunigen.

  • 00:00:00 In diesem Abschnitt geht der Dozent auf die Rauschverstärkung ein, die sich auf die Beziehung zwischen Messfehlern und Fehlern bei der Schätzung umweltbezogener Größen bezieht. Er verwendet ein Beispiel für ein Indoor-GPS-System, das Wi-Fi-Zugangspunkte verwendet, um die Idee zu veranschaulichen. Die Genauigkeit des Systems wird durch die hochpräzise Messung der Umlaufzeiten vom Telefon zum Zugangspunkt und zurück begrenzt. Der Dozent betont, dass die Rauschverstärkungsanalyse einiger Bildverarbeitungsprozesse in verschiedene Richtungen unterschiedlich sein wird und keine einzelne Zahl sein wird. Vielmehr lässt sich die Genauigkeit in der einen Richtung recht gut bestimmen, in der anderen jedoch nicht, je nachdem, wie man sich bewegt.

  • 00:05:00 In diesem Abschnitt des Videos geht der Dozent auf das Konzept der Verwendung von Transpondern zur Positionsbestimmung und die damit verbundenen Fehler ein. Er erklärt, dass wenn zwei Transponder verwendet und in einer Linie positioniert werden, die Bestimmung der Genauigkeit in einer bestimmten Richtung aufgrund kleiner Abstandsänderungen schwierig wird. Wenn die Transponder jedoch um 90 Grad voneinander entfernt positioniert sind, wird die Genauigkeit verbessert. Darüber hinaus erklärt der Dozent die Verwendung von Kreisen, da sie sich auf die Bestimmung des Ortes möglicher Positionen mit der gleichen Fehlerquote beziehen.

  • 00:10:00 In diesem Abschnitt erklärt der Dozent das Konzept der Vorwärtstransformation, die uns von einer Größe in der Umgebung, die gemessen werden muss, zu etwas führt, das in einem Instrument beobachtet werden kann. Er erklärt, dass die Messung möglicherweise nicht perfekt ist und daher das Rauschen in der interessierenden Größe durch die Ableitung der Übertragungsfunktion mit dem Rauschen in der Messung in Beziehung steht. Der Dozent hebt auch die Bedeutung der Rauschverstärkung hervor und betont, dass ein kleiner Wert von f prime von x nicht gut ist, da die resultierende Unsicherheit in der gemessenen Größe groß wäre.

  • 00:15:00 In diesem Abschnitt erörtert der Sprecher, wie Vektoren gemessen werden und wie wichtig es ist, den Gewinn bei diesen Messungen zu verstehen. Sie erklären, dass das Messen eines Vektors etwas komplexer ist als das Messen einer skalaren Größe, aber es kann immer noch durch Anwendung linearer Transformationen durchgeführt werden. Der Referent betont, dass ein entscheidender Aspekt von Vektormessungen das Verständnis der Verstärkung ist, was die Berücksichtigung der Anisotropie und die Bestimmung der Größe der Änderung von Ergebnissen und Messungen beinhaltet. Die Bestimmung der Inversen der Determinante ist für die Lösung linearer Gleichungen unerlässlich, und es ist entscheidend, dass dieser Wert nicht Null oder zu klein ist, um die Verstärkung von Fehlern in den Berechnungen zu minimieren. Der Sprecher liefert ein Beispiel einer Zwei-mal-Zwei-Matrix, um zu erklären, wie man eine inverse Matrix erhält.

  • 00:20:00 In diesem Abschnitt der Vorlesung wird das Konzept der Rauschverstärkung auf ein Beispiel angewendet, das Bewegung und Auflösung für die Variablen u und v beinhaltet. Es wird erklärt, dass das Rauschen bei kleiner Größe erheblich verstärkt wird, und Dies liegt an der Tatsache, dass die Helligkeitsgradienten an den beiden Pixeln ähnlich ausgerichtet sind und wenig Informationsunterschiede liefern. Ein Diagramm des Geschwindigkeitsraums wird verwendet, um zu zeigen, wie sich die beiden Linien schneiden und wie eine kleine Verschiebung in einer Linie eine große Änderung des Schnittpunkts verursachen kann, was kein wünschenswerter Fall ist. Es ist jedoch nicht alle Hoffnung verloren, da angemerkt wird, dass die Rauschverstärkung möglicherweise nicht in alle Richtungen gleich hoch ist, und es nützlich ist zu wissen, welcher Komponente vertraut werden kann. Der Vortrag geht dann weiter auf die Annahme der konstanten Helligkeit und die Beschränkungsgleichung ein, bevor er zum Konzept der Zeit bis zum Kontakt übergeht.

  • 00:25:00 komplexere Notation. In diesem Abschnitt diskutiert der Dozent das Problem der optischen Maus und wie man es mit einem Ansatz der kleinsten Quadrate behandelt. Das Ziel ist es, die richtige Geschwindigkeit durch Messungen von ex, ey und et zu finden, aber diese Messungen werden normalerweise durch Rauschen verfälscht, sodass das Minimum des Integrals (nicht Null) unsere Schätzung von u und v ist. Der Dozent geht hinüber ein Kalkül zur Bestimmung des Minimums und erklärt, wie wichtig es ist, dieses Integral zu minimieren. Dann gehen sie zu einfachen Fällen über, in denen u und v vorhersagbar sind, wie im Fall des Fokus der Expansion, und überprüfen die Beziehung zwischen Weltkoordinaten und Bildkoordinaten in der perspektivischen Projektion.

  • 00:30:00 In diesem Abschnitt erörtert der Referent die Beziehung zwischen den Geschwindigkeiten, Abständen und dem Ausdehnungsschwerpunkt für Bewegungen mit Nullgeschwindigkeit in x- und y-Richtung. Der Vortrag behandelt die Größe w von az, die die Bewegungskomponente in z-Richtung ist, und die Entfernung einer Geschwindigkeit, gemessen in Metern pro Sekunde oder Sekunden, auch als Zeit bis zum Kontakt bekannt, was hilfreich ist, um herauszufinden, wie lange dauert es, bis man mit einem Objekt zusammenstößt, wenn sich nichts ändert. Anschließend demonstriert der Referent an einem einfachen Beispiel, wie der Fokus der Expansion funktioniert, wenn sich jemand auf eine Wand zubewegt, und wie das Bewegungsfeld in diesem Szenario aussehen würde.

  • 00:35:00 In diesem Abschnitt erklärt der Sprecher, dass wir zwar denken, dass das Finden von Vektoren der einfachste Ansatz zur Lösung des Problems ist, den Fokus der Expansion zu finden, dass wir in Wirklichkeit jedoch nur Bilder haben, die Helligkeitsmuster sind, und es gibt keine Vektoren in ihnen. Stattdessen müssen wir die Bilddaten eines expandierenden oder schrumpfenden Bildes verwenden, um dieses Problem zu lösen. Der Sprecher zeigt ein Diagramm der Vektoren, das eher eine Kompression als eine Expansion zeigt, betont aber, dass der Fokus der Expansion ein wesentlicher Faktor in diesem Experiment ist. Der Referent führt auch die Idee des radialen Gradienten ein, der das Skalarprodukt zweier Vektoren ist: des Vektors des Helligkeitsgradienten und des Vektors zum optischen Zentrum der Kamera, und dies kann verwendet werden, um die Inverse der Zeit to zu messen Kontakt unter Verwendung von Helligkeitsableitungen an einem Punkt im Bild. Diese Zahlen unterliegen jedoch einem Rauschen, und das Schätzen von Ableitungen macht die Sache noch schlimmer, sodass diese Methode nicht sehr genau ist.

  • 00:40:00 In diesem Abschnitt erklärt der Dozent, wie man radiale Gradienten berechnet und sie verwendet, um die Kontaktzeit eines Bildes abzuschätzen. Der radiale Gradient wird berechnet, indem das Skalarprodukt des Bildgradienten mit einem radialen Vektor in einem im Bild errichteten Polarkoordinatensystem gebildet wird. Der Dozent zeigt dann, wie man mit Hilfe der kleinsten Quadrate die Differenz zwischen dem berechneten radialen Gradienten und dem theoretischen Wert von Null für eine Punktlichtquelle minimiert. Dies wird auf einen einfachen Fall einer Bewegung entlang der optischen Achse angewendet, wo die Abschätzung des Parameters c die Kontaktzeit ergibt.

  • 00:45:00 In diesem Abschnitt der Vorlesung erläutert der Professor seinen Ansatz zur Schätzung der Zeit bis zum Kontakt mit direkten Bewegungsvisionsmethoden. Er verwendet Kalkül, um den mittleren quadratischen Fehler in Gegenwart von Rauschen zu minimieren, und leitet die Formel für c ab, die der Kehrwert der Zeit bis zum Kontakt ist. Der Schlüssel besteht darin, den Helligkeitsgradienten anhand benachbarter Pixel in x- und y-Richtung zu schätzen, dann den radialen Gradienten zu berechnen und schließlich die Doppelintegrale über alle Pixel zu berechnen, um die Schätzungen von g und g im Quadrat zu erhalten. Damit lässt sich die Zeit bis zum Kontakt einfach mit der Formel für c abschätzen. Das Verfahren ist einfach und effektiv, ohne Bedarf an High-Level-Verarbeitung oder ausgeklügelten Objekterkennungstechniken, was es zu einer direkten Berechnung der Zeit bis zum Kontakt macht.

  • 00:50:00 In diesem Abschnitt erörtert der Referent die Messung der Position eines Busses mithilfe von Bildanalysetechniken. Indem man die Anzahl der Pixel im Bild des Busses misst und wie sie sich im Laufe der Zeit verändert, kann man die Position des Busses genau bestimmen. Dieser Prozess erfordert jedoch ein hohes Maß an Präzision und kann bei komplexeren Szenarien zu einer Herausforderung werden. Um diese Techniken zu demonstrieren, verwendet der Sprecher ein Programm namens Montevision, das Bilder verarbeitet, um die Zeit bis zum Kontakt und Fokus der Expansion mit verschiedenen Objekten abzuschätzen. Das Programm berechnet drei Werte, um die Genauigkeit der bildbasierten Analyse zu optimieren, aber da die Ergebnisse verrauscht sind, müssen sie ständig verbessert werden, um effektiv zu sein.

  • 00:55:00 In diesem Abschnitt erörtert der Dozent eine Methode zur Berechnung der Zeit bis zum Kontakt und die Einschränkungen bei der Berechnung von Einzelbildern. Diese Beschränkungen umfassen Änderungen des Bildfokus und das Versagen des Verfahrens, sich auf größere Geschwindigkeiten in näheren Objekten einzustellen. Der Dozent demonstriert, wie diese Einschränkungen durch die Verwendung von Multiskalen-Superpixeln oder durch das Gruppieren von Pixeln zur Verbesserung der Bildverarbeitungsgeschwindigkeit und -genauigkeit überwunden werden können. Schließlich zeigt der Dozent eine Live-Demonstration mit einer Webkamera, um die Zeit bis zur Kontaktaufnahme basierend auf der Bewegung der Kamera anzuzeigen.

  • 01:00:00 In diesem Abschnitt demonstriert der Dozent ein Werkzeug, das Zwischenergebnisse anzeigen kann, wobei die x-Ableitung Rot und die y-Ableitung Grün steuert, was einen dreidimensionalen Effekt ergibt, ähnlich einer schnellen Variation eines Gradienten in einer Topografie Karte. Darüber hinaus wird gezeigt, dass die radiale Ableitung g nach außen geht und, wenn sie mit der zeitlichen Ableitung et multipliziert wird, die Bewegung bestimmen kann. Es wird jedoch anerkannt, dass ein solches Tool Einschränkungen und Fehler hat, die kalkulierbar sind, und keinen magischen Code, was es zu einem faszinierenden und verständlichen Tool macht.

  • 01:05:00 In diesem Abschnitt geht der Dozent auf die Problematik des Umgangs mit willkürlichen Bewegungen in der Bildverarbeitung ein. Er stellt fest, dass das Problem aus der Tatsache entsteht, dass u und v, die sich auf die Bewegung in x- bzw. y-Richtung beziehen, im gesamten Bild unterschiedlich sein können. Dies kann zu einer Million Gleichungen mit zwei Millionen Unbekannten führen, wodurch das Problem unlösbar erscheint. Der Dozent schlägt vor, dass möglicherweise zusätzliche Annahmen erforderlich sind, um das Problem zu lösen, stellt jedoch fest, dass sich benachbarte Punkte im Bild in den meisten Fällen mit derselben oder ähnlichen Geschwindigkeit bewegen, was zusätzliche Informationen liefert. Er warnt auch davor, dass die Lösung fehlschlagen kann, wenn das Bild keinen radialen Gradienten aufweist, und erklärt, was das bedeutet.

  • 01:10:00 In diesem Abschnitt erörtert der Dozent die Muster, die den Erfolg bei der Verwendung von Bewegungsmethoden mit direkter Sicht zur Berechnung der Zeit bis zum Kontakt beeinflussen können. Der Dozent erklärt, dass einige Muster, wie eine x-Form, Steigungen haben, die sich in verschiedene Richtungen ändern und daher wertvolle Informationen für die Berechnung der Zeit bis zum Kontakt liefern. Ein anderes Muster, wie ein Tortendiagramm, liefert diese Informationen jedoch nicht, da die Gradienten in ihrer Richtung konsistent sind. Der Dozent erwähnt auch, dass der Algorithmus Nicht-Null-Exey von winzigen Flecken oder Fasern aufnehmen könnte, die sogar in relativ konsistenten Mustern wie einem Blatt Papier existieren. Schließlich führt die Vorlesung zwei neue Variablen ein, fu von z und fv von z, die dazu beitragen werden, die Zeit bis zum Kontakt und Feind bequemer in den Gleichungen zu definieren.

  • 01:15:00 In diesem Abschnitt geht der Referent auf die Formel zur Berechnung des Expansionsfokus ein, die auf den beiden Parametern a und b basiert, und wie f in der Formel nicht auftaucht. Während f für viele Zwecke benötigt wird, um Entfernung und Geschwindigkeit zu berechnen, erfordert die Berechnung der Zeit bis zum Kontakt kein f. Der Sprecher formuliert dann ein Problem als Problem der kleinsten Quadrate mit einer endlichen Anzahl von Parametern a, b und c und fährt damit fort, das Integral zu differenzieren, um die Ableitung des Integranden zu finden.

  • 01:20:00 In diesem Abschnitt des Vortrags erklärt der Referent, wie man drei lineare Gleichungen und drei Unbekannte löst, um herauszufinden, wie verschiedene Variablen das Bewegungssehen beeinflussen. Die Lösung hat eine geschlossene Form, was vorteilhaft ist, da sie schnelle Schlussfolgerungen ermöglicht, anstatt mit anderen Parametern neu berechnen zu müssen. Es gibt drei Akkumulatoren, die in horizontaler, vertikaler und g-Richtung differenzieren, die alle die Koeffizienten beeinflussen. Die Koeffizientenmatrix ist symmetrisch, was ein Verständnis für die Stabilität der Lösung gibt.

  • 01:25:00 In diesem Abschnitt des Vortrags erörtert der Referent die Parallelisierung des Prozesses, sechs Akkumulatoren in einem Bild zu durchlaufen und sie während des Vorgangs zu ergänzen. Dieser Prozess erfordert keine Interaktionen zwischen Pixeln und kann daher beschleunigt werden, wenn er auf einer GPU ausgeführt wird. Diese Akkumulatoren hängen nicht von zeitlichen Änderungen ab, da sie nur Helligkeitsmuster und Textur innerhalb des Bildes akkumulieren. Die verbleibenden drei Akkumulatoren sind von Zeitänderungen abhängig. Sobald alle Akkumulatoren berücksichtigt sind, müssen drei Gleichungen in drei Unbekannten gelöst werden.
Lecture 3: Time to Contact, Focus of Expansion, Direct Motion Vision Methods, Noise Gain
Lecture 3: Time to Contact, Focus of Expansion, Direct Motion Vision Methods, Noise Gain
  • 2022.06.08
  • www.youtube.com
MIT 6.801 Machine Vision, Fall 2020Instructor: Berthold HornView the complete course: https://ocw.mit.edu/6-801F20YouTube Playlist: https://www.youtube.com/p...
Grund der Beschwerde: