Diskussion zum Artikel "Neuronale Netze leicht gemacht (Teil 81): Kontextgesteuerte Bewegungsanalyse (CCMR)"

 

Neuer Artikel Neuronale Netze leicht gemacht (Teil 81): Kontextgesteuerte Bewegungsanalyse (CCMR) :

In früheren Arbeiten haben wir immer den aktuellen Zustand der Umwelt bewertet. Gleichzeitig blieb die Dynamik der Veränderungen bei den Indikatoren immer „hinter den Kulissen“. In diesem Artikel möchte ich Ihnen einen Algorithmus vorstellen, mit dem Sie die direkte Veränderung der Daten zwischen 2 aufeinanderfolgenden Umweltzuständen bewerten können.

Im Rahmen dieser Reihe lernten wir verschiedene Methoden zur Analyse des Umweltzustands und Algorithmen zur Nutzung der gewonnenen Daten kennen. Wir haben Faltungsmodelle verwendet, um stabile Muster in historischen Kursbewegungsdaten zu finden. Wir haben auch Aufmerksamkeitsmodelle verwendet, um Abhängigkeiten zwischen verschiedenen lokalen Umweltzuständen zu finden. Wir haben den Zustand der Umwelt immer als einen bestimmten Querschnitt zu einem bestimmten Zeitpunkt bewertet. Die Dynamik der Umweltindikatoren haben wir jedoch nie bewertet. Wir sind davon ausgegangen, dass das Modell bei der Analyse und dem Vergleich von Umweltbedingungen auf die wichtigsten Veränderungen achten würde. Wir haben jedoch keine explizite quantitative Darstellung einer solchen Dynamik verwendet.

Im Bereich der Computer Vision gibt es jedoch ein grundlegendes Problem bei der Schätzung des optischen Flusses. Die Lösung dieses Problems liefert Informationen über die Bewegung von Objekten in der Szene. Um dieses Problem zu lösen, wurde eine Reihe interessanter Algorithmen vorgeschlagen, die inzwischen weit verbreitet sind. Die Ergebnisse der optischen Flussschätzung werden in verschiedenen Bereichen eingesetzt, vom autonomen Fahren bis zur Objektverfolgung und Überwachung.

Die meisten aktuellen Ansätze verwenden faltbare neuronale Netze, denen jedoch der globale Kontext fehlt. Das macht es schwierig, über Objektverdeckungen oder große Verschiebungen nachzudenken. Ein alternativer Ansatz ist die Verwendung von Transformatoren und anderen Aufmerksamkeitstechniken. Sie ermöglichen es, weit über das feste rezeptive Feld der klassischen CNNs hinauszugehen.

Eine besonders interessante Methode mit der Bezeichnung CCMR wurde in dem Beitrag „CCMR: High Resolution Optical Flow Estimation via Coarse-to-Fine Context-Guided Motion Reasoning“ vorgestellt. Es handelt sich um einen Ansatz zur Schätzung des optischen Flusses, der die Vorteile aufmerksamkeitsorientierter Methoden von Bewegungsaggregationskonzepten und hochauflösender Multiskalenansätze kombiniert. Die CCMR-Methode integriert konsequent kontextbasierte Bewegungsgruppierungskonzepte in einen hochauflösenden, grobkörnigen Schätzungsrahmen. Dies ermöglicht detaillierte Strömungsfelder, die auch in verdeckten Bereichen eine hohe Genauigkeit bieten. In diesem Zusammenhang schlagen die Autoren der Methode eine zweistufige Strategie zur Bewegungsgruppierung vor, bei der zunächst globale kontextuelle Merkmale mit Selbstaufmerksamkeit berechnet werden, die dann dazu dienen, die Bewegungsmerkmale iterativ über alle Skalen hinweg zu steuern. Die kontextbezogene Argumentation über XCiT-basierte Bewegungen ermöglicht somit eine Verarbeitung auf allen grobkörnigen Skalen. Die von den Autoren der Methode durchgeführten Experimente zeigen die starke Leistung des vorgeschlagenen Ansatzes und die Vorteile seiner Grundkonzepte.

Autor: Dmitriy Gizlyk