Diskussion zum Artikel "Neuronale Netze leicht gemacht (Teil 17): Reduzierung der Dimensionalität"

 

Neuer Artikel Neuronale Netze leicht gemacht (Teil 17): Reduzierung der Dimensionalität :

In diesem Teil setzen wir die Diskussion über die Modelle der Künstlichen Intelligenz fort. Wir untersuchen vor allem Algorithmen für unüberwachtes Lernen. Wir haben bereits einen der Clustering-Algorithmen besprochen. In diesem Artikel stelle ich eine Variante zur Lösung von Problemen im Zusammenhang mit der Dimensionsreduktion vor.

Die Hauptkomponentenanalyse wurde 1901 von dem englischen Mathematiker Karl Pearson erfunden. Seitdem wird es in vielen wissenschaftlichen Bereichen erfolgreich eingesetzt.

Um das Wesen der Methode zu verstehen, schlage ich eine vereinfachte Aufgabe vor, die sich auf die Reduzierung der Dimension eines zweidimensionalen Datenfeldes auf einen Vektor bezieht. Aus geometrischer Sicht kann dies als Projektion von Punkten einer Ebene auf eine gerade Linie dargestellt werden.

In der folgenden Abbildung sind die Ausgangsdaten durch blaue Punkte dargestellt. Es gibt zwei Projektionen, auf der orangefarbenen und der grauen Linie, mit Punkten in der entsprechenden Farbe. Wie man sehen kann, ist der durchschnittliche Abstand zwischen den Anfangspunkten und ihren orangefarbenen Projektionen kleiner als die entsprechenden Abstände zu den grauen Projektionen. Bei den grauen Projektionen überschneiden sich die Projektionen der Punkte. Daher ist die orangefarbene Projektion vorzuziehen, da sie alle einzelnen Punkte voneinander trennt und bei der Verringerung der Dimension (Abstand zwischen den Punkten und ihren Projektionen) weniger Daten verloren gehen.

Eine solche Linie wird als Hauptkomponente bezeichnet. Aus diesem Grund wird die Methode Hauptkomponentenanalyse (Principal Component Analysis PCA) genannt.

Aus mathematischer Sicht ist jede Hauptkomponente ein numerischer Vektor, dessen Größe der Dimension der Originaldaten entspricht. Das Produkt aus dem Vektor der ursprünglichen Daten, die einen Systemzustand beschreiben, und dem entsprechenden Vektor der Hauptkomponente ergibt den Projektionspunkt des analysierten Zustands auf der Geraden.

Je nach der ursprünglichen Datendimension und den Anforderungen an die Dimensionsreduktion kann es mehrere Hauptkomponenten geben, jedoch nicht mehr als die ursprüngliche Datendimension. Beim Rendern einer volumetrischen Projektion gibt es drei davon. Bei der Komprimierung von Daten ist in der Regel ein Verlust von bis zu 1 % der Daten zulässig.

Hauptkomponenten-Methode

Optisch sieht dies ähnlich aus wie eine lineare Regression. Es handelt sich jedoch um völlig unterschiedliche Methoden, die zu unterschiedlichen Ergebnissen führen.

Autor: Dmitriy Gizlyk

Grund der Beschwerde: