Diskussion zum Artikel "Selbst-organisierende Feature Maps (Kohonen Maps) - Wiederaufgreifen des Themas" - Seite 2

 
Nikolay Demko:

Speichern Sie das trainierte Gitter und posten Sie das Gitter und die Trainingsdaten. Ich denke, bei der Analyse wird die Antwort gefunden werden, wie es möglich ist. Oder es wird sich herausstellen, was der Fehler ist.

Im Allgemeinen brauchen wir ein reproduzierbares Beispiel.

Ich hänge es an.

Es gibt eine Ressourcendatei, somnet und einen Bildschirm, auf dem ich Datensätze für die Ressourcendatei aufgenommen habe. Vielleicht hilft es ja ;)
Dateien:
Desktop.zip  756 kb
 
Wie auch immer, danke für die Entwicklung.

Ich habe einige Ideen für die Suche nach Gruppen von Elementen, die im Allgemeinen ähnlich sind. Das heißt, wir sprechen von Clustering. Ich habe eine Methode im Netz gefunden: k-mean. Ich habe die Beschreibung gelesen und mir Beispiele angeschaut. Was verwenden Sie, um Daten in Gruppen zu gruppieren?
 
Viktor Vasilyuk:
Es gibt einige Unzulänglichkeiten in der Implementierung der Anzeige der Ergebnisse..... Aber auch in dieser Form ist es eine funktionierende Variante.

Ich beschloss, die Statistiken zu testen, und das ist das Ergebnis:

Ich war ein wenig überrascht von der Situation im zweiten Quadrat der ersten Reihe links. Werte #2 und #3. Wie ist ein solch harter/scharfer Übergang in der Farbdarstellung möglich? Nehmen wir zum Beispiel das erste Quadrat der ersten Reihe links - zwischen den Werten #14 und #18 gibt es einen sanften Übergang der Farben.

Und dann gibt es überall einen konsistenten Übergang der Farben von links nach rechts oder von rechts nach links, wie es in der Farbpalette unter dem Bild eingezeichnet ist. Und hier mit dem Springen durch die Farben.

Ich denke, dass der Grund dafür ist, dass man sehr wenig Daten zum Trainieren hat, das ist der erste und wahrscheinlich der wichtigste Punkt.

Die Anzahl der Knoten ist 4-mal kleiner als die Auflösung, das ist der zweite Grund.

Außerdem kam es vor, dass bei einer großen Spanne von Werten (2. Spalte) Knoten von entgegengesetzten Enden der Skala nebeneinander lagen, das ist der dritte Grund.

Insgesamt gab es eine solche Anordnung, bei der eine klare Grenze gezogen wurde.

Aber ich konnte die Grenze nicht in Form eines klaren Sechsecks wiedergeben. In Ihrem gespeicherten Netz gibt es zwar eine Grenze, aber sie ist nicht sechseckig.

 
Viktor Vasilyuk:
Wie auch immer, danke für die Entwicklung.

Ich habe einige Ideen für die Suche nach Gruppen von Elementen, die im Allgemeinen ähnlich sind. Das heißt, wir sprechen von Clustering. Ich habe eine Methode im Netz gefunden: k-mean. Ich habe die Beschreibung gelesen und mir Beispiele angeschaut. Was verwenden Sie, um Daten in Gruppen zu gruppieren?

Auf unterschiedliche Weise, das hängt von der Aufgabe ab. Es gibt viele Arten des Clusterns. Kohonen ist ein universelles Clustering-Tool, und alles, was universell ist, kann nicht perfekt für eine bestimmte Aufgabe sein.

Wenn Sie zum Beispiel univariate Daten auf die schnellste und einfachste Art und Weise clustern müssen, ist K-means gut geeignet, aber ich bevorzuge das Clustern durch Modi anstelle von Durchschnittswerten.

 
Nikolay Demko:

Ich denke, der Grund ist, dass Sie sehr wenig Daten für die Ausbildung haben, das ist die erste und wahrscheinlich die Hauptsache.

Der zweite Grund ist, dass die Anzahl der Knoten 4 Mal geringer ist als die Auflösung.

Und es kam vor, dass in einem großen Wertebereich (2. Spalte) Knoten von entgegengesetzten Enden der Skala nebeneinander lagen, das ist der dritte Grund.

Insgesamt gab es eine solche Anordnung, bei der eine klare Grenze gezogen wurde.

Aber ich konnte die Grenze nicht in Form eines klaren Sechsecks wiedergeben. In Ihrem gespeicherten Netz gibt es zwar eine Grenze, aber sie ist nicht sechseckig.

Ja, ich habe dir das falsche Diagramm gegeben. Hier ist die Originalgrafik von somnet, die ich im Archiv angegeben habe.

Screenshots von der MetaTrader-Handelsplattform

GBPUSD, H1, 2017.02.25

Alpari International Limited, MetaTrader 5, Demo

GBPUSD, H1, 2017.02.25, Alpari International Limited, MetaTrader 5, Demo


1) das Problem ist nicht die Menge der Daten selbst, sondern die Tatsache, dass es sehr wenig Daten gibt, die mit #2 "korrelieren", es ist durchaus möglich, dass dieser Faktor einen starken Einfluss auf die Farbe haben könnte.

2) woher kommt die Zahl 4? wurde die Größe des Bildes durch die Anzahl der Knoten geteilt? ich kann die Beziehung einfach nicht verstehen. Ich habe absichtlich 70x70 gemacht, um das Bild übersichtlicher zu machen.

3) 849950-142695=707255 kann ein solcher Unterschied kleinere Unterschiede in anderen Spalten beeinflussen?

4) Ich würde gerne wissen, ob es möglich ist, Zahlen innerhalb des Bildes anzuzeigen, anstatt sie nur an der Seite zu zeichnen? Einige Zahlen sind nicht sichtbar. Ja, die Bilder werden in Dateien gespeichert, aber Bildunterschriften in Form von Zahlen auf dem Bild sind nicht erwünscht. Ist dies nicht implementiert?
 
Scheiße. Ich weiß es nicht. Es ist schon wahnhaft oder paranoid.

Screenshots der MetaTrader-Handelsplattform

GBPUSD, H1, 2017.02.25

Alpari International Limited, MetaTrader 5, Demo

GBPUSD, H1, 2017.02.25, Alpari International Limited, MetaTrader 5, Demo


Ich habe folgendes gemacht:

1) die Anzahl der Stichproben auf 10 reduziert;

2) manuell Änderungen für die zweite Spalte für die Werte in den Zeilen 2,3 und 4 vorgenommen

Was ist das für ein Unsinn?

Ich habe folgendes gefunden:

1) der Maximalwert für die zweite Spalte wird entweder falsch gezählt oder falsch angezeigt. D.h. wenn man alle Werte abwärts sortiert, zeigt das Programm an, dass der Maximalwert der Wert in Zeile 3 ist, aber nicht wie in Zeile 2. Ich beobachte einen solchen Trick nur in dieser Spalte;

2) Ich habe eine kleine "Differenz" zwischen dem Höchstwert der zweiten Spalte und dem Mindestwert verringert. Ich habe zugelassen, dass die drei Maximalwerte dieser Spalte um 1-1,8% voneinander abweichen. Das ist doch nicht viel, oder? D.h., wenn Sie "mit dem Auge" sehen, sind sie unter allen anderen Werten dieser Spalte fast identisch.



Ich füge meine Dateien wieder bei.
Dateien:
SOM.zip  90 kb
 
Viktor Vasilyuk:
Scheiße. Ich weiß es nicht. Das ist schon wahnhaft oder paranoid.


Ich habe folgendes gemacht:

1) die Anzahl der Stichproben auf 10 reduziert;

2) manuell Änderungen für die zweite Spalte für die Werte in den Zeilen 2,3 und 4 vorgenommen

Was ist das für ein Unsinn?

Ich habe folgendes gefunden:

1) der Maximalwert für die zweite Spalte wird entweder falsch gezählt oder falsch angezeigt. D.h. wenn man alle Werte abwärts sortiert, zeigt das Programm an, dass der Maximalwert der Wert in Zeile 3 ist, aber nicht wie in Zeile 2. Ich beobachte einen solchen Trick nur in dieser Spalte;

2) Ich habe eine kleine "Differenz" zwischen dem Höchstwert der zweiten Spalte und dem Mindestwert verringert. Ich habe zugelassen, dass die drei Maximalwerte dieser Spalte um 1-1,8% voneinander abweichen. Das ist doch nicht viel, oder? D.h. wenn Sie "nach Augenmaß" schätzen, sind alle anderen Werte aus dieser Spalte fast identisch.



Ich füge meine Dateien noch einmal bei.

Beachten Sie, dass es in allen Karten der anderen Spalten eine Art Cluster an dieser Stelle gibt.

Ich meine, dass sich das Ergebnis regelmäßig wiederholt, weil das die Struktur der Daten ist.

Es ist nur so, dass in der zweiten Spalte dieser Cluster mit den Minimalwerten von den Maximalwerten umgeben ist oder an diese angrenzt. Deshalb ist die Grenze so scharf.

Aber SOM setzt die Daten in einen separaten Cluster in der Nähe der Maxima, weil die Karten miteinander verbunden sind und dies der beste Ort für diesen Cluster ist.

Wenn Sie versuchen, sie in andere Ecken der zweiten Karte zu verschieben, müssen Sie Knoten aus anderen Karten an diese Positionen verschieben.

In den Maps 1,4,6,8-12 liegen diese beiden Cluster in ihren Werten sehr nahe beieinander. Das heißt, in 8 der 12 Karten hat SOM sie nebeneinander platziert. Die restlichen 4 Karten können natürlich so unterschieden werden, wie Gott sie geschickt hat.

Oder ich verstehe Ihr Problem nicht.

 
Nikolay Demko:

Beachten Sie, dass es in allen Karten der anderen Spalten eine Art Cluster an dieser Stelle gibt.

Ich will damit sagen, dass sich das Ergebnis regelmäßig wiederholt, weil das die Struktur der Daten ist.

Es ist nur so, dass in der zweiten Spalte dieser Cluster mit den Minimalwerten von den Maximalwerten umgeben oder an diese angrenzend ist. Deshalb ist die Grenze so scharf.

Aber SOM setzt die Daten in einen separaten Cluster in der Nähe der Maxima, weil die Karten miteinander verbunden sind und dies der beste Ort für diesen Cluster ist.

Wenn Sie versuchen, sie in andere Ecken der zweiten Karte zu verschieben, müssen Sie Knoten aus anderen Karten an diese Positionen verschieben.

In den Maps 1,4,6,8-12 liegen diese beiden Cluster in ihren Werten sehr nahe beieinander. Das heißt, in 8 der 12 Karten hat SOM sie nebeneinander platziert. Die restlichen 4 Karten können natürlich so unterschieden werden, wie Gott sie geschickt hat.

Vielleicht verstehe ich aber auch den Kern Ihres Problems nicht.

Ja. Ein Problem. In der Datendatei ist der Höchstwert in der zweiten Spalte 559000. Das Bild zeigt (wo der horizontale Balken, die Steigung), dass dieser Maximalwert 552000 ist. 559000 kann nicht kleiner als 552000 sein.
 
Viktor Vasilyuk:
Ja. Ein Problem. In der Datendatei ist der Höchstwert in der zweiten Spalte 559000. Das Bild zeigt (wo der horizontale Balken, die Steigung), dass dieser Maximalwert 552000 ist. 559000 kann nicht kleiner als 552000 sein.

552000

559000

Handelt es sich um Knoten- oder Musterdaten?

Die Knoten müssen nicht eins zu eins mit den Trainingsmustern übereinstimmen.

 
Nikolay Demko:

552000

559000

Handelt es sich um Knotendaten oder Musterdaten?

Die Knoten müssen nicht eins zu eins mit den Trainingsmustern übereinstimmen.

Hervorgehoben.