Algorithmus zum Kombinieren von Bereichen eines Segments - Hilfe zum Erstellen - Seite 6

 
Aleksey Vyazmikin:

Macht es einen Unterschied, ob die Wege lang oder kurz sind, oder ist es eine Frage der Schätzung (die Länge des Pfeils in der Analogie der Abbildung)?

Wir haben den Wunsch, die zwei besten Wege im Beispiel zu betreten, wenn es weniger sind, gibt es nur einen Weg.

Bitte erklären Sie, warum dies ein Problem sein könnte.

Wenn es in einem Set kurze und lange Wege gibt, dann ist der Weg länger, wenn man in den Bereich mit den langen Wegen kommt, als wenn man in den Bereich mit den kurzen Wegen kommt. Zum Beispiel, am Anfang, wie in Ihrem Bild, und dann gibt es zwei Bereiche parallel zueinander, und im ersten Bereich sind die Segmente dreimal kürzer als im zweiten Bereich und nehmen 75 Prozent des Weges ein.

 
Valeriy Yastremskiy:

Wenn es in der Menge Bereiche mit kurzen und langen Segmenten gibt, dann ist der Weg zu dem Bereich mit den langen Segmenten länger als zu dem Bereich mit den kurzen Segmenten. Zum Beispiel, am Anfang, wie in Ihrer Zeichnung, und dann gibt es zwei Bereiche parallel zueinander, und im ersten Bereich sind die Segmente dreimal kürzer als im zweiten Bereich und nehmen 75 Prozent des Weges ein.

Die Bewegung beginnt in jedem Segment, also müssen Sie auch durch diese Bereiche gehen.

 
Aleksey Vyazmikin:

Die Bewegung startet von jedem Segment aus, muss also auch durch diese Bereiche gehen.

Die Bewegung kann von jedem Segment ausgehen, aber es ist klar, dass Punkte mit langen Segmenten nicht benötigt werden. In Ihrem Algorithmus haben Sie nur Beziehungen zu den nächstgelegenen Segmenten, nicht zu beliebigen Segmenten, und wenn Sie einen Punkt mit langen Segmenten und nahe gelegene Punkte mit nur langen Segmenten treffen, ist das kein gutes Ergebnis.

 
Valeriy Yastremskiy:

Die Bewegung kann von einem beliebigen Segment ausgehen, aber es ist klar, dass lange Segmentpunkte nicht benötigt werden. In Ihrem Algorithmus haben Sie nur Beziehungen zu den nächstgelegenen Segmenten, nicht zu irgendwelchen Segmenten, und wenn Sie zu einem Punkt mit langen Segmenten und neben Punkten mit nur langen Segmenten gelangen, ist das nicht das beste Ergebnis.

"Länge" ist hier relativ, bis man an einen Punkt kommt, an dem man sie nicht mehr messen kann.

Eine andere Sache ist die Schätzung in zusammengesetzte Analoga, wenn ein Segment durch zwei repräsentiert wird, dann ja, wir können ein Segment fallen lassen.

 
Aleksey Vyazmikin:

"Länge" ist hier relativ, bis wir einen Punkt erreichen, an dem wir sie nicht mehr messen können.

Eine andere Sache ist die Schätzung bei zusammengesetzten Analoga, wenn ein Segment durch zwei repräsentiert wird, dann können wir ein Segment weglassen.

Das verstehe ich nicht. Wenn das Verhältnis zwischen Länge und Preis nur anhand eines Punktes bestimmt werden kann, ist das eine viel schwierigere Aufgabe. Und ohne eine hinreichend vollständige Preis-/Längenschätzung kann das Ergebnis nicht zuverlässig geschätzt werden.

Es ist nicht klar, wie es sich mit zusammengesetzten Analoga verhält.

 
Valeriy Yastremskiy:

Das verstehe ich nicht. Wenn die Länge/der Preis nur durch Anklicken eines Punktes angezeigt werden kann, ist dies eine viel schwierigere Aufgabe. Und ohne eine hinreichend vollständige Preis-/Längenschätzung kann das Ergebnis nicht zuverlässig bewertet werden.

Ja, das ist sie.

Valeriy Yastremskiy:

Es ist nicht klar, wie es sich mit den zusammengesetzten Analoga verhält.

In der Abbildung unten haben wir zwei große Segmente und 5 kleine darunter, aber Sie können sehen, dass sie sich im gleichen Bereich befinden und daher im Wesentlichen ein ähnliches Gebiet beschreiben.

Die Frage ist nur, was besser ist - die kleineren Balken, die jedem von ihnen die Möglichkeit geben, einen korrelierenden Prädiktor zu finden und einen genaueren Cutoff zu haben, oder die größere Verallgemeinerungsfähigkeit im größeren Balken. Ich denke, dass die flachen Cutoffs besser sind, ihr Minimum ist in der Auswahl begrenzt.

 

Ein anderer Gedanke war, warum nicht die besten x % der Segmente nehmen und sie verwenden, um den Raum im ersten Schritt zu füllen, und im zweiten Schritt die Lücken zwischen den Segmenten identifizieren und nach Segmenten suchen, die in diese Lücken eingebettet werden können.

Die Abbildung zeigt konventionell zwei Stufen.


 
Aleksey Vyazmikin:

Ein anderer Gedanke war, warum nicht die besten x % der Segmente zu nehmen und sie zu verwenden, um den Raum im ersten Schritt zu füllen, und im zweiten Schritt die Lücken zwischen den Segmenten zu identifizieren und nach Segmenten zu suchen, um sie in diese Lücken einzufügen.

In der Abbildung habe ich die beiden Stufen nur bedingt dargestellt.


Nun, das ist es, was ich zu sagen versuche: Schätzen Sie zunächst die Längen/Werte der Punkte, identifizieren Sie mehrere wertvolle und giftige Segmente und erstellen Sie dann einen Pfad auf der Grundlage der Werte der Segmente und der Fähigkeit, den Pfad möglichst vollständig und ohne Lücken zu füllen.

Zumindest wird die Lösung nicht die beste sein, aber sie wird besser als der Durchschnitt sein.

 

Die Frage ist themenfremd und eher philosophisch. Ist man sich darüber im Klaren, dass der Ansatz der Klassifizierung durch Unterteilung der Attribute in Segmente eine diskontinuierliche Abhängigkeit der Outputs von den Inputs impliziert? Das heißt, es kann eine Situation eintreten, in der ein Handel bei einem Satz von Attributen eröffnet wird und nicht bei einem anderen, der sehr, sehr nahe an dem ersten liegt (sie liegen nahe der Grenze, aber auf entgegengesetzten Seiten davon). Ich sage nicht, dass es der falsche Ansatz ist. Ich möchte nur fragen: Steckt dahinter eine Art Händlerintuition oder ist es eine willkürliche Entscheidung?

Als mögliche Alternative kann man eine Klassifizierung mittels logistischer Regression oder der Methode der nächsten Nachbarn vorschlagen. Die Ausgabe kann die Schätzung der Wahrscheinlichkeit der Zugehörigkeit zu einer Klasse enthalten, die z. B. zur Bestimmung des Handelsvolumens verwendet werden kann. Ich bestehe nicht auf einem bestimmten Algorithmus, sondern interessiere mich nur für den Händleraspekt bei der Wahl eines bestimmten MO-Algorithmus.

 
Valeriy Yastremskiy:

Das ist es, was ich zu sagen versuche: Schätzen Sie zunächst die Längen/Werte der Punkte, identifizieren Sie die vielen wertvollen und giftigen Segmente und bauen Sie dann einen Pfad auf der Grundlage der Werte der Segmente und der Fähigkeit, den Pfad am besten lückenlos zu füllen.

Zumindest wird die Lösung nicht die beste sein, aber sie wird besser sein als der Durchschnitt.

Die Frage ist hier, wie man "viele wertvolle Segmente und toxische Stoffe" identifiziert - d. h. man muss ihre Austauschbarkeit ermitteln oder dies in zwei Durchgängen tun, wie ich bereits vorgeschlagen habe. Oder haben Sie eine andere Möglichkeit?

Grund der Beschwerde: