Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 3311

 
Aleksey Vyazmikin #:

Wer hat die Methode"Kompaktheitsprofil" ausprobiert?

Ziel der Methode ist es, inkonsistente Beispiele aus der Stichprobe zu eliminieren, was das Lernen verbessern und die Modellgröße verringern sollte, wenn K-Nächste-Nachbarn-Lernmethoden verwendet werden.

Ich konnte keine Implementierung in Python finden.....

In demselben Link wird über die Verknüpfung von "Profil" mit Kreuzvalidierung gesprochen, wofür es einfacher sein könnte, Pakete zu finden.
 
Aleksey Vyazmikin #:

Wer hat die Methode"Kompaktheitsprofil" ausprobiert?

Ziel der Methode ist es, inkonsistente Beispiele aus der Stichprobe zu eliminieren, was das Lernen verbessern und die Modellgröße verringern sollte, wenn K-Nächste-Nachbarn-Lernmethoden verwendet werden.

Ich konnte keine Implementierung in Python finden.....

Die Arbeit ist experimentell. Hier ist ein Zitat von http://www.ccas.ru/frc/papers/students/VoronKoloskov05mmro.pdf

Die Arbeit wurde im Rahmen der RFBR-Projekte 05-01-00877, 05-07-90410 und des OMN RAS-Programms durchgeführt

Es ist unwahrscheinlich, dass für jedes Experiment ein Paket erstellt wurde.

Ja, und das Experiment ist künstlich. Dem klar nach Klassen getrennten Datensatz wurde Rauschen hinzugefügt. Und die klare Trennung erfolgt nur durch ein Merkmal - die Y-Achse. Wenn wir das Rauschen entfernen (alle Daten von 0,2 bis 0,8), stellt sich heraus, dass nur Beispiele übrig bleiben, bei denen der Abstand zu einer anderen Klasse nicht kleiner als 0,6 ist. Ich spreche von der härtesten 3. Option im Bild:


Gehen Sie ins wirkliche Leben und fügen Sie Ihre 5000 Prädiktoren, die Rauschen sein werden, zu dieser einzigen Arbeitsdatei hinzu. Beim Clustering berechnen Sie die Gesamtdistanz zwischen den Punkten in diesem 5001-dimensionalen Raum. 0,6 wird in diesem Chaos niemals gefunden werden.

Ich denke, jeder Klassifikator wird es besser machen, derselbe Baum wird dieses einzelne Merkmal finden und durch es teilen, zuerst durch 0,5 und dann wird er Aufteilungen von 0,2 und 0,8 erreichen, gefolgt von Blättern mit 100% Reinheit.

 
Aleksey Vyazmikin #:

Wer hat die Methode"Kompaktheitsprofil" ausprobiert?

Ziel der Methode ist es, inkonsistente Beispiele aus der Stichprobe zu eliminieren, was das Lernen verbessern und die Modellgröße verringern sollte, wenn K-Nächste-Nachbarn-Lernmethoden verwendet werden.

Ich konnte keine Implementierung in Python finden....

In einem der Artikel von Vladimir Perervenko wurde eine solche Methode beschrieben, und es gab natürlich auch ein Beispiel mit Code
 
Forester #:

Die Arbeit ist experimentell. Hier ist ein Zitat von http://www.ccas.ru/frc/papers/students/VoronKoloskov05mmro.pdf

Es ist unwahrscheinlich, dass für jedes Experiment ein Paket erstellt wurde.

Oh, und das Experiment ist künstlich. Dem klar nach Klassen getrennten Datensatz wurde Rauschen hinzugefügt. Und die klare Trennung gilt nur für ein Merkmal - die Y-Achse. Wenn wir das Rauschen entfernen (alle Daten von 0,2 bis 0,8), stellt sich heraus, dass nur Beispiele übrig bleiben, bei denen der Abstand zu einer anderen Klasse nicht kleiner als 0,6 ist. Ich meine die komplizierteste 3. Variante im Bild:


Gehen Sie ins wirkliche Leben und fügen Sie Ihre 5000 Prädiktoren, die Rauschen sein werden, zu diesem einzigen Arbeitsbogen hinzu. Beim Clustering berechnen Sie die Gesamtdistanz zwischen den Punkten in diesem 5001-dimensionalen Raum. 0,6 wird in diesem Chaos nie gefunden.

Ich denke, jeder Klassifikator wird es besser machen, derselbe Baum wird dieses einzelne Merkmal finden und durch es teilen, zuerst durch 0,5 und dann wird er Splits von 0,2 und 0,8 erreichen, gefolgt von Blättern mit 100% Reinheit.

Das wird er nie. Jedes MO wird es nicht finden. Müll sollte VOR dem Training des Modells beseitigt werden. "Müll rein - Müll raus" ist das Gesetz der Statistik.

 
СанСаныч Фоменко #:

Wird es nie. Jedes IO wird es nicht finden. Man muss den Müll loswerden, BEVOR man das Modell trainiert. "Müll rein, Müll raus" ist das Gesetz der Statistik.

Ich spreche hier von einem konkreten künstlichen Beispiel, an dem Experimente durchgeführt wurden. Es geht nicht um "Müll rein und Müll raus". Was in diesem Beispiel überflüssig ist, lässt sich leicht herausfiltern.

 
Das ist genau das, was die Optimierer nicht verstehen können. Dass die Stabilität durch Vereinfachung verbessert werden kann, nicht durch die Suche nach einem globalen Maximum.
Das einfachste Beispiel ist die SVM, mit einem bestimmten Abstand zwischen den Stützvektoren. Die Querwelle ist noch flexibler. Und dort werden Sie sehen, und dann können Sie matstat für ein Halbblatt eingeben.
Wenn du nicht von Anfang an in kozul einsteigen kannst, kannst du auf dieser Ebene anfangen zu denken.

Offtopic: hast du starfield gespielt? Besdazd weiß, wie man atmosphärisch macht. Es ist immersiv.
 
Forester #:

Ich spreche von dem konkreten künstlichen Beispiel, an dem die Experimente durchgeführt wurden. Es geht nicht darum, Müll rein und Müll raus. Was in diesem Beispiel bekannt ist, lässt sich leicht abtrennen.

Um meinen Standpunkt zu verdeutlichen.

Jeder MO-Algorithmus versucht, den Fehler zu reduzieren. Die Fehlerreduzierung ist bei Unrat effektiver, weil er viel eher "günstige" Werte für die Fehlerreduzierung hat. Folglich ist die "Wichtigkeit" der Prädiktoren für Müll mit Sicherheit höher als für NICHT-Müll. Aus diesem Grund gibt es eine Vorverarbeitung, die sehr viel arbeitsintensiver ist als die Modellanpassung selbst.

 
СанСаныч Фоменко #:

Lassen Sie mich meinen Standpunkt klarstellen.

Jeder MO-Algorithmus versucht, den Fehler zu reduzieren. Die Fehlerreduzierung ist bei Müll effektiver, weil "günstige" Werte für die Fehlerreduzierung im Müll viel häufiger vorkommen. Folglich ist es sicher, dass die "Wichtigkeit" der Prädiktoren für Müll höher ist als für NICHT-Müll. Aus diesem Grund gibt es eine Vorverarbeitung, die sehr viel arbeitsintensiver ist als die Modellanpassung selbst.

Bitte sagen Sie mir, was ist kein Müll? Ich habe noch nie jemanden gesehen, der von reinen Eingabedaten spricht. Aber im Forum höre ich immer wieder von Unsinn.

Was ist das? Wenn Sie von Müll reden, dann haben Sie keinen Müll gehabt, sonst gibt es nichts, womit man es vergleichen könnte.

 
СанСаныч Фоменко #:

Lassen Sie mich meinen Standpunkt klarstellen.

Jeder MO-Algorithmus versucht, den Fehler zu reduzieren. Die Fehlerreduzierung ist bei Müll effektiver, weil "günstige" Werte für die Fehlerreduzierung im Müll viel häufiger vorkommen. Folglich ist es sicher, dass die "Wichtigkeit" der Prädiktoren für Müll höher ist als für NICHT-Müll. Aus diesem Grund gibt es die Vorverarbeitung, die viel arbeitsintensiver ist als die eigentliche Modellanpassung.

Beim Preprocessing geht es um Normalisierung, nicht um Müll.
Müll ist Feature Selection und teilweise Feature Engineering.

Sanych, hören Sie auf, Müll in die Eingaben von Leuten zu geben, die unreif sind.
 
Ivan Butko #:

Können Sie mir bitte sagen, was kein Unsinn ist? Ich habe noch nie jemanden gesehen, der von sauberen Eingabedaten spricht. Aber ich höre im Forum ständig von Unsinn.

Was ist das? Wenn Sie von Müll sprechen, dann haben Sie keinen Müll gehabt, denn sonst gibt es nichts, womit Sie es vergleichen könnten.

Niemand weiß, was Müll ist und was nicht, das sind hypothetische Begriffe.

Wenn sie genau wüssten, was was ist, gäbe es keinen 3K-Seiten-Thread.)))

Man geht einfach davon aus, dass das Überschreiten dieser und jener Grenzen "Müll" ist, diese Grenzen sind ebenfalls hypothetisch. Deshalb ist der Ausdruck "Müll rein - Müll raus" nichts weiter als eine schöne Phrase, denn was für den einen Forscher Müll ist, ist für einen anderen Forscher kein Müll. Es ist wie mit Eliots Wellen.