Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 1278

 
elibrarius:

Etwas Ähnliches wie die Permutation, die Maxim gefunden hat. Aber ist es sinnvoll, einen Prädiktor mit einer Variation von 0,1 bis 0,2 durch eine Variation von 800 bis 300000 zu ersetzen, anstatt durch einen Prädiktor mit einer Variation von 0,1 bis 0,2? Nein!

Aber das Mischen der Reihen schon. Der Zahlenbereich und die Wahrscheinlichkeitsverteilung bleiben erhalten, aber die Werte in jedem Beispiel werden zufällig.

Ja, in der Tat, so etwas Ähnliches, da ist die Idee wahrscheinlich entstanden. Ich habe nicht verstanden, was das Problem ist, den Prädiktor zu ändern, weil jeder Prädiktor seine eigenen Werte auf der Linie hat, außerdem sollten wir irgendwie eine Rasteraufteilung dieser Werte speichern (es kann ein einheitlicher Schritt 0,1 0,2 0,3 oder ein anderer sein - Varianten sind von verschiedenen Entwicklern von Modellierern erhältlich), so wie es war, als der Baumalgorithmus funktionierte, wenn es möglich ist.

Und was auch wichtig ist, ist, dass man nicht alle Proben prüfen muss, sondern genau die Reihen, in denen das vorherige Blatt aktiviert wurde, damit die Daten in ihrer Genauigkeit vergleichbar sind, d.h. es ist notwendig, die Probe vorzufiltern (für die Auswertung auf verschiedenen Blättern, bzw. unterschiedlicher Filtration).

 
Aleksey Vyazmikin:

Ja, es sieht so ähnlich aus, wahrscheinlich kam die Idee dazu. Ich verstehe nicht, was das Problem ist, den Prädiktor zu ändern, weil jeder Prädiktor seine eigenen Werte auf der Linie hat, außerdem ist es notwendig, die Rasteraufteilung dieser Werte beizubehalten (es kann ein einheitlicher Schritt 0,1 0,2 0,3 oder ein anderer sein - es gibt Optionen für verschiedene Entwickler von Modellierern), wie es war, als der Baumalgorithmus funktionierte, wenn es möglich ist.

Nun, anstelle des Prädiktors, dessen Maximum 0,2 war, ersetzen Sie den Wert des anderen Prädiktors mit einem Wert von 800 bis 300000? Und es wird sich herausstellen, dass es immer zu den rechten Zweigen gehen wird. Und wir müssen sowohl den rechten als auch den linken Zweig überprüfen.
Die Normalisierung hilft, den Bereich einzugrenzen, aber die Wahrscheinlichkeitsverteilung kann unterschiedlich sein, so dass die rechten Zweige häufiger ausgelöst werden als die linken oder umgekehrt.
Oder habe ich Ihre Idee falsch verstanden und wir sprechen über unterschiedliche Dinge.

Aleksey Vyazmikin:

Wichtig ist auch, dass wir nicht die gesamte Stichprobe prüfen, sondern genau die Zeilen, in denen das vorherige Blatt aktiviert wurde, damit die Daten in ihrer Genauigkeit vergleichbar sind, d.h. wir sollten die Stichprobe vorfiltern (für die Auswertung auf verschiedenen Blättern bzw. unterschiedliche Filterung).

Indem wir den Prädiktor verwerfen, lassen wir die Knoten fallen, die seine Daten trennen (warum ein separates Blatt?). Durch das Verwerfen jedes Knotens müssen wir 2 Zweige überprüfen. Wenn wir 10 Knoten verwerfen, erhalten wir 11 Optionen (Teilbäume) mit 11 Blättern als Antwort. Dies muss gemittelt werden. Wenn man die gesamte Stichprobe mit einer gemischten Spalte durchführt, zeigt sich dies ungefähr in der Veränderung des endgültigen Baum-/Waldfehlers.
Lesen Sie den Artikel über Pemutation - dort ist alles ausführlich beschrieben.

 
elibrarius:

Ersetzen Sie einfach den Wert des Prädiktors mit einem Maximum von 0,2 durch den Wert des anderen Prädiktors mit Werten zwischen 800 und 300000. Und es wird sich herausstellen, dass es immer zu den rechten Zweigen gehen wird. Und wir müssen sowohl den rechten als auch den linken Zweig überprüfen.
Die Normalisierung hilft, den Bereich einzugrenzen, aber die Wahrscheinlichkeitsverteilung kann unterschiedlich sein, so dass die rechten Zweige häufiger ausgelöst werden als die linken oder umgekehrt.
Oder ich verstehe Ihre Idee nicht und wir reden über unterschiedliche Dinge.

Indem wir den Prädiktor verwerfen, verwerfen wir die Knoten, die Daten über ihn austauschen (was hat das mit einem separaten Blatt zu tun?). Durch das Verwerfen jedes Knotens müssen wir 2 Zweige überprüfen. Wenn wir 10 Knoten verwerfen, erhalten wir 11 Auswahlmöglichkeiten mit 11 Blättern als Antwort. Dies muss gemittelt werden. Wenn man die gesamte Stichprobe mit einer gemischten Spalte durchführt, zeigt sich dies ungefähr in der Veränderung des endgültigen Baum-/Waldfehlers.
Lesen Sie den Artikel über Pemutation - dort wird alles ausführlich beschrieben.

Meine Methode ist keine Pemutation, daher kann ich sie nicht reproduzieren.

Ich gehe davon aus, dass ein Blatt eine bereits abgeschlossene Regel ist - ein Merkmal einer Beobachtung, und es kann durchaus schon ohne Baumstruktur existieren. Ein Baum ist ein Instrument zur Erstellung von Regeln aus Beobachtungen.

Natürlich stimme ich zu, dass einige Prädiktoren eine modifizierte Blattregel für denselben Teil der Stichprobe völlig unbrauchbar machen, aber das ist kein Problem, da das Ziel darin besteht, das beste Analogon zu finden und nur mit diesem zu vergleichen - es ist normal, dass einige Prädiktoren, die die Stichprobe durch Splits aufteilen, verloren gehen, aber dies betrifft in der Regel nur die Wertreihen für einen einzelnen Prädiktor. Wir haben zum Beispiel ein Blatt mit drei Prädiktoren A>3 && B<1 && C>=20, gibt es Prädiktoren D und E, die nicht in den Listenregeln enthalten sind, bzw. wir müssen einen nach dem anderen jeden Prädiktor entfernen, zunächst A, und ihn durch D und E ersetzen, mit Stufen der Werteteilung des Prädiktors und mit unterschiedlichen Ungleichheitszeichen, in diesem Fall prüfen wir jede neue Regel an denselben Teilen der Stichprobe, an denen die ursprüngliche aktiviert wurde, und erhalten Statistiken der Klassifizierungsgenauigkeit für jede Regel. Daher ist es am besten, sie mit dem Original zu vergleichen und diesem Vergleich eine Note zu geben. Dieses Verfahren wird für alle Blätter durchgeführt. Ausgenommen sind die Blätter, die doppelt vorhanden sind. Es ist wichtig, nicht das Ergebnis des Baums als eine Menge von Regeln zu bewerten, sondern jede Regel, die in einem Blatt angegeben ist, getrennt von den anderen.

Ich versuche nicht, die Bedeutung des Prädiktors für den Gierbaum zu bestimmen, sondern die Bedeutung des Prädiktors für die Stabilität der vom Modell vorgeschlagenen Regel (Blatt).
 
Aleksey Vyazmikin:

Meine Methode ist keine Pemutation, daher kann ich sie nicht reproduzieren.

Ich gehe davon aus, dass ein Blatt eine bereits abgeschlossene Regel ist - ein Merkmal einer Beobachtung, und es kann durchaus schon ohne Baumstruktur existieren. Ein Baum ist ein Instrument zur Erstellung von Regeln aus Beobachtungen.

Natürlich stimme ich zu, dass einige Prädiktoren eine modifizierte Blattregel für denselben Teil der Stichprobe völlig unbrauchbar machen, aber das ist kein Problem, da das Ziel darin besteht, das beste Analogon zu finden und nur mit diesem zu vergleichen - es ist normal, dass einige Prädiktoren, die die Stichprobe durch Splits aufteilen, verloren gehen, aber dies betrifft in der Regel nur die Wertreihen für einen einzelnen Prädiktor. Wir haben zum Beispiel ein Blatt mit drei Prädiktoren A>3 && B<1 && C>=20, gibt es Prädiktoren D und E, die nicht in den Listenregeln enthalten sind, bzw. wir müssen einen nach dem anderen jeden Prädiktor entfernen, zunächst A, und ihn durch D und E ersetzen, mit Stufen der Werteteilung des Prädiktors und mit unterschiedlichen Ungleichheitszeichen, in diesem Fall prüfen wir jede neue Regel an denselben Teilen der Stichprobe, an denen die ursprüngliche aktiviert wurde, und erhalten Statistiken der Klassifizierungsgenauigkeit für jede Regel. Daher ist es am besten, sie mit dem Original zu vergleichen und diesem Vergleich eine Note zu geben. Dieses Verfahren wird für alle Blätter durchgeführt. Ausgenommen sind die Blätter, die doppelt vorhanden sind. Es ist wichtig, nicht das Ergebnis des Baums als eine Menge von Regeln zu bewerten, sondern jede im Blatt angegebene Regel getrennt von den anderen.

Ich versuche nicht, die Bedeutung des Prädiktors für den Gierbaum zu bestimmen, sondern die Bedeutung des Prädiktors für die Stabilität der vom Modell vorgeschlagenen Regel (Blatt).
Bis jetzt habe ich das Gerüst gemacht. Also in Richtung MO - Sie wissen, was zu tun ist)
 
elibrarius:
Im Moment bin ich noch eingerüstet. Also in Richtung MO - Sie wissen, was zu tun ist)

Es stellt sich also heraus, dass jeder über seine eigene Sache spricht :)

Ist es realistisch, auf derselben Alglib einen Wald nur mit eindeutigen Prädikatorwerten oder zumindest mit eindeutigen Splits zu erstellen? Die Zahl der Bäume wird natürlich geringer sein, aber sie werden ihre Fehler/Rechtsantworten nicht duplizieren, was zu mehr Plausibilität beim Training von Stichproben führen sollte.

 
Aleksey Vyazmikin:

Ist es realistisch, auf derselben Alglib einen Wald nur mit eindeutigen Prädikatorwerten oder zumindest mit eindeutigen Splits zu erstellen? Das sind natürlich weniger Bäume, aber sie werden ihre Fehler/Rechtsantworten nicht duplizieren, was zu mehr Plausibilität außerhalb der Trainingsstichprobe führen sollte.

Ja, natürlich. Mit MQL können Sie alles programmieren, wie mit jeder anderen Sprache auch. Und Alglib kann bis zur Unkenntlichkeit umgeschrieben werden, ganz nach Ihren Vorstellungen.

 
Elibrarius:

Ja, natürlich. Mit MQL können Sie alles programmieren, genau wie mit jeder anderen Sprache. Und Alglib kann bis zur Unkenntlichkeit umgeschrieben werden, um Ihren Vorstellungen zu entsprechen.

In das Wort "realistisch" habe ich "so einfach wie das" geschrieben...

Aber aus der Antwort schließe ich, dass ich mich nicht darum kümmern werde.

 
Aleksey Vyazmikin:

In das Wort "realistisch" habe ich "so einfach wie das" geschrieben...

Aber aus der Antwort entnehme ich die Haltung, danke, ich werde mich nicht darum kümmern.

Kompliziert, natürlich.
Aber es gibt eine Basis in Form einer Baumfunktion. Das können Sie nach Belieben ändern.
 
elibrarius:
Das ist natürlich schwierig.
Aber es gibt eine Basis in Form einer Baumfunktion. Das können Sie nach Belieben ändern.

Ich danke Ihnen für Ihre Antwort. Sie kennen sich mit dem Code gut aus. Planen Sie eine öffentliche Veröffentlichung mit Verbesserungen am Algorithmus zur Baumerstellung? Sogar Dinge wie die Tiefe des Baums oder das integrierte Beschneiden auf eine definierbare Regelbeobachtungszahlgröße wären hier sehr nützlich. Ich habe selbst noch nicht mit Alglib angefangen, aber es gibt Leute, die es sehr nützlich finden könnten.

 
Aleksey Vyazmikin:

Ich danke Ihnen für Ihre Antwort. Sie kennen sich mit dem Code gut aus. Planen Sie eine öffentliche Veröffentlichung mit Verbesserungen am Algorithmus zur Baumerstellung? Sogar Dinge wie die Tiefe des Baums oder das integrierte Beschneiden auf eine definierbare Regelbeobachtungszahlgröße wären hier sehr nützlich. Ich habe Alglib selbst nicht benutzt, aber es gibt Leute, die es sehr nützlich finden könnten.

Es herauszufinden und zu veröffentlichen ist etwas anderes. Ich bin gerade am Experimentieren. Ich mische jetzt die Prädiktoren. Vielleicht werde ich es aufgeben, so wie ich NS aufgegeben habe, weil ich den Lärm nicht ertragen konnte.

Das herauszufinden ist ganz einfach. Sie müssen sich den Code nur ein paar Stunden lang ansehen, dann wird Ihnen alles klar.
Grund der Beschwerde: