Gibt es ein Muster in diesem Chaos? Lassen Sie uns versuchen, es zu finden! Maschinelles Lernen am Beispiel einer bestimmten Stichprobe. - Seite 19

 

Der Gewinn ist gleich dem Delta der Preisbewegung ab einem bestimmten Zeitpunkt.

Noch überrascht mich nichts.

Wir haben die Long Tails bereits hinter uns gelassen ....

 
Renat Akhtyamov #:

Der Gewinn ist gleich dem Delta der Preisbewegung von einem bestimmten Zeitpunkt an.

Noch überrascht mich nichts.

Wir haben die Long Tails bereits hinter uns gelassen ....

Warum hast du das gerade geschrieben? Nun ja, richtig, man kann kein Thema verwenden, um seine Gedanken am Rande zu markieren....

 
Aleksey Vyazmikin #:

Abbildung 13 zeigt, dass fast alle verfügbaren Prädiktoren verwendet werden, außer einem, aber ich bezweifle, dass dies die Ursache des Problems ist. Es geht also nicht so sehr um die Verwendung, sondern um die Reihenfolge der Verwendung bei der Erstellung des Modells?

Ja, das ist es. Wenn Sie zwei Modelle mit denselben Prädiktoren trainieren, aber der erste Split auf einen Prädiktor und der zweite auf den anderen erfolgt, dann wird der gesamte zugrundeliegende Baum für jede Variante recht unterschiedlich sein.

Die andere Frage ist, warum sich die ersten Splits durch Bousting auf demselben Datensatz unterscheiden? Ist der Koeffizient für die Anzahl der Spalten !=1 wie im Forest? Im Forest ist er für die Zufälligkeit. Aber ich denke, er sollte ==1 sein.
Dann gibt es noch eine andere Möglichkeit: verschiedene Seed für Modelle? Versuchen Sie es mit dem gleichen, wenn das Ergebnis das gleiche ist, dann denke ich, es ist sehr schlecht, dass Seed ein profitables Modell unprofitabel machen kann.

 
Übrigens, was bedeutet bei Cutbust Seed das Zufallsprinzip?
 
Aleksey Vyazmikin #:

Warum haben Sie das gerade geschrieben? Nun, richtig, Sie können kein Thema verwenden, um Ihre Gedanken in den Margins zu markieren....

über Ihre Diagramme

 
elibrarius #:

Ja, das stimmt. Wenn Sie zwei Modelle mit denselben Prädiktoren trainieren, aber der erste Split nach einem Prädiktor und der zweite nach einem anderen erfolgt, dann wird der gesamte zugrundeliegende Baum der beiden Varianten recht unterschiedlich sein.

Das beweist einmal mehr, dass die Gier-Methode bei der Auswahl von Splits fehlerhaft ist. Ich habe selbst mit dieser Methode experimentiert, als ich Blätter auswählte, und bin zu demselben Ergebnis gekommen.

elibrarius #:

Die Frage ist eine andere: Warum führt das Bousting mit demselben Datensatz dazu, dass sich die ersten Splits unterscheiden? Ist der Koeffizient für die Anzahl der Spalten !=1 wie in Forest? In Forest ist er für die Zufälligkeit. Aber ich denke, er sollte ==1 sein.

So wie ich es verstehe, gibt es hier ein Analogon für die Auswahl eines Teils der Spalten für die Auswertung, aber ich habe es so eingestellt, dass alle Spalten erzwungen werden.

elibrarius #:

Dann eine andere Möglichkeit: verschiedene Seed für die Modelle? Versuchen Sie es mit dem gleichen, wenn das Ergebnis das gleiche ist, finde ich es sehr schlecht, dass Seed ein profitables Modell unprofitabel machen kann.

Seed fixiert das Ergebnis, d.h. alles wird gleich sein.

elibrarius #:
Übrigens, was in Cutbust macht Seed zufällig?

So wie ich es verstehe, setzt es den Zähler des Zufallszahlengenerators auf einen bestimmten Wert, und dieser Generator wird zumindest so verwendet, wie sie schreiben "there is a randomisation of the metric by which the best tree is chosen." und es verwendet sozusagen den Zufallszahlengenerator plus einen Koeffizienten, der, so wie ich es verstehe, vom Parameter --random-strength genommen wird (bei mir ist es 1).

Hier ist die Formel:

Ergebnis += random_strength * Rand (0, lenofgrad * q)

q ist ein Multiplikator, der mit zunehmender Iteration abnimmt. Der Zufallswert nimmt also zum Ende hin ab.

"

Aber sie schreiben dort auch, dass eine Teilstichprobe zum Aufbau eines Baumes verwendet werden kann, aber ich verwende den Modus für die volle Anwendung der Stichprobe "--boosting-type Plain".


Es gibt auch so einen Effekt, wenn ich nach dem Training Spalten entferne, die das Modell nicht verwendet, dann kann ich das Modell nicht mit dem gleichen Seed bekommen - was nicht klar ist.

 
Renat Akhtyamov #:

Ihre Diagramme werden geschrieben

Wie lässt sich der Satz "Der Gewinn ist gleich dem Delta der Kursbewegung ab einem bestimmten Zeitpunkt" auf diese Diagramme anwenden? " ?

Und dieser Satz dann "Long Tails haben wir bereits überschritten ...." soll ich annehmen, dass ich Ihnen eine Art Schulung anbiete? Das tue ich aber nicht, und Tails werden hier im Forum in der Regel zur Modellierung der Verteilungsdichte von Kursveränderungen verwendet - was ich im Histogramm gar nicht habe. Und eigentlich sollten wir hier nicht über Risiken sprechen, sondern über die Tatsache, dass es schwieriger ist, ein Modell nach dem Zufallsprinzip zu erstellen, als wenn man die Struktur der Signifikanz der Prädiktoren und ihre Abhängigkeit versteht.

 
Aleksey Vyazmikin #:

Wie bezieht sich die Aussage "Der Gewinn ist gleich dem Delta der Kursbewegung ab einem bestimmten Zeitpunkt" auf diese Diagramme? " ?

Und dieser Satz dann "Long Tails haben wir bereits überschritten ...." soll ich annehmen, dass ich Ihnen eine Art Schulung anbiete? Das tue ich aber nicht, und Tails werden hier im Forum in der Regel zur Modellierung der Verteilungsdichte von Kursveränderungen verwendet - also überhaupt nicht das, was ich im Histogramm habe. Und eigentlich sollten wir hier nicht über Risiken sprechen, sondern über die Tatsache, dass es schwieriger ist, ein Modell nach dem Zufallsprinzip zu erstellen, als wenn man die Struktur der Signifikanz der Prädiktoren und ihre Abhängigkeit versteht.

Ich habe auf die Tatsache reagiert, dass es ein Muster im Chaos gibt.

ist genau diese Art von Histogrammen, egal mit welcher Logik/welchem Ansatz/welcher Formel/welcher Theorie etc. Sie angewandt und Sie werden keine anderen Muster finden

 
Aleksey Vyazmikin #:

Das beweist einmal mehr, dass die Methode der Gier bei der Auswahl von Splits fehlerhaft ist. Ich habe bei der Auswahl der Blätter selbst damit experimentiert und bin zu demselben Ergebnis gekommen.

Und ohne Gier? Sie können für jeden Split einen anderen berechnen und ein Paar auf einmal auswählen, aber in Ihrem Fall wird sich die Dauer der Berechnungen in 5000+ Mal erhöhen. Es ist einfacher, einen Durchschnitt von hundert Modellen zu berechnen.

So wie ich es verstanden habe, gibt es ein Analogon für die Auswahl eines Teils der Spalten für die Auswertung, aber ich habe die Verwendung aller erzwungen.

Es heißt aber auch, dass eine Teilstichprobe zur Erstellung eines Baums verwendet werden kann, aber ich verwende den Modus für die vollständige Anwendung der Stichprobe "--boosting-type Plain".

Um den Einfluss des Zufalls zu reduzieren, ist das richtig. Andernfalls müssen Sie wie im Wald einen Mittelwert aus 20-100 Modellen bilden.

Aleksey Vyazmikin #:

So wie ich es verstehe, wird der Zähler des Zufallsgenerators auf einen bestimmten Wert gesetzt, aber dieser Generator wird zumindest so verwendet, wie sie schreiben "es gibt eine Randomisierung der Metrik, durch die der beste Baum ausgewählt wird." und es wird sozusagen ein Zufallsgenerator plus ein Koeffizient verwendet, der, so wie ich es verstehe, vom Parameter --random-strength genommen wird (ich habe 1).

Hier ist die Formel:

Ergebnis += random_strength * Rand (0, lenofgrad * q)

q ist ein Multiplikator, der mit zunehmender Iteration abnimmt. Der Zufallswert nimmt also zum Ende hin ab.

Das heißt, es stellt sich heraus, dass die Verfeinerungsbäume vielleicht nicht die besten sind, aber zufällig schlechter.
Daraus ergibt sich die Streuung der Modelle von Pflaume bis profitabel.
Nach den Verteilungsdiagrammen zu urteilen, gibt es mehr Modelle, die weniger profitabel sind, d. h. wenn wir den Durchschnitt bilden, wird das durchschnittliche Ergebnis unprofitabel sein.



Sollte ich es mit random-strength = 0 versuchen? Hoffentlich ändern die Seed-Änderungen das Modell danach nicht mehr. Vielleicht sollte ich ein Modell mit besseren Verfeinerungsbäumen erstellen, statt mit zufällig schlechten Bäumen. Wenn das beste Modell Pflaume sein wird, dann suchen Sie auf diesen Daten von 10000 zufälligen Modellen zufällig das beste ist der Weg zu Pflaume auf real.

Oder noch durchschnittlich ein paar zufällig ausgewählte Modelle, wie in den Wald. Denn das beste Modell kann neu trainiert werden.

 
Renat Akhtyamov #:

Ich habe auf die Tatsache reagiert, dass das Chaos ein Muster hat.

sind genau diese Art von Histogrammen, egal welche Logik/Ansatz/Formel/Theorie usw. Sie anwenden. Sie angewendet und Sie werden keine anderen Muster finden

Was meinen Sie damit, dass es ein Muster gibt, aber Sie werden es nicht finden? Oder liegt die Regelmäßigkeit in der Zufälligkeit?

Grund der Beschwerde: