Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 3024

 
Maxim Dmitrievsky #:

Ich schlage vor, diesen Hut in Python mit einem Baum mit einer Auswahl von Blättern in Kolab zu erstellen, in den man seine Datensätze einfügen kann

Wenn Sie irgendwelche Ideen haben, was besser/schlechter ist, Regeln, um nur die besten oder durch einige Filter zu nehmen, schlagen Sie es vor

Ich möchte vergleichen, indem ich einen Datensatz durch beide Ansätze laufen lasse. Dann werden wir verstehen, was was ist :)

Interessante Idee!

Zuallererst müssen wir verstehen, welche Baumimplementierung es erlaubt, die Regeln des Blattes leicht herauszuziehen, um mit ihnen weiter zu arbeiten.

Dann die Art, wie der Baum aufgebaut wird - gierig oder genetisch. Ich habe die Blätter der Bäume aller Populationen überprüft (falls ich es nicht richtig verstanden habe :))

Natürlich kann man statt der Genetik auch Waldbäume verwenden, aber dann braucht man mehr Bäume, um nach Blättern zu suchen, und man muss den Prozentsatz der Beispiele im Blatt von der gesamten Stichprobe abschneiden. Waldbäume können schneller sein als Genetik und haben natürlich weniger Einstellungen.

Der Prozess der Erzeugung neuer Blätter sollte so lange durchgeführt werden, bis die erforderliche (festgelegte) Anzahl ausgewählter Blätter erreicht ist.

In diesem Fall muss vor der Erstellung des Baums die Generierung einer zufälligen Teilstichprobe aus zwei Arten von Stichproben sichergestellt werden - bei der ersten handelt es sich um die Auswahl von N Teilen aus kontinuierlichen gleichmäßigen Intervallen der angegebenen Größe als Prozentsatz der Trainingsstichprobe, bei der zweiten um eine vollständig zufällig erhaltene Teilstichprobe.

Ein zufälliger Satz von Prädiktoren, die für die Konstruktion des Baums verwendet werden.

Über die Vorverarbeitung für alle Daten muss mehr nachgedacht werden.

Kriterien für die Bewertung der Blätter - können auch später hinzugefügt werden, aber das Wesentliche ist, dass die Metriken einen bestimmten Schwellenwert haben. Ich weiß nicht, welche Metriken Sie haben, und ich weiß nicht mehr, welche ich verwendet habe - ich muss den Code analysieren. Sie können den Saldo, die Erwartungsmatrix und den Erholungsfaktor nehmen.

Die Schätzung sollte in jedem Intervall der gesamten Trainingsstichprobe erfolgen, die Anzahl der Intervalle wird festgelegt. Wird das geforderte Kriterium in einem Intervall nicht erreicht, wird das Blatt archiviert oder verworfen. Ich habe eine Datenbank mit Blättern angelegt und Duplikate entfernt, um sie nicht erneut prüfen zu müssen.

Nach der Auswahl der Blätter sollten diese nach ihrer Ähnlichkeit gruppiert werden, vielleicht ist das bei der Rangkorrelation der Fall. Dann verteilt man die Gewichte innerhalb der Gruppe und legt die Abstimmungsregeln für die Gruppen fest. Vielleicht ist das aber auch schon zu viel, und es lohnt sich, zumindest zu lernen, wie man Blätter so auswählt, dass neue Daten wirksam werden.


Ich bin mir nicht ganz sicher, mit welcher Probe Sie das Experiment durchführen wollen - mit der, die ich Ihnen gebe, oder mit der, die zufällig erstellt wird?

Um die Methoden zu vergleichen, sollte die Stichprobe auf jeden Fall dieselbe sein und ein großes Zeitintervall umfassen, was es ermöglicht, wenn nicht die Zyklizität, so doch die Trends der verschiedenen Marktphasen auf großen TFs zu berücksichtigen.

Ich möchte gleich anmerken, dass die von mir verwendete Methode sehr langsam ist. Vielleicht ist es besser, den Prozess der Blattauswertung in MQL5 zu machen - es wird erlauben, die Last auf die Kerne zu verteilen.

 
Aleksey Vyazmikin #:

Interessante Idee!

Ich werde erst einmal ein einfaches Beispiel auf einem Baum skizzieren und es sofort testen, dann werden wir es nach Wunsch erweitern

auf einen beliebigen Datensatz, über google disc kann man es herunterladen und dort testen ohne etwas zu installieren.

Ich möchte, dass es schnell funktioniert )
 
Maxim Dmitrievsky #:

Ich werde zunächst ein einfaches Beispiel auf einem Baum skizzieren, damit es sofort getestet werden kann, und es dann nach Bedarf erweitern

auf einen beliebigen Datensatz, über google disc kann man es herunterladen und dort testen, ohne etwas zu installieren.

Ich möchte, dass es schnell funktioniert )

Gut - die Hauptsache ist, dass wir anfangen! :)

 
Maxim Dmitrievsky #:

Das ist nicht mehr lustig.

Was hat das mit "lustig" zu tun?

Gibt es ein Out-of-Sample oder nicht?

 
СанСаныч Фоменко #:

Was hat das mit "lustig" zu tun?

Gibt es ein Out-of-Sample oder nicht?

Und wenn ich finde

 
Maxim Dmitrievsky #:

und wenn ich finde

Es gibt kein "wenn". Es ist ein Beurteilungsmaßstab. Jede Schätzung ohne eine Schätzung außerhalb der Stichprobe ist uninteressant.

 
Maxim Dmitrievsky #:

und wenn ich finde

Erstellen Sie ein OOS-Diagramm für zehn Perioden vorwärts und rückwärts.

 
СанСаныч Фоменко #:

Das hat nichts mit "wenn" zu tun. Es geht um einen Beurteilungsmaßstab. Jede Bewertung ohne eine Bewertung außerhalb der Stichprobe ist uninteressant.

In Ordnung, das ist genug gelacht
 
Valeriy Yastremskiy #:

Erstellen Sie ein OOS-Diagramm für zehn Perioden vorwärts und rückwärts.

Das sind 100 Jahre
 
Maxim Dmitrievsky #:
Das ist genug gelacht.

Sprechen Sie mit dem Ägypter oder mit mir?

Ich stelle fest, dass ich mit Ihrer Tätigkeit in diesem Bereich recht zufrieden bin.

Grund der Beschwerde: