Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 1613

 
Aleksey Mavrin:

Welche Argumente, wenn Sie das tun, bedeutet das, dass entweder Sie etwas nicht verstehen oder ich etwas verstehe.

Der Punkt meiner Überraschung ist, dass ein trainiertes Modell, von dem wir hier sprechen, auf den Rohdaten trainiert werden muss.

Sind in den Eingabedaten korrelierte Daten vorhanden, sollten sie auf unkorrelierte reduziert werden.

Hier ein Beispiel - wir bringen dem Modell bei, Farbtöne anhand von 3 Ziffern zu klassifizieren - RGB. Dreistellig, das sind die reinen Rohdaten!!! In Ihrem Ansatz müssen Sie Vorhersagen treffen wie:

1- R 2-G 3-B - 4 Mehr Rot 5 -Mehr Grün 6- Mehr Rot als Grün und Blau zusammen .... 100500 Nicht so rot wie es wäre, wenn Grün so rot wie Blau wäre. ))

Muss das Modell nicht selbst lernen, es hat ja die Rohdaten und dafür ist es ja da!


Und Sie tun das Gegenteil - Sie multiplizieren die Rohdaten, die miteinander korreliert sind.

Vielleicht irre ich mich, aber mir scheint, dass man nur dann ein klares Muster erhält, wenn man die Zeichen in elementare Teile unterteilt (wie die Protokollierungsregeln). Kehren wir zu demselben Beispiel mit den Kerzen zurück

Wir haben 45 Möglichkeiten, wenn das reine und einzige Muster ist

open[-1]<low

und das war's!, es gibt nichts anderes in diesen 45 Auswahlmöglichkeiten. Ich habe die Aufzählung vorgenommen, eine Regel (eine Korrektur) ausgewählt und verwende sie.

Sie schlagen vor, die "Originalserie" zu nehmen, weil "das Netz sie finden wird", wie ich es in Ihrem Fall verstehe:

open[1:2] ; high[1:2] ; low[1:2] ; close[1:2]

Kurz und bündig,

Ich habe eine Sache, einsauberes Muster in Form einer Regel, eines Wertes, kein Rauschen.

Sie haben 4 Zeilen (OHLC) mit zwei Werten für insgesamt 8 Werte, + Rauschen

Frage: Wer hat eine redundantere und korreliertere Stichprobe?

 
mytarmailS:


Aber Sie tun das Gegenteil - Sie erzeugen Rohdaten, die miteinander korreliert sind.

Vielleicht irre ich mich, aber mir scheint, dass man ein reines Muster nur herausziehen kann, wenn man die Zeichen in elementare Teile zerlegt (z. B. Logarithmusregeln). Kehren wir zu demselben Beispiel mit den Kerzen zurück

Wir haben 45 Möglichkeiten, wenn das reine und einzige Muster ist

und das war's!, es gibt nichts anderes in diesen 45 Auswahlmöglichkeiten. Ich habe die Aufzählung vorgenommen, eine Regel (eine Korrektur) ausgewählt und verwende sie.

Sie schlagen vor, die "Originalserie" zu nehmen, weil "das Netz sie finden wird", wie ich es in Ihrem Fall verstehe:

Kurz und bündig,

Ich habe eine Sache, einsauberes Muster in Form einer Regel, eines Wertes, kein Rauschen.

Sie haben 4 Zeilen (OHLC) mit zwei Werten für insgesamt 8 Werte, + Rauschen

Frage: Wer hat eine redundantere und korreliertere Stichprobe?

1. Wahrscheinlich liegen Sie falsch.

2.3 Dies ist nicht der Fall, weil die Reihe nicht stationär ist. Sie haben das Modell einfach an die Serie angepasst, es ist nicht einmal klar, was MO überhaupt damit zu tun hat, wenn Sie angeblich "ein reines Muster isolieren". Wenn es eine solche reine Regelmäßigkeit gäbe, würde die MO nicht einmal erfunden werden, sie wird durch andere elementare Methoden gefunden.

4. Wenn man, wie Sie sagen, ein Merkmal herausgreift, hat man ein 100% übertrainiertes=untertrainiertes, 100% blindes, nichts sehendes und daher 100% "dummes" Modell (entschuldigen Sie die Stumpfheit)

S.s. Lang lebe MO für die Massen! )))

 
Aleksey Mavrin:

1. Wahrscheinlich liegst du falsch.

Ok, wahrscheinlich hast du recht, aber ich denke, du verstehst, dass diese Beschreibung mit einer Regel nur ein Beispiel war, für einen klareren Ausdruck des Gedankens sollten wir natürlich ein Ensemble von Regeln machen... Und es ist interessant, was besser ist, ein Ensemble von 100 harten (statistischen) Regeln oder ein Ensemble von 3000 schwächeren (probabilistischen) Regeln. Ich denke, wenn wir das Problem direkt lösen, d.h. wenn wir auf Eingabedaten trainieren, ist die zweite Variante wegen der gleichen Nicht-Stationarität besser, aber wenn wir ein Marktmodell mit stationären Eigenschaften bauen wollen, sollten wir wahrscheinlich die erste Variante bevorzugen, obwohl nicht unbedingt... Wie auch immer, ich werde nicht mehr diskutieren, Sie haben mich mehr als überzeugt...

 
Aleksey Vyazmikin:

Ich bin nicht sehr zufrieden mit den Ergebnissen. Ich habe eine ansehnliche Menge an Blättern gesammelt, aber die nächste Frage ist, wie ich sie am besten miteinander kombinieren kann. Das Problem ist, dass sie sich oft um 20-50 % oder mehr überschneiden und daher das gleiche Signal liefern, was nicht sehr gut ist. Die Idee ist, sie in Gruppen zusammenzufassen und für jede Gruppe eine Aktivierungsschwelle festzulegen, und ich versuche herauszufinden, wie man das besser machen kann.

Die Frage der Auswahl der Blätter ist nicht bis zum Ende gelöst, auch die Auswahl der Blätter, die gute Ergebnisse in jedem der 5 Jahre gezeigt haben, können erwarten, dass 20%-40% aufhören zu arbeiten, was noch trauriger ist, ist die Unfähigkeit zu verstehen, ob sie ausschalten oder nicht - vor allem von Quartalen hat den Test, es stellte sich heraus, dass die Blätter im letzten Quartal in den folgenden Quartalen überschreiben den Verlust (viele).

Die Methode der Blattselektion selbst scheint vielversprechend zu sein, aber der Prozess ist extrem langsam.

Ein kleiner Necropost, um zu fragen: Warum kann man nicht zunächst einen Baum auf der Grundlage der Optimalitätsbedingung eines Portfolios aus seinen Blättern aufbauen (ungefähr wie in der Markowitz-Theorie)? Vielleicht wurde dies bereits irgendwo diskutiert, aber ich habe es nicht gesehen.

 
Aleksey Nikolayev:

Ein kleiner Necroposting-Beitrag, um zu fragen: Warum kann man nicht zunächst einen Baum auf der Grundlage der Optimalitätsbedingung eines Portfolios seiner Blätter aufbauen (in etwa wie die Theorie von Markowitz)? Vielleicht wurde dies bereits irgendwo diskutiert, aber ich habe es nicht gesehen.

Ich habe bereits mehrfach geschrieben, dass die verfügbaren MO-Modellbildungsalgorithmen nicht für den Handel geeignet sind, weil sie die Nuancen verrauschter Zeitreihen nicht berücksichtigen. Dies wird beispielsweise deutlich, wenn ein Prädiktorwert für die Aufteilung verwendet wird, der eine aggregierte Vorzugsverteilung der Wahrscheinlichkeit einer korrekten Klassifizierung über die gesamte Stichprobe ergibt, die jedoch nur durch ein seltenes Phänomen verursacht werden kann, das in einem Teil der Stichprobe gehäuft auftritt. Ich untersuchte die beprobten Blätter auf ihre Aktivierungshäufigkeit, und das wurde mir klar.

Also ja - es ist möglich, zunächst zu bauen, was Sie brauchen, aber dazu müssen Sie den Lernalgorithmus ändern (ich habe nicht genug Kompetenz in der Programmierung hier), oder schätzen Sie die Zufälligkeit mit verschiedenen Methoden, das ist, was ich tue. Allerdings verstehe ich nicht, was mit"optimalen Portfoliobedingungen" gemeint ist.

Es gibt noch eine andere Variante - die Bereiche der Prädiktorwerte auszuwählen, die die Verschiebung der Klassifizierungswahrscheinlichkeit der Zielwerte im Verhältnis zur gesamten Stichprobe verbessern, und für sie separate Prädiktoren zu erstellen - diese Idee setze ich gerade um, aber ich weiß noch nicht, was das Ergebnis sein wird.

Ich kann mich übrigens nicht daran erinnern, dass die Aufteilung eines Prädiktors in Bereiche für die weitere Verwendung bei der Erstellung von Baummodellen erörtert wurde, obwohl ich der Meinung bin, dass dieses Thema wichtige Aspekte enthält, die erörtert werden müssen und sich direkt auf die Modellerstellung und damit auf das Endergebnis auswirken.

 
Aleksey Vyazmikin:

Ich habe schon oft geschrieben, dass die verfügbaren MO-Modellierungsalgorithmen nicht für den Handel geeignet sind

Sie meinen wohl, dass die Standard-Datendarstellung für MOs nicht für den Handel geeignet ist... Es ist nicht die Schuld der IR.

Aleksey Vyazmikin:


Ich kann mich übrigens nicht daran erinnern, dass die Erstellung eines Prädiktorenrasters, das später bei der Konstruktion von Baummodellen verwendet werden soll, erörtert worden wäre.

Was meinen Sie mit dem Aufteilungsgitter?

 
Aleksey Vyazmikin:

Allerdings verstehe ich nicht, was mit"Portfolio-Optimalitätsbedingungen" gemeint ist.

Maximierung der Portfoliorendite bei einem festen (akzeptablen) Risikoniveau (Volatilität oder Drawdown).

Offensichtlich ja, die Algorithmen werden sich ändern müssen. Es müssen viele Korrelationen zwischen Aktien verschiedener Blätter berechnet werden, was sehr zeitaufwändig werden kann.

Ich dachte nur, dass ein solches Thema vielleicht schon einmal im Forum diskutiert worden ist.

 
Aleksey Vyazmikin:

Ich kann mich übrigens nicht daran erinnern, dass ein Prädiktorenraster für das Scoping in Baummodellen diskutiert wurde, was mir ein wichtiges Diskussionsthema zu sein scheint und sich direkt auf die Modellbildung und damit auf das Endergebnis auswirkt.

Der Baum macht genau das, er nimmt einen unterschiedlichen Bereich von jedem Prädiktor und prüft, welcher besser ist.

Der erste teilt sich in die Hälfte, die beste Hälfte wieder in die Hälfte, das beste Viertel wieder in die Hälfte usw. und so weiter mit jedem Prädiktor. Der Knoten wird die beste Aufteilung aus all diesen Teilen über alle Prädiktoren hinweg.
Machen Sie das manuell? Der Algorithmus erledigt das perfekt und schnell.

Aleksey Vyazmikin:

Diese Verteilung kann jedoch nur durch ein seltenes Phänomen verursacht werden, das in einem Teil der Stichprobe gehäuft auftritt. Ich untersuchte die beprobten Blätter auf die Aktivierungshäufigkeit und es wurde mir klar.

Es ist notwendig, nach Prädiktoren zu suchen, mit denen dieses seltene Phänomen erkannt werden kann. Wenn es Prädiktoren gibt, dann werden die einfachsten Standardmodelle alles finden.

 
mytarmailS:

Wahrscheinlich wollten Sie sagen, dass die Standardtypen der Informationsdarstellung für MOs nicht für den Handel geeignet sind... Es ist nicht die Schuld der MO.)

Ich habe gesagt, was ich sagen wollte - es gibt viele Nuancen, die bei der Ausbildung mit den üblichen Methoden der Modellbildung nicht berücksichtigt werden. Das Problem kann durch die Verfeinerung dieser Methoden, die Auswahl von Leistungsergebnissen und zusätzliches Training von Prädiktoren gelöst werden, vielleicht gibt es auch andere Möglichkeiten, aber bisher sind sie mir nicht bekannt.


mytarmailS:

Was bedeutet Partitionierungsgitter?

Es handelt sich um einen Algorithmus, der den Bereich der Prädiktorenwerte auf ihre Vorhersagefähigkeit hin überprüft und versucht, die Teile des Bereichs so aufzuteilen, dass sie die Vorhersagefähigkeit besser zuordnen. Angenommen, es gibt eine Stichprobe mit 3 Zielen, die Stichprobe ist verteilt als 1 - 24%, 2 - 50%, 3 - 26%, und es gibt einen Prädiktor mit einem Wertebereich, so dass das Ziel des Rasters darin besteht, Bereiche von Prädiktorwerten zu finden, in denen, sagen wir, Ziel 1 um mehr als 24% "vorhergesagt" wird, und der Split wird diesen Bereich hervorheben. Es gibt verschiedene Varianten von Algorithmen, um solche Netze zu erstellen.


Aleksey Nikolayev:

Maximierung der Portfoliorendite bei einem festen (akzeptablen) Risikoniveau (Volatilität oder Drawdown).

Offensichtlich ja, die Algorithmen werden sich ändern müssen. Es müssen viele Korrelationen zwischen Aktien verschiedener Blätter berechnet werden, was sehr zeitaufwändig werden kann.

Mir ist gerade eingefallen, dass ein ähnliches Thema vielleicht schon einmal in diesem Forum diskutiert wurde.

Jetzt wird die Korrelation der Aktivierungen berücksichtigt, die bedingt korrelierten Blätter kommen in dieselbe Gruppe, und so wird ein Portfolio erstellt. Einem Portfolio liegt jedoch eine Strategie zugrunde, und man muss viele dieser Strategien verfolgen, um Stabilität zu erreichen. Die Strategien sollten sich einfach nicht in der Aktivierung auf dem Zeithorizont überschneiden, wenn die gleichen Prädiktoren verwendet werden. Dies ist im Allgemeinen eine realistische Vorgehensweise.


elibrarius:

Der Baum tut genau das, er nimmt einen unterschiedlichen Bereich von jedem Prädiktor und prüft, welcher besser ist.

Die erste Hälfte wird geteilt, die beste Hälfte wird weiter geteilt, das beste Viertel wird weiter geteilt, und so weiter mit jedem Prädiktor. Der Knoten wird die beste Aufteilung aus all diesen Teilen über alle Prädiktoren hinweg.
Machen Sie das manuell? Der Algorithmus macht das perfekt und schnell.

Wir müssen nach Prädiktoren suchen, mit denen dieses seltene Phänomen erkannt werden kann. Wenn es Prädiktoren gibt, dann finden die einfachsten Standard-MO-Modelle alles.

Was meinen Sie damit, dass sie es perfekt macht? Ich mache das nicht manuell, sondern ich schreibe ein Skript, das es so macht, wie ich es jetzt sehe.

In meinem Fall wäre es ideal, wenn jede Prädiktorwertvariante separat ausgewertet würde. Und ich möchte die Aktivierungsbereiche eines Prädiktors, der ein Ziel verstärkt, zu einem Prädiktor zusammenführen, was die mir bekannten Netze nicht tun, indem sie die Bereiche nacheinander aufteilen, und ebenso den Prädiktor in der Rangfolge zum Sparen (durch Aufbau eines Knotens) mit einem anderen Prädiktor zusammenführen. Bisher in der Theorie.

Die Abbildung unten zeigt den üblichen Prädiktor nach Zeit - ich habe buchstäblich die Uhr aufgezeichnet und die Aktivierungen des Prädiktors herausgefiltert, die weniger als 10 % Abweichung von jedem Ziel der gesamten Stichprobe aufweisen. Es stellt sich heraus, dass für das Ziel Minus sind günstig Stunden 18 und 19 und nicht günstig Stunde 15, werde ich einen neuen Prädiktor mit Probe Wert 1 - Kombination Prädiktor Werte 18 und 19 , -1 - Wert 15 und 0 - alle anderen Werte in der Ausgabe.

Welche Art von Aufteilungsraster würde die Aufteilungsbereiche zu einer einzigen Aufteilung zusammenfassen und die Zwischenwerte eliminieren, wie in der Abbildung unten die Werte 1 und 4?


 
Aleksey Vyazmikin:

Jetzt wird die Korrelation der Aktivierungen berücksichtigt, die bedingt korrelierten Blätter kommen in dieselbe Gruppe, und so wird ein Portfolio erstellt. Aber dem Portfolio liegt eine Strategie zugrunde, und wir müssen viele dieser Strategien verfolgen, um Stabilität zu erreichen. Die Strategien sollten sich einfach nicht in der Aktivierung auf dem Zeithorizont überschneiden, wenn die gleichen Prädiktoren verwendet werden. In der Regel ist dies auch realistisch.

Wenn beispielsweise alle Strategien nur KAUFEN tun, wird es wahrscheinlich darauf hinauslaufen, ihre zeitliche Überlappung zu minimieren (Minimierung der Korrelationen, die immer positiv sind). Wenn KAUFEN und VERKAUFEN erlaubt sind, können Zeitüberschneidungen nützlich sein, um schlechte Teile von Strategien gegenseitig auszugleichen (negative Korrelationen sind normalerweise gut für das Portfolio).

Wahrscheinlich kann die Korrelation einfach durch die Laufzeit der Strategien und den Zeitpunkt ihrer Überschneidung definiert werden.