Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 470

 
Mihail Marchukajtes:

Der eigentliche Punkt ist jedoch dieser. Bei einem schlechten Split im Testabschnitt spielt es KEINE Rolle, ob der Split korrekt ist oder nicht, sondern nur, dass der Split schwach ist. Und das Modell hat nicht mehr als 50% des Trainingsintervalls gearbeitet, dann wird das Modell als übertrainiert angesehen.... IMHO

Erinnern Sie sich übrigens daran, dass Sie in Ihrem Artikel über Sequenzen vorschlugen, mehrere Signale hintereinander zu zählen und dort umzukehren... Signalüberlagerung

Ich habe mir eine interessante Lösung ausgedacht, um so etwas mit Hilfe von Fuzzy-Logik zu implementieren und in den Lernprozess einzubauen... Ich werde später etwas dazu schreiben :)

 
Maxim Dmitrievsky:

Manchmal bricht das Gehirn zusammen... Was das Rauschen im Forex betrifft, so ist es doch kein Radiosignal, oder? Woher kommt der Lärm im Devisenhandel?


Das Konzept des "Rauschens" im Devisenhandel wurde von mir in diesem Thread bereits ausgiebig diskutiert. Ich habe es selbst gemacht oder ich habe es von jemand anderem kopiert - ich weiß es nicht mehr, und es spielt auch keine Rolle. Auf jeden Fall habe ich in diesem Thread Links zu ähnlichen Artikeln veröffentlicht.

Unter "Rauschen" verstehe ich den gesamten oder einen Teil des Prädiktors, der keinen Bezug zur Zielvariablen hat, eine Art Kaffeesatz.


Lassen Sie mich das anhand eines Beispiels erläutern (ich wiederhole, was ich bereits geschrieben habe).


Nehmen wir eine Zielgruppe, die aus zwei Klassen besteht: Männer und Frauen.

Nehmen wir einen Prädiktor: Kleidung.

Es gibt nur zwei Prädiktoren: Hosen und Röcke. In bestimmten Ländern hat dieser Prädiktor eine 100%ige Vorhersagekraft, d.h. Röcke sagen Frauen und Hosen Männer voraus. Dieser Prädiktor ist völlig rauschfrei. Klassifizierungsfehler = 0. Es gibt kein Übertraining.

Das Beispiel ist weit hergeholt und der Prädiktor "Kleidung" kann Kleidung mit dem Namen "unisex" enthalten. Für uns bedeutet das, dass solche Kleidung sowohl von Männern als auch von Frauen getragen werden kann, d.h. für unsere Zielvariable hat "Unisex"-Kleidung KEINE Vorhersagekraft - das ist mein Verständnis von SHUM.

Wenn wir einen Prädiktor nehmen, der die Werte "Hosen", "Röcke" und "Unisex" hat, dann ist "Unisex" eine Quelle für Klassifikationsfehler. Wenn der Anteil der "Unisex"-Kleidung 30 % beträgt, können wir theoretisch einen Modelllernfehler = 30 % erreichen, aber bei einem solchen Prädiktor bedeutet ein Fehler von 29 % eine Überschulung des Modells von 1 %!


Ich verwende dies in der Praxis. So konnte ich Prädiktoren für einen Random Forest mit einem Fehler von weniger als 30 % auswählen. Es handelt sich nicht um ein übertrainiertes Modell. Der Fehler ist beim Training, bei Testmustern innerhalb derselben Datei und bei anderen externen Dateien in etwa gleich groß.

Was bedeutet es, den Fehler in meinem Beispiel zu reduzieren? Das heißt, es müssen Prädiktoren gefunden werden, deren Werte, also die Rauschwerte, unter diesen 30 % liegen würden. Das ist mir nicht gelungen. Vielleicht hat jemand Erfolg.

Aber ohne diese Analyse ist die Verwendung von MO-Modellen eine leere Übung, ein intellektuelles Zahlenspiel im Kaffeesatz.


PS.

Der oben genannte Fehler hängt in der Regel nicht von der Art der Modelle ab. Ich habe verschiedene Gerüst- und Ada-Varianten ausprobiert - ungefähr das Gleiche. Aber NS, das nnet, liefert deutlich schlechtere Ergebnisse.

 
SanSan Fomenko:

Ich habe das Konzept des "Rauschens" im Devisenhandel in diesem Thread bereits ausführlich diskutiert. Ich weiß nicht mehr, ob ich es selbst erfunden oder von jemand anderem übernommen habe, und es ist auch nicht wichtig. Auf jeden Fall habe ich in diesem Thread Links zu ähnlichen Artikeln veröffentlicht.

Unter "Rauschen" verstehe ich den gesamten oder einen Teil des Prädiktors, der keinen Bezug zur Zielvariablen hat, eine Art Kaffeesatz.


Lassen Sie mich das anhand eines Beispiels erläutern (ich wiederhole, was ich bereits geschrieben habe).


Nehmen wir eine Zielgruppe, die aus zwei Klassen besteht: Männer und Frauen.

Nehmen wir einen Prädiktor: Kleidung.

Es gibt nur zwei Prädiktoren: Hosen und Röcke. In bestimmten Ländern hat dieser Prädiktor eine 100%ige Vorhersagekraft, d.h. Röcke sagen Frauen und Hosen Männer voraus. Dieser Prädiktor ist völlig rauschfrei. Klassifizierungsfehler = 0. Es gibt kein Übertraining.

Das Beispiel ist weit hergeholt und der Prädiktor "Kleidung" kann Kleidung mit dem Namen "unisex" enthalten. Für uns bedeutet das, dass solche Kleidung sowohl von Männern als auch von Frauen getragen werden kann, d.h. für unsere Zielvariable hat "Unisex"-Kleidung KEINE Vorhersagekraft - das ist mein Verständnis von SHUM.

Wenn wir einen Prädiktor nehmen, der die Werte "Hosen", "Röcke" und "Unisex" hat, dann ist "Unisex" eine Quelle für Klassifikationsfehler. Wenn der Anteil der "Unisex"-Kleidung 30 % beträgt, ist es theoretisch möglich, einen Modelllernfehler = 30 % zu erreichen, aber bei einem solchen Prädiktor würde ein Fehler von 29 % eine Modellüberschulung von 1 % bedeuten!


Wir wissen nur nicht, inwieweit dieser Rauschprädiktor unter realen Bedingungen bei der Auswahl von Prädiktoren minimale Fehler liefern kann... es werden einfach uninformative Prädiktoren ausgesiebt und das war's.

aber im Allgemeinen scheint es klar zu sein)

 
Maxim Dmitrievsky:

...dort einfach die uninformativen aussortieren


Dies ist ein grundlegendes Missverständnis: Der Algorithmus zur Fehlerminimierung funktioniert, was auf viele verschiedene Arten verstanden werden kann. Lärm, der eine größere Vielfalt als NICHT-Rauschen enthält, ist am besten geeignet. Der Algorithmus nimmt den Schaum aus dem Kaffeesatz auf.

 
SanSanych Fomenko:

Dies ist ein grundlegendes Missverständnis: Der Algorithmus zur Fehlerminimierung funktioniert, was auf viele verschiedene Arten verstanden werden kann. Lärm, der MEHR Vielfalt enthält als NICHT-Lärm, ist am besten geeignet. Der Algorithmus nimmt den Schaum aus dem Kaffeesatz auf.

Ich meine Jpredictor... es filtert das Geräuschzeug irgendwie von selbst heraus.

Es geht also mehr um das Experimentieren als um den Versuch, wirklich zu verstehen, was dort vor sich geht.)

Ich möchte versuchen, diese h2O Plattform, es ist nur ein Wald mit Boosting... vielleicht haben Sie gehört? Leute sagen, es ist ok, zusammen mit mcroft und xgbboost

https://www.h2o.ai/

 

Für diejenigen, die ihn noch nicht gesehen haben, empfehle ich, sich diesen Thread anzusehen

 
Eidechse_:

Fa und Mishan sind keine Bergleute)))
Zum Wichsen auf Papageien reicht es. + LightGBM, + CatBoost.
Möchten Sie einen Schnitt ein bisschen besser - setzen Python und alle auf GPU...

Viele R-Pakete funktionieren gut mit der GPU.

Haben Sie SatBoost ausprobiert? So interessiert.

Viel Glück!

 
Maxim Dmitrievsky:
Ich meine Jpredictor... es filtert selbständig Rauschmerkmale heraus

Wie auch immer, dieses Thema ist mehr für Experimente als für den Versuch, wirklich zu verstehen, was dort vor sich geht )

Ich möchte versuchen, diese h2O Plattform, es ist nur ein Wald mit Boosting ... vielleicht haben Sie gehört? Leute sagen, es ist ok, zusammen mit mcroft's und xgbboost

https://www.h2o.ai/

Es ist in Java geschrieben und verbraucht viel Speicher. Es funktioniert nicht besser und nicht schlechter als ähnliche R-Pakete. Sie hat einen Nachteil und einen Vorteil - kontinuierliche Verbesserung ohne Abwärtskompatibilität.

Es ist in Ordnung zu experimentieren, aber ich würde es nicht für die Arbeit empfehlen (IMHO).

Viel Glück!

 
SanSanych Fomenko:

Dies ist ein grundlegendes Missverständnis: Der Algorithmus zur Fehlerminimierung funktioniert, was auf viele verschiedene Arten verstanden werden kann. Lärm, der MEHR Vielfalt enthält als NICHT-Lärm, ist am besten geeignet. Der Algorithmus nimmt den Schaum aus dem Kaffeesatz auf.

"Rauschen" und "Überanpassung" sind Fachbegriffe, die jeder anders definiert. Intuitiv verstehen wir den Unterschied zwischen "erlernt" und "überangepasst" - es ist schwer, ihn in die Programmiersprache zu übertragen. Ich definiere es einfach - der Moment, in dem der Testfehler zu wachsen beginnt und der Beginn des "Übertrainings" ist (nicht dasselbe wie "Overfitting"). Wenn ich sie finde, werde ich Ihnen einen Link zu einer interessanten Diskussion über dieses Thema im englischsprachigen Netz schicken.

Viel Glück!

 
SanSanych Fomenko:

Ich habe das Konzept des "Rauschens" im Devisenhandel in diesem Thread bereits ausführlich diskutiert. Ich weiß nicht mehr, ob ich es selbst erfunden oder von jemand anderem übernommen habe, und es ist auch nicht wichtig. Auf jeden Fall habe ich in diesem Thread Links zu ähnlichen Artikeln veröffentlicht.

Unter "Rauschen" verstehe ich den gesamten oder einen Teil des Prädiktors, der keinen Bezug zur Zielvariablen hat, eine Art Kaffeesatz.


Lassen Sie mich das anhand eines Beispiels erläutern (ich wiederhole, was ich bereits geschrieben habe).


Nehmen wir eine Zielgruppe, die aus zwei Klassen besteht: Männer und Frauen.

Nehmen wir einen Prädiktor: Kleidung.

Es gibt nur zwei Prädiktoren: Hosen und Röcke. In bestimmten Ländern hat dieser Prädiktor eine 100%ige Vorhersagekraft, d.h. Röcke sagen Frauen und Hosen Männer voraus. Dieser Prädiktor ist völlig rauschfrei. Klassifizierungsfehler = 0. Es gibt kein Übertraining.

Das Beispiel ist weit hergeholt und der Prädiktor "Kleidung" kann Kleidung mit dem Namen "unisex" enthalten. Für uns bedeutet das, dass solche Kleidung sowohl von Männern als auch von Frauen getragen werden kann, d.h. für unsere Zielvariable hat "Unisex"-Kleidung KEINE Vorhersagekraft - das ist mein Verständnis von SHUM.

Wenn wir einen Prädiktor nehmen, der die Werte "Hosen", "Röcke" und "Unisex" hat, dann ist "Unisex" eine Quelle für Klassifikationsfehler. Wenn der Anteil der "Unisex"-Kleidung 30 % beträgt, ist es theoretisch möglich, einen Modelllernfehler von 30 % zu erreichen, aber bei einem solchen Prädiktor bedeutet ein Fehler von 29 % eine Modellüberschulung von 1 %!


Ich verwende dies in der Praxis. So konnte ich Prädiktoren für einen Random Forest mit einem Fehler von weniger als 30 % auswählen. Es handelt sich nicht um ein übertrainiertes Modell. Der Fehler ist bei Trainings- und Testmustern innerhalb derselben Datei und bei anderen externen Dateien in etwa gleich groß.

Was bedeutet es, den Fehler in meinem Beispiel zu reduzieren? Das heißt, es müssen Prädiktoren gefunden werden, deren Werte, also die Rauschwerte, unter diesen 30 % liegen würden. Das ist mir nicht gelungen. Vielleicht hat jemand Erfolg.

Aber ohne diese Analyse ist die Verwendung von MO-Modellen eine leere Übung, ein intellektuelles Zahlenspiel im Kaffeesatz.


PS.

Der oben genannte Fehler hängt in der Regel nicht von der Art der Modelle ab. Ich habe verschiedene Gerüst- und Ada-Varianten ausprobiert - ungefähr das Gleiche. nnet NS hingegen liefert deutlich schlechtere Ergebnisse.

Sie können irrelevante Beispiele entfernen, Haupt- oder unabhängige Komponenten isolieren und schließlich diskretisieren. Haben Sie die Prädiktoren vorverarbeitet? Ich hoffe, die Ausreißer wurden entfernt (für Wälder, nicht kritisch).

Sie klingen pessimistisch.

Geht es nur mir so?

Viel Glück!