Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 364

 
Vladimir Perervenko:

Siehe hier.

Bei der Bewertung der Bedeutung von Prädiktoren ist zu bedenken, dass es sich um eine komplexe Größe handelt, die nicht allein durch Informationskriterien bestimmt wird. und


Meines Erachtens wird das Problem nicht dadurch gelöst, dass die Wichtigkeit des Prädiktors sowohl durch in den Basisalgorithmus integrierte Mittel als auch durch separate Mittel bestimmt wird, denn diese Wichtigkeit ist eigentlich die Häufigkeit der Verwendung des Prädiktors für die Klassifizierung. Wenn die Prädiktoren Saturnringe oder Kaffeesatz enthalten, wird der Algorithmus auch diese Prädiktoren verwenden.


Ich habe in diesem und in anderen Threads schon oft geschrieben, dass die Prädiktoren mit der Zielvariablen "zusammenhängen" müssen.

Ich gebe Ihnen wieder ein Beispiel.

Die Zielvariable ist männlich/weiblich

Prädiktor: Kleidung.

Besteht der Prädiktor in Ländern mit strengen Sitten aus Hosen und Röcken, so teilt er sich in zwei sich nicht überschneidende Teilmengen auf, von denen jede die Zielvariable eindeutig identifiziert, d. h. der Klassifikationsfehler ist Null.

Wenn wir anfangen, Unisex-Kleidung oder Kleidung im schottischen Stil in den Prädiktor einzubeziehen, dann gibt es eine Überschneidung, die den Klassifizierungsfehler bestimmt. Es gibt keine Möglichkeit, diesen Fehler prinzipiell zu beseitigen.


Dies sind nicht nur meine Gedanken, sondern ich habe in diesem Thread Hinweise auf Veröffentlichungen mit ähnlichen Gedanken gegeben.

 
SanSanych Fomenko:


Meines Erachtens löst die Wichtigkeit von Prädiktoren, die entweder durch in den Basisalgorithmus eingebaute Mittel oder durch separate Mittel bestimmt wird, das Problem nicht, denn diese Wichtigkeit ist eigentlich die Häufigkeit der Verwendung eines Prädiktors bei der Klassifizierung. Wenn die Prädiktoren Saturnringe oder Kaffeesatz enthalten, wird der Algorithmus auch diese Prädiktoren verwenden.


Ich habe in diesem und in anderen Threads schon oft geschrieben, dass die Prädiktoren mit der Zielvariablen "in Beziehung stehen" müssen.

Ich werde Ihnen wieder ein Beispiel geben.

Die Zielvariable ist männlich/weiblich

Prädiktor: Kleidung.

Besteht der Prädiktor in Ländern mit strengen Sitten aus Hosen und Röcken, so teilt er sich in zwei sich nicht überschneidende Teilmengen auf, von denen jede die Zielvariable eindeutig identifiziert, d. h. der Klassifikationsfehler ist Null.

Wenn wir anfangen, Unisex-Kleidung oder Kleidung im schottischen Stil in den Prädiktor einzubeziehen, gibt es eine Überschneidung, die den Klassifizierungsfehler bestimmen wird. Es gibt keine Möglichkeit, diesen Fehler prinzipiell zu beseitigen.


Dies sind nicht nur meine Gedanken, sondern ich habe in diesem Thread Links zu Veröffentlichungen mit ähnlichen Gedanken angegeben.

Die Wahrheit ist eine, es gibt eine Million Wege zu ihr.

Jeder hat ein Recht auf seinen eigenen Weg. Die Hauptsache ist, dass sie nicht in eine Sackgasse führt.

Viel Glück!

 
Maxim Dmitrievsky:


Aber ich glaube, dass es möglich ist, ein gutes, sich selbst optimierendes Gerät zu bauen, das nicht immer perfekt funktioniert, aber gelegentlich

Aber es ist eindeutig nicht auf Standard-Indikatoren und ein Zickzack-Ausgang sein :) Für mich klingt das sogar wie ein Kinderspiel, wenn auch nur als Beispiel.

Das hoffe ich auch, aber ich bin weit entfernt von den Illusionen, die ich vor 3 Jahren hatte, dass dies durch die Konfiguration eines Dutzends von Parametern und beliebten Bibliotheksklassifikatoren möglich ist. Es stellte sich heraus, dass es nicht trivial und sehr langsam ist, besonders abends nach der Arbeit(((

ZZ ist ein schlechtes Targeting, da stimme ich vollkommen zu.

 
Vladimir Perervenko:

Bei der Bewertung der Bedeutung von Prädiktoren ist es wichtig, daran zu denken, dass...

... die Bedeutung der Prädiktoren kann durch ihre Gewichtung in der ersten Schicht bestimmt werden

elibrarius:

der Algorithmus zur Berechnung der Wichtigkeit in dieser Funktion

Ich gehe in zwei Schritten vor, zuerst mit linear korrelierten PCA-Merkmalen, z. B., und dann baue ich ein reichhaltiges nichtlineares Modell, z. B. Wald oder XGB, gehe die Merkmale durch (komprimierte PCA) und lasse diejenigen abstürzen, ohne die der Pegel am wenigsten abnimmt
 

Open R installiert, alle Pakete installiert, VS 2017 bleibt immer noch beim Erstellen eines R-Projekts hängen

Python-Projekte funktionieren einwandfrei

Ich habe R Studio und R 3.4 abgeschaltet und nur Open R übrig gelassen, und es funktioniert) Offensichtlich sind sie widersprüchlich.

Und es gibt keinen Grund, R Studio zu benutzen, es ist dasselbe


 
Wäre es sinnvoll, vor dem Training eine Korrelation zwischen den Eingangsvariablen und dem Ziel zu konstruieren? Und die unkorreliertesten entfernen, um die Berechnung zu beschleun igen und den Lerngrad zu erhöhen?
 
elibrarius:
Ist es sinnvoll, vor dem Training eine Korrelation zwischen den Eingangsvariablen und dem Ziel zu erstellen? Und die unkorreliertesten zu entfernen, um die Berechnung zu beschleunigen und den Grad des Lernens zu erhöhen?
Eigentlich sollten Sie die korrelierten Eingänge entfernen :) Wenn Sie Eingaben haben, die mit dem Ziel korrelieren, dann ist es ein Gral und Sie brauchen keine NS)))
 
Es gibt eine interessante Software im Internet. Sie denken sich eine beliebte Figur oder Persönlichkeit aus, und der Computer kann durch gezielte Fragen Ihre Gedanken mit hoher Wahrscheinlichkeit vorhersagen. So soll ein neuronales Netz funktionieren. Die richtige Befragung. Darin liegt das Geheimnis.
 
elibrarius:
Ist es sinnvoll, vor dem Training eine Korrelation zwischen den Eingangsvariablen und dem Ziel zu erstellen? Und die unkorreliertesten zu entfernen, um die Berechnung zu beschleunigen und den Grad des Lernens zu erhöhen?

Es ist nicht die Korrelation der Variablen mit dem Ziel, die überprüft werden sollte (sie sollte es sein), sondern das Fehlen einer Korrelation zwischen den Variablen, die es nicht sein sollte (Multikollinearität).
 
Dmitri:

Wir sollten nicht prüfen, ob die Variablen mit dem Ziel korrelieren (es sollte eine geben), sondern wir sollten prüfen, ob es keine Korrelation zwischen den Variablen gibt - es sollte keine geben (Multikollinearität).

Ich habe die korrelierten Eingänge bereits entfernt, ich frage mich nur, wie ich die Eingänge noch verbessern kann.

Ich stimme Ihnen also zu, dass es eine Korrelation mit dem Ziel geben sollte. Deshalb möchte ich zusätzlich die Eingaben entfernen, die am wenigsten mit dem Ziel korreliert sind, zum Beispiel mit Kcorr<0,5 oder 0,3. Dies dürfte den Lernprozess beschleunigen, ohne die Qualität zu sehr zu beeinträchtigen. Es ist jedoch davon auszugehen, dass ich alle Eingaben entfernen muss )))

Bei den verwendeten Inputs (zufällig aus den Tech-Indikatoren entnommen) habe ich bisher keine Korrelation mit dem Ziel gefunden, Lernfehler = 0,44, d.h. fast eine Münze. Nun, die Bilanz wird schlechter.

Grund der Beschwerde: