Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 87

 
SanSanych Fomenko:

Alle Pakete (Modelle) können in zwei Kategorien unterteilt werden:

  • grundsätzlich gut
  • im Prinzip nicht passen.

Die Leistung der Pakete, die "grundsätzlich gut" sind, ist ungefähr gleich, die Unterschiede sind nicht signifikant.

Das Problem liegt nicht beim Modell, sondern bei der Menge der Prädiktoren und deren Vorbedingungen. Nimmt man eine Reihe von Prädiktoren, so ist die Möglichkeit, ein NICHT übertrainiertes Modell zu erstellen, ebenso wie das Ausmaß des Fehlers wenig von der Änderung des Modells abhängig. Daher sollte man das einfachste und schnellste Modell von denen nehmen, die "im Prinzip passen".

PS.

Aus meiner eigenen Erfahrung. Bei mir entfallen über 75% des Arbeitsaufwandes bei der Konstruktion von TS - auf die Auswahl der Prädiktoren, wenn es überhaupt gelingt, einen solchen Satz für eine bestimmte Zielvariable auszuwählen.

San Sanych, hallo.

Und wenn wir mit Ihrer Methode für 3 sich nicht überschneidende Datenintervalle unterschiedliche Prädiktorenwerte erhalten, dann sind sie nicht stationär (Rauschen usw.), sollten wir dem folgen?

 
SanSanych Fomenko:

Alle Pakete (Modelle) können in zwei Kategorien unterteilt werden:

  • grundsätzlich gut
  • im Prinzip nicht passen.

Die Leistung der Pakete, die "grundsätzlich gut" sind, ist ungefähr gleich, die Unterschiede sind nicht signifikant.

Das Problem liegt nicht beim Modell, sondern bei der Menge der Prädiktoren und deren Vorbedingungen. Nimmt man eine Reihe von Prädiktoren, so ist die Möglichkeit, ein NICHT übertrainiertes Modell zu erstellen, ebenso wie das Ausmaß des Fehlers wenig abhängig von der Änderung des Modells. Daher sollte man das einfachste und schnellste Modell von denen nehmen, die "im Prinzip passen".

PS.

Aus meiner eigenen Erfahrung. Bei mir entfallen über 75 % des Arbeitsaufwands bei der Konstruktion von TK auf die Auswahl der Prädiktoren, wenn es überhaupt möglich ist, eine solche Menge für eine bestimmte Zielvariable auszuwählen.

Welche Modelle, wovon reden Sie ... Es ist, als würde jemand fragen : "Wie spät ist es?" und die Antwort lautet : "Was soll ich denn tanzen?":)

Bitte tun Sie das nie wieder, es ist einfacher, 10 Zeilen Text zu schreiben als zwei Zeilen Fragen zu lesen.

 
mytarmailS:

Vielleicht interessiert es jemanden, ich habe ein Paket gefunden, das den Handel simulieren und Handelssysteme namens quantstrat erstellen kann

http://www.rinfinance.com/agenda/2013/workshop/Humme+Peterson.pdf

umbuchen
 
Alexey Burnakov:

San Sanych, hallo.

Aber wenn wir mit Ihrer Methode unterschiedliche Prädiktorenwerte für 3 sich nicht überschneidende Datensegmente im Training erhalten, dann sind sie nicht-stationär (Rauschen usw.), sollten wir dem folgen?

Die Signifikanz der Prädiktoren wird nur einmal ermittelt - wenn das Modell trainiert wird. Dann ist dieses Modell ANWENDBAR, nicht trainierbar.
 
SanSanych Fomenko:
Die Relevanz der Prädiktoren wird nur einmal ermittelt - beim Training des Modells. Dann ist dieses Modell ANWENDBAR, nicht gelehrt.
Wenn ich mich recht erinnere, muss man es dort mehrmals unterrichten?
 
Alexey Burnakov:
Wenn ich mich recht erinnere, müssen Sie es mehrmals unterrichten?

Niemals!

Noch einmal.

1. Wir nehmen eine große Menge an Zeitreihenprädiktoren, zum Beispiel 10 000 Beobachtungen (Linien).

2. Wir teilen es in zwei Teile, streng mechanisch: 7000 erster Teil und 3000 zweiter Teil.

3. Wir teilen den ersten Teil nach dem Zufallsprinzip in drei Teile auf: für Training, Test und Validierung

4. Wir lernen (fit - fit) das Modell an der Trainingsstichprobe.

5. Wenden Sie das trainierte Modell auf die Test- und Validierungsstichprobe an.

6. Wenn bei allen drei Stichproben - Training, Test und Validierung - der Fehler annähernd gleich ist, dann gilt Klausel 7.

7. Wenden Sie das Modell auf den zweiten Teil an, der in seiner zeitlichen Abfolge eine ununterbrochene Zeitreihe darstellt.

8. Wenn der Fehler auch bei diesem Teil etwa gleich groß ist wie bei den drei anderen, dann:

  • dieser Satz von Prädiktoren führt nicht zu einer Umschulung des Modells
  • der Fehler, der bei allen VIER Datensätzen (drei zufällige und ein sequentieller) ermittelt wurde und der sich durch Modellanpassung nur sehr schwer reduzieren lässt.
Meine Modellfehlerleistung ist wie folgt: ada, randomforest, SVM und ihre vielen Varianten. nnet ist viel schlimmer.

 
SanSanych Fomenko:

Niemals!

Noch einmal.

1. eine große Anzahl von Zeitreihenprädiktoren nehmen, z. B. 10 000 Beobachtungen (Linien)

2. Wir teilen es in zwei Teile, streng mechanisch: 7000 erster Teil und 3000 zweiter Teil.

3. Wir teilen den ersten Teil nach dem Zufallsprinzip in drei Teile auf: für Training, Test und Validierung

4. Wir lernen (fit - fit) das Modell an der Trainingsstichprobe.

5. Wenden Sie das trainierte Modell auf die Test- und Validierungsstichprobe an.

6. Wenn bei allen drei Stichproben - Training, Test und Validierung - der Fehler annähernd gleich ist, dann gilt Klausel 7.

7. Wenden Sie das Modell auf den zweiten Teil an, der in seiner zeitlichen Abfolge eine ununterbrochene Zeitreihe darstellt.

8. Wenn der Fehler auch bei diesem Teil etwa gleich groß ist wie bei den drei anderen, dann:

  • dieser Satz von Prädiktoren führt nicht zu einer Umschulung des Modells
  • der Fehler, der bei allen VIER Datensätzen (drei zufällige und ein sequentieller) ermittelt wurde und der sich durch Modellanpassung nur sehr schwer reduzieren lässt.
Meine Modellfehlerleistung ist wie folgt: ada, randomforest, SVM und ihre vielen Varianten. nnet ist viel schlimmer.

Hier ist es. Ich danke Ihnen.

Ich habe beim Training viel bessere Ergebnisse als bei anderen Proben. Und bei der Kreuzvalidierung liegt das Ergebnis viel näher am endgültigen Ergebnis der Stichprobe.

Ich denke, Ihre These von den gleichen Fehlern bei allen Stichproben spricht für das Underfit-Modell. Das heißt, es ist überall das Gleiche.
 
Alexey Burnakov:
....Das heißt, überall ist es gleich schlecht.

Es fehlt einfach an Köpfchen und Zeit.

Man muss mit der Zielvariable beginnen und dann Prädiktoren für sie auswählen und dann mit der Mathematik überprüfen, oder so ähnlich. Wie auch immer, der Prozess ist langsam und ich kann ihn nicht formalisieren.

 
SanSanych Fomenko:

So lala - einfach nicht genug Köpfchen und Zeit.

Man muss mit der Zielvariablen beginnen und sie dann mit Prädiktoren abgleichen und sie dann sozusagen mit Mathematik überprüfen. Auf jeden Fall ist der Prozess schmerzhaft und für mich nicht formalisierbar.

Vor allem in Bezug auf die Bedeutung ist es quälend. Das ist nicht das, was ich meine.

Wenn man überall gleich gut ist, ist das schon eine Leistung. In den meisten Fällen wird es aber gleich schlecht sein, was man mit einem schwachen Modell erreichen kann.
 
das Thema scheint tot zu sein....
Grund der Beschwerde: