Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 86

 
Mihail Marchukajtes:

Nun, nehmen wir an, er hat sie gemischt und halbiert, dann ist die Anzahl der beiden Klassen in den Trainings- und Testproben gleich, oder?

Wenn die Anzahl der Beispiele beider Klassen in der Stichprobe nicht gleich war, dann werden sie auch im Testteil nicht gleich sein. Nur die Beispiele der weniger repräsentativen Klasse werden halbiert: die eine Hälfte wird in den Trainingsteil, die andere Hälfte in den Testteil aufgenommen. Im Unterrichtsteil gibt es genau so viele Beispiele für die repräsentativste Klasse wie für die am wenigsten repräsentative. Die übrigen Beispiele der repräsentativsten Klasse, die nicht in den Trainingsteil aufgenommen wurden, werden in den Testteil aufgenommen.

Der Punkt ist, dass es in früheren Versionen überhaupt keinen Ausgleich gab. Die Probe wurde von MSRP gemischt und trivialerweise in zwei Teile geteilt: Die eine Hälfte der Probe geht in den Trainingsteil, die andere Hälfte in den Testteil. Dann stieß ich auf ein Beispiel, bei dem die Beispiele beider Klassen sehr unausgewogen waren. Es war ganz offensichtlich, dass die am stärksten repräsentative Klasse hervorragende Ergebnisse bei der Verallgemeinerbarkeit erzielte, während die wenig repräsentative Klasse unter dem Sockel lag. Ich musste den Trennalgorithmus ausgleichen, um solche Ausreißer loszuwerden.

 
Nein... es ist OK.... falscher Alarm :-)
 
SanSanych Fomenko:
Das Modell wird neu trainiert, weil die Liste der Prädiktoren nicht von Rauschprädiktoren bereinigt wurde. Dies ist ein Beispiel für eine Ausbildung und wird absichtlich als solches dargestellt. Deshalb sage ich auch so selbstbewusst.

Ich habe darüber nachgedacht.
Der Wald merkt sich Daten, das ist eine Tatsache, und je mehr Bäume er hat, desto mehr "Speicherkapazität" kann er sich merken. Wenn aber selbst bei einer ausreichend großen Anzahl von Bäumen immer noch keine 100 %ige Genauigkeit erreicht werden kann, bedeutet dies, dass die Trainingsdaten inkonsistente Beispiele enthalten. Es gibt einige Sätze von Trainingsbeispielen, bei denen die Prädiktorenwerte genau gleich sind, aber unterschiedliche Klassen haben. Solche Daten können nie zu 100 % vorhergesagt werden, auch nicht mit Trainingsdaten. Das Modell kann also nicht einmal vollständig lernen, es fehlen ihm lediglich Daten, so dass die Chance auf eine Umschulung geringer ist.
Die Inkonsistenz in den Trainingsbeispielen wird nicht einmal durch Fehler verursacht, sondern durch das Entfernen eines Prädiktors, der eine 100%ige Genauigkeit ermöglichen würde. Aber ohne sie werden die Vorhersagen auf der Grundlage der neuen Daten besser sein.
Eine sehr interessante Regel, die wir nutzen können, um eine einfache Methode zur Vorabschätzung der Prädiktoren zu entwickeln, um einige Sätze vor dem Training und der Kreuzvalidierung der Modelle zu verwerfen.

 

Hallo!

1) Hat jemand eine der oben genannten Möglichkeiten ausprobiert? Irgendwelche Ergebnisse?

2) Hat jemand versucht, Strategien direkt in R zu testen? Ich brauche, um den Handel in R-ka ganz primitiv zu simulieren, aber es gibt Stops und andere kleine Dinge, gibt es ein Tool, das es so einfach und schnell wie möglich machen wird?

 
Yury Reshetov:

Wo erhalte ich echte Volumina als historische Daten? MetaTrader bietet nur einen Tick-Meter, der als "Volumen" bezeichnet wird. Außerdem können sich die Werte dieser Zähler in verschiedenen Küchen um Größenordnungen unterscheiden.

...

DieZeckenmengen unterscheiden sich nicht nur in verschiedenen Küchen, sondern auch in einer einzigen. Manchmal kann man einen Schritt erkennen: Hier war ein dichter Strom, dann kam ein spärlicher Strom.

Dies ist auf einen Wechsel des Teakholzfilters im Inneren der Dilling zurückzuführen.

Interessante Frage: Es gibt eine Korrelation zwischen den realen Volumina und den Tick-Volumina, und es gibt eine Korrelation zwischen den Tick-Volumina und der Balkengröße.

 
Nikolay Demko:

Bedeutet dies, dass es eine Korrelation zwischen dem realen Volumen und der Barrengröße gibt?

natürlich
 
mytarmailS:
natürlich
Was ist die Kollokation zwischen Volumen und Balken. Das Volumen kann hoch sein und der Körper der Kerze fehlt, also ist es dasselbe auf dem Oborod. Das Volumen ist gering und die Kerze ging nach oben.... es hängt alles von den Marktbedingungen zum Zeitpunkt des Marktes ab....
 
Mihail Marchukajtes:
Welche Bedeutung hat die Korrelation zwischen dem Volumen und dem Balken? Das Volumen kann hoch sein und der Kerzenkörper ist nicht vorhanden, dasselbe gilt für den Balken. Das Volumen ist gering und der Kerzenständer ist gewachsen.... es hängt alles von den Marktbedingungen zum Zeitpunkt des Marktes ab....

:)

Ich dachte, wir würden über hochliquide Märkte sprechen, also über Termin- und Devisenmärkte, und ich glaube nicht, dass irgendjemand mit Strafen handelt.

http://prntscr.com/c10p51

Die Abbildung zeigt die Korrelation in einem gleitenden 100er-Fenster, Volatilität gegen Volumen, soweit ich mich erinnere, gilt ein Wert über 0,6 als signifikante positive Korrelation

Скриншот
Скриншот
  • prnt.sc
Снято с помощью Lightshot
 
mytarmailS:

Vielleicht interessiert es jemanden, ich habe ein Paket gefunden, das den Handel simulieren und Handelssysteme namens quantstrat erstellen kann

http://www.rinfinance.com/agenda/2013/workshop/Humme+Peterson.pdf

Ich werde es erneut posten, vielleicht ist es mir nur entgangen.

und ein weiterer nützlicher Linkhttp://www.r-programming.org/papers

oder ist niemand an diesen paketen interessiert? wenn nicht, warum? ich bin neugierig, wie und wo die leute ihre modelle testen

 
mytarmailS:

Ich poste ihn noch einmal, vielleicht ist er ja nur vorbeigeflogen.

und ein weiterer nützlicher Linkhttp://www.r-programming.org/papers

oder ist niemand an diesen paketen interessiert? wenn nicht, warum? ich bin neugierig, wie und wo die leute ihre modelle testen

Alle Pakete (Modelle) können in zwei Kategorien unterteilt werden:

  • prinzipiell gut
  • prinzipiell nicht gut

Die Leistung der Pakete, die "grundsätzlich gut" sind, ist ungefähr gleich, die Unterschiede sind nicht wesentlich.

Das Problem liegt nicht beim Modell, sondern bei der Menge der Prädiktoren und deren Vorbedingungen. Nimmt man eine Reihe von Prädiktoren, so ist die Möglichkeit, ein NICHT übertrainiertes Modell zu erstellen, ebenso wie das Ausmaß des Fehlers wenig abhängig von der Änderung des Modells. Daher sollte man das einfachste und schnellste Modell von denen nehmen, die "im Prinzip passen".

PS.

Aus meiner eigenen Erfahrung. Bei mir sind über 75% des Arbeitsaufwandes bei der Konstruktion von TS - die Auswahl der Prädiktoren, wenn es überhaupt gelingt, einen solchen Satz für eine bestimmte Zielvariable zu finden.

Grund der Beschwerde: