Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 1237

 
Dmitry:

Vor zwei Jahren habe ich an dieser Stelle geschrieben, dass NS ein Spielzeug wie eine Atombombe ist. Wenn JEDES andere Modell zumindest zufriedenstellende Ergebnisse liefert, ist es nicht empfehlenswert, NS zu verwenden - sie finden etwas, das nicht existiert, und man kann nichts dagegen tun.

Durch Bäume ist eine gute Sache, aber es ist besser, ein Gerüst zu benutzen.

Ich plane, mit xgboost über R zu experimentieren, alles, was ich brauche, scheint vorhanden zu sein. Und es scheint sehr schnell zu sein und den Speicher optimal zu nutzen.
Kann es 100.000 Stichproben mit z. B. 100 Prädiktoren verarbeiten?
 
elibrarius:
Ich plane, mit xgboost durch R zu experimentieren, ich denke, es hat alles, was ich brauche. Und es scheint sehr schnell zu sein und den Speicher optimal zu nutzen.
Kann es 100.000 Stichproben mit z. B. 100 Prädiktoren verarbeiten?

) Ich weiß nicht - das ist wohl für Fa.

Ich habe mit einfachen Modellen gespielt - ich habe mit Binärzahlen gespielt.

 
elibrarius:
Ich plane, mit xgboost durch R zu experimentieren, ich denke, alles, was ich brauche, ist da. Und es scheint sehr schnell zu sein und den Speicher optimal zu nutzen.
Kann es 100.000 Stichproben mit z. B. 100 Prädiktoren verarbeiten?

wirklich schnell

Ich werde es mit meinen Daten testen, sobald ich gelernt habe, wie man Matrizen in mql in einer normalen Datei speichert (das ist eine Qual).

ich habe keinen Unterschied in der Qualität zwischen mqlp und logs... fast keinen Unterschied zwischen irgendetwas und irgendetwas von normalen Modellen, aber ich bin daran interessiert, boisting selbst zu versuchen, vielleicht ist es wirklich 40 mal besser... aber in der Tat kann es ein wenig besser sein.

was das oben genannte Buch betrifft - wenn ich zu viele unnötige Wörter und Einschübe im Text sehe, weiß ich sofort, dass der Autor verrückt ist und schließe es ))

 
Maxim Dmitrievsky:

wirklich schnell

Ich werde es mit meinen Daten testen, sobald ich gelernt habe, wie man Matrizen in mql in einer normalen Datei speichert (das ist eine Qual).

ich habe keinen Unterschied in der Qualität zwischen mqlp und logs... fast keinen Unterschied zwischen irgendetwas und irgendetwas von normalen Modellen, aber ich möchte versuchen, boisting selbst, vielleicht ist es wirklich 40 mal besser... aber in der Tat kann es ein wenig besser sein.

Was das Buch angeht - wenn ich sehe, dass der Text mit zu vielen überflüssigen Wörtern und Einschüben gefüllt ist, merke ich sofort, dass der Autor verrückt ist und schließe es ))

Die NS wegen der BackProp, wenn es eine Menge Lärm nicht finden können wichtige Daten (und wir haben alle weit Balken sind fast verrauscht, ist es im Wesentlichen wichtig, ob sie von oben oder unten kam).

Bei Wäldern habe ich noch nicht verstanden, wie sie mit Lärm umgehen (abgesehen von der Tatsache, dass es sich um eine Abstimmung vieler verschiedener Bäume handelt).


Kann der einzelne Baum selbst den Lärm unterdrücken? (Ich erinnere mich daran, dass ich vor einem Jahr gelesen habe, dass es das Sample zusammen mit dem Rauschen vollständig speichern kann)

 
elibrarius:
NS kann wichtige Daten mit viel Rauschen nicht finden (und alle langen Balken sind fast verrauscht, d.h. es spielt keine Rolle, ob sie von oben oder unten kommen).

Bei den Wäldern habe ich noch nicht verstanden, wie sie mit Lärm umgehen (abgesehen von der Tatsache, dass es sich um eine Abstimmung vieler verschiedener Bäume handelt).


Kann der einzelne Baum selbst den Lärm unterdrücken? (Ich habe vor einem Jahr gelesen, dass er sich das Muster zusammen mit dem Rauschen vollständig merken kann.)

auf die gleiche Weise werden Ensembles neuronaler Netze auf der Grundlage von Bagging aufgebaut, und man erhält dasselbe wie ein Wald

Sie müssen verstehen, dass ein Wald nur ein spezieller Fall von Beuteln ist, anstelle von Bäumen können Sie alles, was Sie wollen, irgendwelche schwachen Modelle dort hineinstecken. Ein einzelner Baum ist ein elementares Modell, das nichts unterdrücken kann

der Wald sich nicht "irgendwie" aufgrund von Zufallsstichproben umerzieht, sondern tatsächlich sehr leicht und unprätentiös umerzieht

beide müssen regularisiert werden, entweder über Decay (Gradientenschritt), frühes Stoppen oder über den r-Parameter des Forests oder Preprocessing, aber alle diese Verbesserungen liegen in der Regel innerhalb von 5-10%. Bei schlechten Daten werden beide Modelle gleich schlecht abschneiden.

über das Boosten (extrem, nicht GBM) sagen sie, dass es keine große Umschulung ist, Sie sollten es sich ansehen, ich kann nichts dazu sagen

https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/

 
Eidechse_:

Mein geschätzter Unschuldiger. Ich habe keine Angst vor diesem Wort, Meister, ich danke dir für diese Momente der Freude!
Das Leben erstrahlte in neuen Farben (blau, rot, grau, grün))))
Könnten Sie bitte ein paar Fragen beantworten? Warum bezeichnen Sie Woronzow so eifrig als Woronow?
und warum erzählen Sie uns etwas über die Marktbedingungen ohne MO, und warum versuchen Sie, uns eine Art schwachsinnige Zielvorgabe zu machen.
Und die Hauptsache - wo ist die Trend-Flat?)))

Ich schrieb über Woronzow und meine Verzweiflung über Ihren Spott, aber meine Beiträge wurden gelöscht, seien Sie nicht wie die Grammatik-Nazis, mein Ziel ist nicht eine graue (flach) und Farbe (Trend) unterscheiden sich mit einer Genauigkeit von 90%, blau und rot für die Klarheit, ich nicht verwenden Richtung, ich nehme den grünen Indikator als absoluten Wert.

 
Maxim Dmitrievsky:

Ich werde es mit meinen Daten testen, sobald ich gelernt habe, wie man Matrizen in mql in normaler Form in einer Datei speichert (das ist eine Qual)))

ein Array von Strukturen erstellen, eine Matrix in jede Struktur schreiben und sie mitFileWriteArray() auf einmal zurücksetzen

Документация по MQL5: Файловые операции / FileWriteArray
Документация по MQL5: Файловые операции / FileWriteArray
  • www.mql5.com
//|                                          Demo_FileWriteArray.mq5 | //|                        Copyright 2013, MetaQuotes Software Corp. | //|                                              https://www.mql5.com | //| Структура для хранения данных о ценах                            |...
 
elibrarius:
Nein, nicht groß, er erklärte auf kleine Zahlen von 10: 8:2 gegenüber 6:4. Aber wir haben eine Menge Daten.


Wie viele Proben können als repräsentativ für BP angesehen werden? Ich verwende normalerweise nicht weniger als 10000, bei kleinen Klassen sollten es mindestens 1000 sein.

Für Bäume gibt es ein wunderbares Diagramm, das den Fehler in Abhängigkeit von der Anzahl der Bäume darstellt.

Bei den Sentinels führt also die Anzahl der Bäume über 100 nicht zu einer Verringerung des Fehlers.

Das Diagramm sieht wie folgt aus:



Sie können verschiedene Dateigrößen nehmen und erhalten die Antwort auf Ihre Frage.

Aber das ist noch nicht alles.

Für rf gibt es einen weiteren Parameter "Stichprobenumfang". Damit können Sie den Klassenunterschied ausgleichen. Auf jeden Fall hat dieser Parameter einen großen Einfluss auf die Fehlergröße.

Zum Beispiel.

Bei einer Stichprobengröße von 1000, 500 mit einer Dateigröße von 7500 Zeilen sieht es deprimierend aus. Aber es ist auf den ersten Blick und nicht unbedingt deprimierend. Angenommen, die Klasse "0" ist "long" und die Klasse "1" ist "out of market". Der Fehler für "out of market" liegt über 0,5, was bedeutet, dass der Kauf von Grund auf neu getätigt wird. Wenn wir die Plätze tauschen, würde das bedeuten, dass "out of market" kostenlos ist, aber "long" ist ein sehr kleiner Fehler.



Und dieselbe Datei mit Sample Size = 1000, 1000 sieht sehr anständig aus.

 
Igor Makanu:

Erstellung eines Arrays von Strukturen und Schreiben einer Matrix in jede Struktur, falls erforderlich, und sofortiges Zurücksetzen mittels FileWriteArray()

Ich kenne die Anzahl der Spalten nicht im Voraus... und werden Arrays von Strukturen mit dynamischen Arrays darin nicht in Dateien geschrieben? ) Das ist ein ziemliches Durcheinander...

Ich muss nur ein 2-D-Array speichern, dessen Spaltenanzahl im Voraus unbekannt ist.

 
Maxim Dmitrievsky:

Auf die gleiche Weise werden Ensembles neuronaler Netze auf der Grundlage von Bagging aufgebaut, und man erhält dasselbe wie ein Wald

Sie müssen verstehen, dass ein Wald nur ein Spezialfall von Backgammon ist, anstelle von Bäumen können Sie alles Mögliche einsetzen, irgendwelche schwachen Modelle. Ein einzelner Baum ist ein elementares Modell, das nichts unterdrücken kann

der Wald sich nicht "irgendwie" aufgrund von Zufallsstichproben umerzieht, sondern tatsächlich sehr leicht und unprätentiös umerzieht

beide müssen regularisiert werden, entweder über Decay (Gradientenschritt), frühes Stoppen oder über den r-Parameter des Forests oder Preprocessing, aber alle diese Verbesserungen liegen in der Regel innerhalb von 5-10 %. Bei schlechten Daten werden beide Modelle gleich schlecht abschneiden.

über das Boosten (extrem, nicht GBM) sagen sie, dass es nicht viel umlernt, Sie sollten es sich ansehen, ich kann nichts sagen

https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/

Alles ist ungefähr gleich: rf, xgboost, SVM, GLM, nnet.

An manchen Standorten ist ein Modell besser als ein anderes, an anderen schlechter - alles in Prozenteinheiten.

Es entsteht der Eindruck, dass der Modellfehler in Wirklichkeit der Fehler des Paares Prädiktor-Zielvariable ist. Es gibt eine bestimmte Grenze, über die man nicht mit irgendwelchen Tricks hinausgehen kann, sondern die man leicht zerstören kann, wenn man ein vielversprechendes Paar verpasst.

Grund der Beschwerde: