Diskussion zum Artikel "Datenwissenschaft und ML (Teil 36): Der Umgang mit verzerrten Finanzmärkten"

 

Neuer Artikel Datenwissenschaft und ML (Teil 36): Der Umgang mit verzerrten Finanzmärkten :

Die Finanzmärkte sind nicht vollkommen ausgeglichen. Einige Märkte steigen, andere fallen, und wieder andere zeigen ein gewisses Schwankungsverhalten, das auf Unsicherheit in beide Richtungen hindeutet. Diese unausgewogenen Informationen können beim Trainieren von Machine-Learning-Modellen irreführend sein, da sich die Märkte häufig ändern. In diesem Artikel werden wir verschiedene Möglichkeiten erörtern, dieses Problem zu lösen.

Verschiedene Devisenmärkte und Finanzinstrumente verhalten sich zu verschiedenen Zeiten unterschiedlich. Während einige Finanzmärkte wie Aktien und Indizes auf lange Sicht oft nach oben tendieren, zeigen andere wie die Devisenmärkte oft ein fallendes Verhalten und vieles mehr. Diese Unsicherheit erhöht die Komplexität, wenn man versucht, den Markt mithilfe von Techniken der künstlichen Intelligenz (KI) und Modellen des maschinellen Lernens (ML) vorherzusagen.

Datenwissenschaft und ML - Der Umgang mit verzerrten Finanzmärkten


Autor: Omega J Msigwa

 
Vielen Dank, Sie Omega, schätzen Sie setzen diese zusammen, Bais ist etwas, das wir alle fürchten. Ich habe downloadted die Anhänge , Könnte ich vorschlagen, es enthält alle erforderlichen componets. Zum Glück haben Sie die github so konnte ich finden und installieren Sie die Voraussetzungen (preprossing.mqh, plots.mqh ,Matrixextend.mqh, metrics.mqh und Random Forext.mqh). Leider bleibe ich dann mit der Meldung ' Init - Undeclared Identifier ' aus der Zeile if (!random_forest.Init(StringFormat("%s.%s.%s.onnx", symbol_, EnumToString(timeframe_), technique_name), ONNX_COMMON_FOLDER)) //Initialisierung des RFC im ONNX-Format aus einem gemeinsamen Ordner. Ich habe es überprüft und habe USDJPY.PERIOD_D1.randomundersampling.onnx im MQL5\Common Ordner
 
linfo2 USDJPY.PERIOD_D1.randomundersampling.onnx im MQL5\Common Ordner

Die benötigten Komponenten sind die neuesten Versionen von allem, was in das Notebook importiert wurde. Sie können pip install ohne sich um die Versionskonflikte zu kümmern durchführen. Alternativ können Sie auch dem Link in der Tabelle mit den Anhängen folgen, der Sie zu Kaggle.com führt, wo Sie den Code bearbeiten und ändern können.

Undeclared identifier, könnte bedeuten, dass eine Variable oder ein Objekt nicht definiert ist. Überprüfen Sie Ihren Code oder senden Sie mir einen Screenshot des Codes.

 
Die Testergebnisse sind nicht glaubwürdig. Der Testzeitraum umfasst den Zeitraum der Trainingsdaten. Das Modell schneidet bei den Trainingsdaten gut und bei den Testergebnissen schlecht ab. Sie können sehen, dass viele Testergebnisse im Zeitraum vom 2024.07.06 bis 2025.01.01 liegen. Das Modell schneidet schlecht ab, während die Leistung des Modells in der vorherigen Zeit ausgezeichnet ist. Ich habe berechnet, dass der Trainingssatz 80 % ausmacht. Die Daten werden nicht für eine zufällige Zuweisung unterbrochen, und die Trainingsmenge und die Testmenge werden direkt der Reihe nach zugewiesen. Das Modell erkennt die vorherigen Trainingsdaten, nicht aber die nachfolgenden Testdaten. Sie haben die Trainingsdaten im Test verwendet, was zu überhöhten Gesamtergebnissen führt, und die Leistung bei den nachfolgenden Testdaten ist sehr schlecht, mit Verlusten. Dann ist auch der Clusterschwerpunkt unzuverlässig. Für das Clustering werden alle Daten verwendet, und die Gesamtdaten werden für das Clustering und das anschließende Training genutzt. Daher umfassen die von dieser Methode verwendeten Trainingsdaten den Zeitraum von 2023.01.01 bis 2025.01.01. Man kann sagen, dass dies ein Test ist, der sich ausschließlich auf die Trainingsdaten bezieht, ohne dass unbekannte Daten getestet werden. Die Trainingsdaten und die Testdaten müssen streng in chronologischer Reihenfolge unterschieden werden. Nur Testdaten können verwendet werden, um die Leistung des Modells zu testen, z. B. 2023.01.01~2024.01.01 als Trainingsdaten und 2024.01.01~2025.01.01 als Testdaten. Das Testmodell kann nur mit Testdaten getestet werden. Es sollte kein Risiko eines Informationsverlustes bestehen, da sonst die gute Leistung des Modells unzuverlässig wird.