Diskussion zum Artikel "Datenwissenschaft und ML (Teil 29): Wichtige Tipps für die Auswahl der besten Forex-Daten für AI-Trainingszwecke"

 

Neuer Artikel Datenwissenschaft und ML (Teil 29): Wichtige Tipps für die Auswahl der besten Forex-Daten für AI-Trainingszwecke :

In diesem Artikel befassen wir uns eingehend mit den entscheidenden Aspekten der Auswahl der relevantesten und hochwertigsten Forex-Daten, um die Leistung von KI-Modellen zu verbessern.

Mit allen Handelsdaten und Informationen wie Indikatoren (es gibt mehr als 36 integrierte Indikatoren in MetaTrader 5), Symbolpaaren (es gibt mehr als 100 Symbole), die auch als Daten für Korrelationsstrategien verwendet werden können, gibt es auch Nachrichten, die wertvolle Daten für Händler sind, usw. Was ich damit sagen will, ist, dass es für Händler eine Fülle von Informationen gibt, die sie beim manuellen Handel oder bei der Entwicklung von Modellen der künstlichen Intelligenz nutzen können, um intelligente Handelsentscheidungen für unsere Handelsroboter zu treffen.

Unter all den Informationen, die uns zur Verfügung stehen, muss es auch einige schlechte Informationen geben (das ist nur der gesunde Menschenverstand). Nicht alle Indikatoren, Daten, Strategien usw. sind für ein bestimmtes Handelssymbol, eine bestimmte Strategie oder eine bestimmte Situation nützlich. Wie ermitteln wir die richtigen Informationen für Handels- und maschinelle Lernmodelle, um maximale Effizienz und Rentabilität zu erzielen? Hier kommt die Merkmalsauswahl ins Spiel. 

Autor: Omega J Msigwa

 
Vielen Dank für Sie klar und gut geschriebenen Artikel, Es ist genau das, was ich versuchte zu verstehen und arbeitete weg, um Korrelationen selbst zu überprüfen. Vielen Dank auch für die Python-Datei, da sie eine einfache Vorlage für mich zu adaptieren macht. Ich hoffe, dass ich nach einer Analyse sagen kann: Danke, dass Sie mir die Augen dafür geöffnet haben, was möglich ist.
 
«Объединяя или удаляя сильно коррелированные признаки, можно упростить модель, не теряя при этом важной информации. Например, в представленной выше корреляционной матрице переменные Open, High и Low имеют 100% корреляцию. Их корреляция составляет 99 с лишним % (округленные значения). В этом случае можно исключить часть этих переменных, оставив лишь одну, либо применить методы снижения размерности, которые мы рассмотрим далее.»
Töten von Marktdaten. Dies ist ein klassischer Ansatz der so genannten kostenlosen "Datenbereinigung", der auf einem Vorurteil beruht, das seine Wurzeln direkt im stationären Lernen hat.

Hier, zum Beispiel, in diesem Artikel https://link.springer.com/article/10.1186/s40854-024-00622-6?utm_source
beweisen sie, dass OHLC nicht nur vier Zahlen, sondern ein einziges topologisches Objekt ist.

Wenn wir nur Close lassen, verlieren wir Informationen über die Volatilität innerhalb des Balkens. Eine hohe Korrelation von 99 % ist "Rauschen" für die lineare Regression, aber dieser 1 %ige Unterschied ist ein "Signal" für den Händler (Schattenlänge, Ausbruchsstärke). Wenn man die "korrelierten" Preise entfernt, wird ein Candlestick-Diagramm zu einem linearen Diagramm und zerstört damit das eigentliche Wesen der Candlestick-Analyse.


"Der Korrelationskoeffizient ... wertet nur lineare Beziehungen zwischen numerischen Variablen aus."

Der Autor selbst räumt die Grenzen der Methode ein, empfiehlt aber dennoch, sie für die Auswahl von Merkmalen zu verwenden.
Der Markt ist nicht linear. Im selben Artikel wird das Konzept der strukturellen Beschränkungen eingeführt (High Close). Die Pearson-Korrelation kennt diese Beschränkungen nicht. Folgt man der Logik des ersten Artikels und entfernt das "überflüssige" High/Low, versteht das Modell die Grenzen der akzeptablen Werte nicht mehr. Als Ergebnis erhalten wir einen Algorithmus, der den Unterschied zwischen einem "ruhigen Markt" und einem "Markt mit riesigen Ausschlägen" nicht versteht, wenn die Eröffnungskurse übereinstimmen.


"Durch die Reduzierung der Dimensionalität ... vereinfachen wir das Modell und reduzieren die Rechenkosten."

Das ist "Sparen an Übereinstimmungen".
Sie können die Daten transformieren (Unconstrained Transformation), anstatt die Daten "wegzuwerfen", um sie zu vereinfachen. Anstatt High und Low aufgrund ihrer Korrelation mit Open zu entfernen, sollten Sie sie in relative Werte umwandeln (Candle Spread, enge Position relativ zu den Extremen). Auf diese Weise bleibt die Dimensionalität gleich (oder etwas geringer), aber die Informativität (Geometrie) bleibt bei 100 %, und das Korrelationsproblem verschwindet.

A structural VAR and VECM modeling method for open-high-low-close data contained in candlestick chart - Financial Innovation
A structural VAR and VECM modeling method for open-high-low-close data contained in candlestick chart - Financial Innovation
  • 2024.03.05
  • link.springer.com
The structural modeling of open-high-low-close (OHLC) data contained within the candlestick chart is crucial to financial practice. However, the inherent constraints in OHLC data pose immense challenges to its structural modeling. Models that fail to process these constraints may yield results deviating from those of the original OHLC data...