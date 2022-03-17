Einführung

Die Versuchung, auf der Grundlage unzureichender Daten voreilige Theorien aufzustellen, ist der Fluch unseres Berufs. "Sherlock Holmes"

Datenwissenschaft



Ist ein interdisziplinäres Gebiet, das wissenschaftliche Methoden, Prozesse, Algorithmen und Systeme einsetzt, um Wissen und Erkenntnisse aus verrauschten, strukturierten und unstrukturierten Daten zu extrahieren und dieses Wissen und die Erkenntnisse aus den Daten in einem breiten Spektrum von Anwendungsbereichen anzuwenden.

Ein Datenwissenschaftler ist jemand, der Programmiercode erstellt und diesen mit statistischem Wissen kombiniert, um Erkenntnisse aus Daten zu gewinnen.

Was können Sie von dieser Artikelserie erwarten?

Theorie (wie bei mathematischen Gleichungen): Die Theorie ist in der Datenwissenschaft am wichtigsten. Man muss die Algorithmen genau kennen und wissen, wie sich ein Modell verhält und warum es sich auf eine bestimmte Weise verhält. Das zu verstehen ist viel schwieriger als den Algorithmus selbst zu programmieren.

Praktische Beispiele in MQL5 und Python





Lineare Regression

Es ist ein Vorhersagemodell, das verwendet wird, um die lineare Beziehung zwischen einer abhängigen Variablen und einer oder mehreren unabhängigen Variablen zu finden.

Die lineare Regression ist einer der Kernalgorithmen, der von vielen Algorithmen verwendet wird, wie z.B.;

Logistische Regression, die ein auf linearer Regression basierendes Modell ist

ist Support Vector Machine, dieser berühmte Algorithmus in der Datenwissenschaft ist ein linear basiertes Modell

Was ist ein Modell?



Ein Modell ist nichts anderes als ein Suffix.

Theorie

Jede gerade Linie, die durch den Graphen verläuft, hat eine Gleichung:

Y = M X + C

Wie kommt man zu dieser Gleichung?

Angenommen, man hat zwei Datensätze mit den gleichen Werten von x und y

x y 1 1

2 2 3 3 4 4 5 5 6 6

Die grafische Darstellung schaut so aus:

Da y gleich x ist, lautet die Gleichung unserer Linie y=x Richtig? FALSCH

Überlegung,

y = x ist mathematisch dasselbe wie y = 1x, das ist in der Datenwissenschaft ganz anders, die Formel für die Linie wird y=1x sein, wobei 1 der Winkel ist, der zwischen der Linie und der x-Achse auch bekannt als die Steigung der Linie

aber,

Steigung = Änderung von y / Änderung von x = m (bezeichnet als m)

Unsere Formel lautet nun y = mx

Schließlich müssen wir unserer Gleichung eine Konstante hinzufügen, d. h. den Wert von y, wenn x gleich Null war, mit anderen Worten den Wert von y, wenn die Linie die y-Achse kreuzte.

Schlussendlich,

lautet unsere Gleichung y = mx + c (Dies ist nichts anderes als ein Modell in der Datenwissenschaft) wobei c der y-Achsenabschnitt ist





Einfache lineare Regression

Die einfache lineare Regression hat eine abhängige Variable und eine unabhängige Variable. Hier versuchen wir, die Beziehung zwischen zwei Variablen zu verstehen, z. B. wie sich ein Aktienkurs mit der Veränderung eines einfachen gleitenden Durchschnitts ändert.

Komplexe Daten

Angenommen, wir haben zufällig gestreute Indikatorwerte, die gegen den Aktienkurs gezogen werden(etwas, das im wirklichen Leben passiert)

In diesem Fall ist unser Indikator/unsere unabhängige Variable möglicherweise kein guter Prädiktor für unseren Aktienkurs/unsere abhängige Variable.

Der erste Filter, den Sie in Ihren Datensätzen anwenden müssen, besteht darin, alle Spalten zu streichen, die nicht stark mit Ihrem Ziel korrelieren, da Sie Ihr lineares Modell nicht mit diesen Spalten erstellen werden.

Die Erstellung eines linearen Modells mit nicht-linear korrelierten Daten ist ein großer grundlegender Fehler; Vorsicht.

Die Beziehung kann invers oder umgekehrt sein, aber sie muss stark sein, und da Sie nach linearen Beziehungen suchen, ist es das, was Sie finden wollen.





Wie messen wir nun die Stärke der Beziehung zwischen der unabhängigen Variablen und dem Ziel? Wir verwenden eine Metrik, die als der Korrelationskoeffizient bekannt ist.





Korrelationskoeffizient

Lassen Sie uns einen Code für ein Skript erstellen, um einen Datensatz zu erstellen, der als Hauptbeispiel für diesen Artikel verwendet werden soll; lassen Sie uns die Prädiktoren des NASDAQ finden.

input ENUM_TIMEFRAMES timeframe = PERIOD_H1 ; input int maperiod = 50 ; input int rsiperiod = 13 ; int total_data = 744 ; void OnStart () { string file_name = "NASDAQ_DATA.csv" ; string nasdaq_symbol = "#NQ100" , s_p500_symbol = "#SP500" ; int handle = FileOpen (file_name, FILE_CSV | FILE_READ | FILE_WRITE , "," ); if (handle == INVALID_HANDLE ) { Print ( "data to work with is nowhere to be found Err=" , GetLastError ()); } MqlRates nasdaq[]; ArraySetAsSeries (nasdaq, true ); CopyRates (nasdaq_symbol,timeframe, 1 ,total_data,nasdaq); MqlRates s_p[]; ArraySetAsSeries (s_p, true ); CopyRates (s_p500_symbol,timeframe, 1 ,total_data,s_p); int ma_handle = iMA (nasdaq_symbol,timeframe,maperiod, 0 , MODE_SMA , PRICE_CLOSE ); double ma_values[]; ArraySetAsSeries (ma_values, true ); CopyBuffer (ma_handle, 0 , 1 ,total_data,ma_values); int rsi_handle = iRSI (nasdaq_symbol,timeframe,rsiperiod, PRICE_CLOSE ); double rsi_values[]; ArraySetAsSeries (rsi_values, true ); CopyBuffer (rsi_handle, 0 , 1 ,total_data,rsi_values); if (handle> 0 ) { FileWrite (handle, "S&P500" , "NASDAQ" , "50SMA" , "13RSI" ); for ( int i= 0 ; i<total_data; i++) { string str1 = DoubleToString (s_p[i].close, Digits ()); string str2 = DoubleToString (nasdaq[i].close, Digits ()); string str3 = DoubleToString (ma_values[i], Digits ()); string str4 = DoubleToString (rsi_values[i], Digits ()); FileWrite (handle,str1,str2,str3,str4); } } FileClose (handle); }

Im Skript haben wir den NASDAQ-Schlusskurs, die 13-Perioden-RSI-Werte, den S&P 500 und den 50-Perioden-Gleitenden Durchschnitt erfasst. Nach erfolgreicher Kollektion der Daten in einer csv-Datei.

Visualisieren wir die Daten in Python auf dem jupyter notebook von anaconda, für diejenigen, die anaconda nicht auf ihrem Rechner installiert haben, können Sie Ihren Data Science Python Code, der in diesem Artikel verwendet wird, auf google colab ausführen.

Bevor Sie eine CSV-Datei öffnen können, die von unserem Testskript erstellt wurde, müssen Sie sie in die UTF-8-Kodierung konvertieren, damit sie von Python gelesen werden kann. Öffnen Sie die Csv-Datei mit Notepad und speichern Sie sie dann als UTF-8-Kodierung ab. Es ist ratsam, die Datei in ein externes Verzeichnis zu kopieren, damit sie von Python separat gelesen wird, wenn man auf dieses Verzeichnis verlinkt. Mit pandas lesen wir die Csv-Datei und speichern sie in der Datenvariablen.

Die Ausgabe:

Anhand der visuellen Darstellung der Daten können wir bereits erkennen, dass es eine sehr starke Beziehung zwischen dem NASDAQ und dem S&P 500 sowie eine starke Beziehung zwischen dem NASDAQ und seinem gleitenden 50-Perioden-Durchschnitt gibt. Wie bereits erwähnt, ist die unabhängige Variable, wenn die Daten über das gesamte Diagramm verstreut sind, kein guter Prädiktor für das Ziel, wenn es darum geht, lineare Beziehungen zu finden, aber sehen wir uns an, was die Zahlen über ihre Korrelation aussagen, und ziehen wir eine Schlussfolgerung aus den Zahlen und nicht aus unseren Augen. Um herauszufinden, wie die Variablen miteinander korrelieren, verwenden wir die als Korrelationskoeffizient bekannte Metrik.

Korrelationskoeffizient



Er wird verwendet, um die Stärke zwischen der unabhängigen Variable und dem Zielwert zu messen.

Es gibt verschiedene Arten von Korrelationskoeffizienten, aber wir werden den populärsten für die lineare Regression verwenden, der auch als Pearsons Korrelationskoeffizient( R) bekannt ist und zwischen -1 und +1 liegt.

Eine Korrelation mit den extrem möglichen Werten -1 und +1 bedeutet eine perfekte negative lineare bzw. eine perfekte positive lineare Beziehung zwischen x und y, während eine Korrelation von 0(Null) das Fehlen einer linearen Korrelation anzeigt.

Die Formel für den Korrelationskoeffizienten/Pearson-Koeffizient (R)





Ich habe eine linearRegressionLib.mqh erstellt, innerhalb unserer Hauptbibliothek, kodieren wir die Funktion corrcoef().

Beginnen wir mit der Mittelwertfunktion für die Werte. Mittelwert ist die Summe aller Daten, geteilt durch die Gesamtzahl der Elemente

double CSimpleLinearRegression::mean( double &data[]) { double x_y__bar= 0 ; for ( int i= 0 ; i< ArraySize (data); i++) { x_y__bar += data[i]; } x_y__bar = x_y__bar/ ArraySize (data); return (x_y__bar); }

double CSimpleLinearRegression::corrcoef( double &x[], double &y[]) { double r= 0 ; double numerator = 0 , denominator = 0 ; double x__x = 0 , y__y= 0 ; for ( int i= 0 ; i< ArraySize (x); i++) { numerator += (x[i]-mean(x))*(y[i]-mean(y)); x__x += MathPow ((x[i]-mean(x)), 2 ); y__y += MathPow ((y[i]-mean(y)), 2 ); } denominator = MathSqrt (x__x)* MathSqrt (y__y); r = numerator/denominator; return (r); }

Nun der Code für Pearsons r

und die Ergebnisausgabe in unserem TestSript.mq5:

Print ( "Correlation Coefficient NASDAQ vs S&P 500 = " ,lr.corrcoef(s_p,y_nasdaq)); Print ( "Correlation Coefficient NASDAQ vs 50SMA = " ,lr.corrcoef(ma,y_nasdaq)); Print ( "Correlation Coefficient NASDAQ Vs rsi = " ,lr.corrcoef(rsi,y_nasdaq));