Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading

Alexey Burnakov 2016.11.15 15:56 #2121

Ein weiteres Beispiel für eine Simulation.

Wir erstellen 20.000 lineare Modelle (überall 1.000 Beobachtungen, Anzahl der Prädiktoren von 1 bis 20 (1.000 Modelle für jede Anzahl), plus eine unabhängige Variable). Daten i.i.d., N(0,1).

Mit der Simulation soll sichergestellt werden, dass die F-Statistik den kritischen Wert nicht überschreitet, wenn die MNA-Regression auf unabhängigen Daten (die keine Abhängigkeiten enthalten) aufgebaut ist und die Anforderungen des lin.model erfüllt. Sie kann also als Indikator für die Modellausbildung verwendet werden.

############### simulate lm f-stats with random vars

rm(list=ls());gc()

library(data.table)

library(ggplot2)

start <- Sys.time()

set.seed(1)

x <- as.data.table(matrix(rnorm(21000000, 0, 1), ncol = 21))

x[, sampling:= sample(1000, nrow(x), replace = T)]

lm_models <- x[,

{

lapply(c(1:20), function(x) summary(lm(data = .SD[, c(1:x, 21), with = F], formula = V21 ~ . -1))$'fstatistic'[[1]])

}

, by = sampling

]

lm_models_melted <- melt(lm_models, measure.vars = paste0('V', c(1:20)))

crtitical_f_stats <- qf(p = 0.99, df1 = c(1:20), df2 = 1000, lower.tail = TRUE, log.p = FALSE)

boxplot(data = lm_models_melted, value ~ variable); lines(crtitical_f_stats, type = 's', col = 'red')

Sys.time() - start

gc()

Laufzeit des Codes: 1,35 Minuten.

Machine learning in trading: Optimieren! Bitte teilen Sie Programmier-Tutorial

Alexey Burnakov 2016.11.15 17:21 #2122

Nützlicher Code. Visualisiert Transaktionssequenzen in drei Hypostasen.

##########################

rm(list=ls());gc()

library(data.table)

library(ggplot2)

library(gridExtra)

library(tseries)

start <- Sys.time()

set.seed(1)

x <- as.data.table(matrix(rnorm(1000000, 0.1, 1), ncol = 1)) #random normal value with positive expectation

x[, variable:= rep(1:1000, times = 1000)]

x[, trade:= 1:.N, by = variable]

x.cast = dcast.data.table(x, variable ~ trade, value.var = 'V1', fun.aggregate = sum)

x_cum <- x.cast[, as.list(cumsum(unlist(.SD))), by = variable]

monte_trades <- melt(x_cum, measure.vars = names(x_cum)[-1], variable.name = "trade", value.name = 'V1')

setorder(monte_trades, variable, trade)

monte_trades_last <- as.data.table(monte_trades[trade == '1000', V1])

quantile_trade <- monte_trades[, quantile(V1, probs = 0.05), by = trade]

RF_last <- monte_trades[, V1[.N] / maxdrawdown(V1)[[1]], by = variable]

p1 <- ggplot(data = monte_trades, aes(x = trade, y = V1, group = variable)) +

geom_line(size = 2, color = 'blue', alpha = 0.01) +

geom_line(data = quantile_trade, aes(x = trade, y = V1, group = 1), size = 2, alpha = 0.5, colour = 'blue') +

ggtitle('Simulated Trade Sequences of Length 1000')

p2 <- ggplot(data = monte_trades_last, aes(V1)) +

geom_density(alpha = 0.1, size = 1, color = 'blue', fill = 'blue') +

scale_x_continuous(limits = c(min(monte_trades$V1), max(monte_trades$V1))) +

coord_flip() +

ggtitle('Cumulative Profit Density')

p3 <- ggplot(data = RF_last, aes(V1)) +

geom_density(alpha = 0.1, size = 1, color = 'blue', fill = 'blue') +

geom_vline(xintercept = mean(RF_last$V1), colour = "blue", linetype = 2, size = 1) +

geom_vline(xintercept = median(RF_last$V1), colour = "red", linetype = 2, size = 1) +

ggtitle('Recovery Factor Density + Mean (blue) and Median (red)')

grid.arrange(p1, p2, p3, ncol = 3)

Sys.time() - start

gc()

Läuft etwa 45 Sekunden lang. Hat eine Laufzeit von etwa 1,5 Minuten.

Machine learning in trading: Machine Learning and Neural Getting testing financial statistics:

Dr. Trader 2016.11.15 20:54 #2123

Alexey Burnakov:

Wunderbar, danke.

Dr. Trader 2016.11.16 05:31 #2124

Alexey Burnakov:

Mit der Simulation soll sichergestellt werden, dass die F-Statistik einen kritischen Wert nicht überschreitet, wenn die MNA-Regression auf unabhängigen Daten (die keine Abhängigkeiten enthalten) aufgebaut ist und die Anforderungen eines linearen Modells erfüllt. Sie kann also als Indikator für die Modellausbildung verwendet werden.

Ich habe nicht ganz verstanden, was fstatistic ist. Die Daten sind hier zufällig, aber das Modell ist auf etwas trainiert, so dass man daraus schließen kann, dass das Modell passt und übertrainiert ist. Das bedeutet, dass die Modellbewertung schlecht sein muss. D.h. ich habe eine negative fstatistis oder einen anderen Hinweis darauf erwartet, dass es in der Grafik schlecht aussieht.
Wie interpretiere ich das Ergebnis aus diesem Beispiel richtig?
Ich verstehe, dass der erste Prädiktor als qualitativer angesehen werden kann als der erste + zweite. Und 1+2 ist besser als 1+2+3. Ist das so? Ist es sinnvoll, die Prädiktoren mit Hilfe der Genetik auszuwählen, die die höchste fstatistic ergeben?

Diskussion zum Artikel "Wie Wie man den Umfang EA N7S_AO_772012

Alexey Burnakov 2016.11.16 09:59 #2125

Dr. Trader:
Ich habe das mit der fstatistic nicht ganz verstanden. Die Daten sind hier zufällig, aber das Modell hat etwas gelernt, so dass man daraus schließen kann, dass das Modell passt und übertrainiert ist. Das bedeutet, dass die Modellbewertung schlecht sein muss. D.h. ich habe eine negative fstatistis oder einen anderen Hinweis darauf erwartet, dass es in der Grafik schlecht aussieht.
Wie interpretiere ich das Ergebnis aus diesem Beispiel richtig?
Ich verstehe, dass der erste Prädiktor als qualitativer angesehen werden kann als der erste + zweite. Und 1+2 ist besser als 1+2+3. Ist das so? Ist es sinnvoll, die Prädiktoren mit Hilfe der Genetik auszuwählen, die die höchste fstatistic ergeben?

Sehen Sie sich die F-Verteilungstabelle an.http://www.socr.ucla.edu/applets.dir/f_table.html

Die F-Statistik ist ein Wert, der von den Freiheitsgraden abhängt. Sie ist immer positiv, weil wir eine einseitige Verteilung haben.

Aber das Modell lernt nichts, denn ein trainiertes Modell muss eine hohe F-Statistik haben (größer oder gleich kritisch bei einem gegebenen Alpha - wie es beim Testen der Nullhypothese klingt).

In allen Fällen darf der kritische Wert bei alpha = 0,01 nicht überschritten werden, aber man könnte ihn z. B. auf 0,0001 setzen.

Allerdings wollte ich mich vergewissern (ich habe das nicht an der Universität studiert), dass das lineare Modell durch das Hinzufügen von Rauschvariablen keinen Anstieg der Lernleistung zeigen würde. Wie Sie sehen können...

F-Distribution Tables

Ivo Dinov: www.SOCR.ucla.edu
www.socr.ucla.edu

Statistics Online Computational Resource

Diskussion zum Artikel "Kolmogorov-Smirnov-Test Diskussion zum Artikel "Neuronale Elite-Indikatoren :)

Vladimir Perervenko 2016.11.16 10:48 #2126

Alexey Burnakov:

Nützlicher Code. Visualisiert Transaktionssequenzen in drei Hypostasen.

Bezüglich des obigen Codes. Bitte schreiben Sie zumindest kurze Kommentare in den Code. Vor allem, wenn Sie komplexe Ausdrücke verwenden. Nicht jeder kennt und benutzt das "data.table" Paket, es ist nicht überflüssig zu erklären, was dcast.data.table macht, was .N, .SD ist. Sie stellen den Code nicht ein, um zu zeigen, wie gut Sie sich damit auskennen. Meiner Meinung nach sollte der veröffentlichte Code anderen Nutzern (auch solchen mit Grundkenntnissen) helfen, das Skript zu verstehen.

Es ist großartig, dass R es Ihnen erlaubt, die Aktion auf verschiedene Arten zu programmieren, aber es ist wünschenswert, dass Sie die Lesbarkeit des Codes nicht verlieren.

Ein paar Vorschläge zum Code:

- Die Zwischenvariablen x, x.cast, x.cum werden in den Berechnungen nicht benötigt und nehmen nur Speicherplatz in Anspruch. Alle Berechnungen, die keine Speicherung von Zwischenergebnissen erfordern, sollten vorzugsweise über Rohrleitungen durchgeführt werden.

Zum Beispiel

#---variant-------------
rm(list=ls());gc()
library(data.table)
library(ggplot2)
library(gridExtra)
library(tseries)
#----
require(magrittr)
require(dplyr)
start <- Sys.time()
monte_trades <- as.data.table(matrix(rnorm(1000000, 0.1, 1), ncol = 1)) %>%
        .[, variable := rep(1:1000, times = 1000)]%>%
        .[, trade := 1:.N, by = variable] %>%
        dcast.data.table(., variable ~ trade, value.var = 'V1', fun.aggregate = sum)%>%
        .[, as.list(cumsum(unlist(.SD))), by = variable]%>%
        melt(., measure.vars = names(.)[-1], variable.name = "trade", value.name = 'V1')%>%
        setorder(., variable, trade)
monte_trades_last <- as.data.table(monte_trades[trade == '1000', V1])
quantile_trade <- monte_trades[, quantile(V1, probs = 0.05), by = trade]
RF_last <- monte_trades[, V1[.N] / maxdrawdown(V1)[[1]], by = variable]
Sys.time() - start
#Time difference of 2.247022 secs

Natürlich dauert es sehr lange, Diagramme zu erstellen.

Das ist keine Kritik.

Viel Glück!

Alexey Burnakov 2016.11.16 10:55 #2127

Dr. Trader:
Ich habe das mit der fstatistic nicht ganz verstanden. Die Daten sind hier zufällig, aber das Modell hat etwas gelernt, so dass man daraus schließen kann, dass das Modell passt und übertrainiert ist. Das bedeutet, dass die Modellbewertung schlecht sein muss. D.h. ich habe eine negative fstatistis oder einen anderen Hinweis darauf erwartet, dass es in der Grafik schlecht aussieht.
Wie interpretiere ich das Ergebnis aus diesem Beispiel richtig?
Ich verstehe, dass der erste Prädiktor als qualitativer angesehen werden kann als der erste + zweite. Und 1+2 ist besser als 1+2+3. Ist das so? Ist es sinnvoll, die Prädiktoren mit Hilfe der Genetik auszuwählen, die die höchste fstatistic ergeben?

Und hier ein Beispiel, bei dem wir davon ausgehen, dass das vollständig trainierte Modell 20 Variablen mit steigender Gewichtung enthält (1 Variable - Gewichtung 1, die 20. Variable - Gewichtung 20). Und wir wollen sehen, wie sich die Verteilung der F-Statistiken nach dem sukzessiven Hinzufügen von Prädiktoren zum Modell verändert:

############### simulate lm f-stats with non-random vars

rm(list=ls());gc()

library(data.table)

library(ggplot2)

start <- Sys.time()

set.seed(1)

x <- as.data.table(matrix(rnorm(20000000, 0, 1), ncol = 20))

x[, (paste0('coef', c(1:20))):= lapply(1:20, function(x) rnorm(.N, x, 1))]

x[, output:= Reduce(`+`, Map(function(x, y) (x * y), .SD[, (1:20), with = FALSE], .SD[, (21:40), with = FALSE])), .SDcols = c(1:40)]

x[, sampling:= sample(1000, nrow(x), replace = T)]

lm_models <- x[,

{

lapply(c(1:20), function(x) summary(lm(data = .SD[, c(1:x, 41), with = F], formula = output ~ . -1))$'fstatistic'[[1]])

}

, by = sampling

]

lm_models_melted <- melt(lm_models, measure.vars = paste0('V', c(1:20)))

crtitical_f_stats <- qf(p = 0.99, df1 = c(1:20), df2 = 1000, lower.tail = TRUE, log.p = FALSE)

boxplot(data = lm_models_melted, value ~ variable, log = 'y'); lines(crtitical_f_stats, type = 's', col = 'red')

summary(lm(data = x[sample(1000000, 1000, replace = T), c(1:20, 41), with = F], formula = output ~ . -1))

Sys.time() - start

gc()

Diagramm mit logarithmischer y-Achse:

Anscheinend ja...

> summary(lm(data = x[sample(1000000, 1000, replace = T), c(1:20, 41), with = F], formula = output ~ . -1))

Call:

lm(formula = output ~ . - 1, data = x[sample(1e+06, 1000, replace = T),

c(1:20, 41), with = F])

Residuals:

Min 1Q Median 3Q Max

-19.6146 -2.8252 0.0192 3.0659 15.8853

Coefficients:

Estimate Std. Error t value Pr(>|t|)

V1 0.9528 0.1427 6.676 4.1e-11 ***

V2 1.7771 0.1382 12.859 < 2e-16 ***

V3 2.7344 0.1442 18.968 < 2e-16 ***

V4 4.0195 0.1419 28.325 < 2e-16 ***

V5 5.2817 0.1479 35.718 < 2e-16 ***

V6 6.2776 0.1509 41.594 < 2e-16 ***

V7 6.9771 0.1446 48.242 < 2e-16 ***

V8 7.9722 0.1469 54.260 < 2e-16 ***

V9 9.0349 0.1462 61.806 < 2e-16 ***

V10 10.1372 0.1496 67.766 < 2e-16 ***

V11 10.8783 0.1487 73.134 < 2e-16 ***

V12 11.9129 0.1446 82.386 < 2e-16 ***

V13 12.8079 0.1462 87.588 < 2e-16 ***

V14 14.2017 0.1487 95.490 < 2e-16 ***

V15 14.9080 0.1458 102.252 < 2e-16 ***

V16 15.9893 0.1428 111.958 < 2e-16 ***

V17 17.4997 0.1403 124.716 < 2e-16 ***

V18 17.8798 0.1448 123.470 < 2e-16 ***

V19 18.9317 0.1470 128.823 < 2e-16 ***

V20 20.1143 0.1466 137.191 < 2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 4.581 on 980 degrees of freedom

Multiple R-squared: 0.9932, Adjusted R-squared: 0.993

F-statistic: 7123 on 20 and 980 DF, p-value: < 2.2e-16

Machine learning in trading: Circular Buffer Issue MQL5 Any questions from newcomers

Alexey Burnakov 2016.11.16 11:02 #2128

Vladimir Perervenko:

Ich danke Ihnen! Ich wusste noch nicht, wie man das macht. Aber eigentlich sollten Sie die Berechnungen so weit wie möglich im Hinterkopf behalten. Es wird schneller gehen. Gutes Kung Fu...

Mit Ihren Optimierungen:

#---variant-------------

rm(list=ls());gc()

library(data.table)

library(ggplot2)

library(gridExtra)

library(tseries)

#----

require(magrittr)

require(dplyr)

start <- Sys.time()

monte_trades <- as.data.table(matrix(rnorm(1000000, 0.1, 1), ncol = 1)) %>%

.[, variable := rep(1:1000, times = 1000)]%>%

.[, trade := 1:.N, by = variable] %>%

dcast.data.table(., variable ~ trade, value.var = 'V1', fun.aggregate = sum)%>%

.[, as.list(cumsum(unlist(.SD))), by = variable]%>%

melt(., measure.vars = names(.)[-1], variable.name = "trade", value.name = 'V1')%>%

setorder(., variable, trade)

monte_trades_last <- as.data.table(monte_trades[trade == '1000', V1])

quantile_trade <- monte_trades[, quantile(V1, probs = 0.05), by = trade]

RF_last <- monte_trades[, V1[.N] / maxdrawdown(V1)[[1]], by = variable]

p1 <- ggplot(data = monte_trades, aes(x = trade, y = V1, group = variable)) +

geom_line(size = 2, color = 'blue', alpha = 0.01) +

geom_line(data = quantile_trade, aes(x = trade, y = V1, group = 1), size = 2, alpha = 0.5, colour = 'blue') +

ggtitle('Simulated Trade Sequences of Length 1000')

p2 <- ggplot(data = monte_trades_last, aes(V1)) +

geom_density(alpha = 0.1, size = 1, color = 'blue', fill = 'blue') +

scale_x_continuous(limits = c(min(monte_trades$V1), max(monte_trades$V1))) +

coord_flip() +

ggtitle('Cumulative Profit Density')

p3 <- ggplot(data = RF_last, aes(V1)) +

geom_density(alpha = 0.1, size = 1, color = 'blue', fill = 'blue') +

geom_vline(xintercept = mean(RF_last$V1), colour = "blue", linetype = 2, size = 1) +

geom_vline(xintercept = median(RF_last$V1), colour = "red", linetype = 2, size = 1) +

ggtitle('Recovery Factor Density + Mean (blue) and Median (red)')

grid.arrange(p1, p2, p3, ncol = 3)

Sys.time() - start

Die Laufzeit beträgt 47 Sekunden. Ich meine, der Code ist hübscher und kompakter, aber es gibt keinen Unterschied in der Geschwindigkeit... Zeichnen, ja, sehr lang. 1000 Zeilen mit Transparenz - wegen ihnen...

Machine learning in trading: Programmier-Tutorial Fragen von Anfängern MQL5

Vladimir Perervenko 2016.11.16 11:59 #2129

Alexey Burnakov:

Ich danke Ihnen! Ich wusste noch nicht, wie man das macht. Aber eigentlich sollten Sie die Berechnungen so weit wie möglich im Hinterkopf behalten. Es wird schneller gehen. Gutes Kung Fu...

Die Laufzeit beträgt 47 Sekunden. Ich meine, der Code ist hübscher und kompakter, aber es gibt keinen Unterschied in der Geschwindigkeit... Das Zeichnen, ja, ist sehr lang. 1000 Zeilen mit Transparenz - wegen ihnen...

Meine Berechnung geht von

# Laufzeit in Sekunden

# min lq mittel median uq max neval

# 2.027561 2.253354 2.254134 2.275785 2.300051 2.610649 100

Aber das ist nicht so wichtig. Es ging um die Lesbarkeit des Codes.

Viel Glück!

PS. Und parallelisieren Sie die lm()-Berechnung. Dies ist genau der Fall, wenn Sie Folgendes benötigen

Machine learning in trading: Ein bisschen Mathe :) [ARCHIV]Alle Fragen von Anfängern,

Alexey Burnakov 2016.11.16 12:50 #2130

Vladimir Perervenko:

Ich habe eine Berechnung, bei der

#-Ausführungszeit in Sekunden

# min lq mittel median uq max neval

# 2.027561 2.253354 2.254134 2.275785 2.300051 2.610649 100

Aber das ist nicht so wichtig. Es ging um die Lesbarkeit des Codes.

Viel Glück!

PS. Und parallelisieren Sie die lm()-Berechnung. Das ist genau der Fall, wenn es notwendig ist.

Nö. Sie geben die Zeit für einen Teil des Codes vor den Diagrammen an. Ich habe sie zusammen mit den Diagrammen angegeben.

Ich habe 1,5 Sekunden vor den Karten. Ihre Methode beträgt 1,15 Sekunden.

rm(list=ls());gc()

library(data.table)

library(ggplot2)

library(gridExtra)

library(tseries)

start <- Sys.time()

set.seed(1)

x <- as.data.table(matrix(rnorm(1000000, 0.1, 1), ncol = 1)) #random normal value with positive expectation

x[, variable:= rep(1:1000, times = 1000)]

x[, trade:= 1:.N, by = variable]

x.cast = dcast.data.table(x, variable ~ trade, value.var = 'V1', fun.aggregate = sum)

x_cum <- x.cast[, as.list(cumsum(unlist(.SD))), by = variable]

monte_trades <- melt(x_cum, measure.vars = names(x_cum)[-1], variable.name = "trade", value.name = 'V1')

setorder(monte_trades, variable, trade)

monte_trades_last <- as.data.table(monte_trades[trade == '1000', V1])

quantile_trade <- monte_trades[, quantile(V1, probs = 0.05), by = trade]

RF_last <- monte_trades[, V1[.N] / maxdrawdown(V1)[[1]], by = variable]

Sys.time() - start

rm(list=ls());gc()

library(data.table)

library(ggplot2)

library(gridExtra)

library(tseries)

#----

require(magrittr)

require(dplyr)

start <- Sys.time()

monte_trades <- as.data.table(matrix(rnorm(1000000, 0.1, 1), ncol = 1)) %>%

.[, variable := rep(1:1000, times = 1000)]%>%

.[, trade := 1:.N, by = variable] %>%

dcast.data.table(., variable ~ trade, value.var = 'V1', fun.aggregate = sum)%>%

.[, as.list(cumsum(unlist(.SD))), by = variable]%>%

melt(., measure.vars = names(.)[-1], variable.name = "trade", value.name = 'V1')%>%

setorder(., variable, trade)

monte_trades_last <- as.data.table(monte_trades[trade == '1000', V1])

quantile_trade <- monte_trades[, quantile(V1, probs = 0.05), by = trade]

RF_last <- monte_trades[, V1[.N] / maxdrawdown(V1)[[1]], by = variable]

Sys.time() - start

Es stellt sich heraus, dass Ihre Methode schneller ist...

Machine learning in trading: HedgeHog System & EA Programmier-Tutorial

Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 213