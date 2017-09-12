DNN 在许多领域得到广泛的应用和发展。日常使用神经网络的最常见例子是语言和图像识别, 以及从一种语言到另一种语言的自动翻译。DNN 也能用于交易。鉴于算法交易的快速发展, 对 DNN 的深入研究似乎是有用的。

最近, 开发人员已经提出了许多新的使用 DNN 的思路, 方法和途径, 并通过实验一一证明它们。本系列文章将研究 DNN 发展的状况和主要方向。有极大的空间可致力于使用实际实验和 DNN 的定性特征来测试各种思路和方法。在我们的工作中将仅使用多层完全连接的网络。

文章将有四个着重关注领域:

准备, 评估和经过各种变换放大的入场数据。



darch 软件包的新功能 (v.0.12)。灵活性和扩展功能。

运用预测结果放大 (DNN 和神经网络合奏的超参数优化)。

在学习和工作期间控制智能交易系统操作的图形能力。

本文将研究准备用于神经网络的接收自交易终端中的数据。

深度神经网络的开发、训练和测试应按严格顺序分阶段完成。与任何机器学习模型类似, 创建 DNN 的过程可以分为两个不相等的部分:

准备进行实验用的输入和输出数据;

DNN 的创建、训练、测试和参数优化。

第一阶段占用大部分时间 - 约 70%。DNN 的操作在很大程度上取决于这个阶段的成功。毕竟, 塞进的是垃圾 - 出来的还是垃圾。这就是为什么我们将详细描述这一阶段的行动顺序。

为了重复实验, 您需要安装 MRO 3.4.0 和 Rstudio。有关此软件的安装说明可以在互联网上轻松找到。本文附带的文件也包含这些信息, 所以我们不再赘言。

R 语言

我们来回忆一下关于 R 的一些重要事情。它是统计计算和图形专用的编程语言和环境。它于 1996 年由新西兰科学家 Ross Ihaka 和 Robert Gentleman 在奥克兰大学开发。R 是一个 GNU 项目, 此为开源软件。使用开源软件的方法取决于以下原则 (自由度):

为任何目的启动开发的自由 (自由度 0);

研究程序如何运作并令其适合程序员需求的自由 (自由度 1);

分发副本的自由, 以便您可以帮助您的邻居 (自由度 2);

改善程序, 分发修订版本的自由, 令整个社区受益。

如今 R 主要由 "R 开发核心团队" 和去年成立的 R 联盟 进行改进和开发。联盟成员名单 (IBM, Microsoft, Rstudio, Google, Mango, Oracle 等) 表明其受到良好的支持, 显著的兴趣和良好的语言前景。

R 的优势:

如今, R 是统计计算的标准。

它得到全球科学界的支持和发展。

整套软件包涵盖数据挖掘的所有高级方向。必须要说到的是, 自科学家们发表新观念, 之后在 R 中实现这一想法的间隔时间不超过两周。

而且, 最后但非同小可的是, 它是绝对免费的。



1. 创建初始 (原始) 数据

"所有以前的, 当前的和未来的价格走势蕴含在价格本身"

有许多方法 (软件包) 设计用于初步准备、评估和预测选择。这些方法的评论可以在 [1] 中找到。它们的变体可由现实世界数据的多样性来解释。使用中的数据类型将定义探索和处理的方法。

我们正在探索 财务数据。这些具有层次结构, 规则的时间序列永无终止, 且可以很容易地提取。基准行是指定时间帧的金融工具的 OHLCV 报价。

所有其它时间序列来自这个基本行:

非参数化。例如, x^2, sqrt(abs(x)), x^3, -x^2 等等。

功能参数化。例如, sin(2*n*x), ln(abs(x)), log(Pr(t)/Pr(t-1)) 等等。

参数化。这里属于一定数量的不同指标, 主要用来预测。它们可以是振荡器和不同种类的过滤器。

无论指标生成的信号 (因子), 或条件语句序列产生的信号都可作为目标变量使用。

1.1. 报价

OHLC 报价, 交易量和时间我们可以从终端的 (o, h, l, cl, v, d) 向量 获得。我们需要编写一个函数以便在数据帧中加入接收自终端的向量。为此, 我们将柱线的开始时间格式改为 POSIXct 格式。

#---pr.OHLCV------------------- pr.OHLCV <- function(d, o, h, l, cl, v){ # (d, o, h, l, cl, v)- vector require('magrittr') require('dplyr') require('anytime') price <- cbind(Data = rev(d), Open = rev(o), High = rev(h), Low = rev(l), Close = rev(cl), Vol = rev(v)) %>% as.tibble() price$Data %<>% anytime(., tz = "CET") return (price) }

由于报价向量已被加载到环境 env 中, 我们来计算数据帧 pr 并清除环境变量:

evalq({pr <- pr.OHLCV(Data, Open , High , Low , Close , Volume ) rm(list = c("Data", " Open ", " High ", " Low ", " Close ", " Volume ")) }, env)

> head(env$pr) # A tibble: 6 x 6 Data Open High Low Close < dttm > < dbl > < dbl > < dbl > < dbl > 1 2017-01-10 11:00:00 122.758 122.893 122.746 122.859 2 2017-01-10 11:15:00 122.860 122.924 122.818 122.848 3 2017-01-10 11:30:00 122.850 122.856 122.705 122.720 4 2017-01-10 11:45:00 122.721 122.737 122.654 122.693 5 2017-01-10 12:00:00 122.692 122.850 122.692 122.818 6 2017-01-10 12:15:00 122.820 122.937 122.785 122.920 # ... with 1 more variables: Vol < dbl >

我们想看看这个数据帧开头的样子:

以及结尾:

> tail(env$pr) # A tibble: 6 x 6 Data Open High Low Close < dttm > < dbl > < dbl > < dbl > < dbl > 1 2017-05-05 20:30:00 123.795 123.895 123.780 123.888 2 2017-05-05 20:45:00 123.889 123.893 123.813 123.831 3 2017-05-05 21:00:00 123.833 123.934 123.825 123.916 4 2017-05-05 21:15:00 123.914 123.938 123.851 123.858 5 2017-05-05 21:30:00 123.859 123.864 123.781 123.781 6 2017-05-05 21:45:00 123.779 123.864 123.781 123.781 # ... with 1 more variables: Vol < dbl >

所以, 有 8000 根柱线开始日期为 10.01.2017 结束日期为 05.05.2017。 我们将价格的衍生物加入到 数据帧 pr — 中间价格, 典型价格 和 加权收盘价

evalq(pr %<>% mutate(., Med = ( High + Low )/ 2 , Typ = ( High + Low + Close )/ 3 , Wg = ( High + Low + 2 * Close )/ 4 , #CO = Close - Open , #HO = High - Open , #LO = Low - Open , dH = c(NA, diff( High )), dL = c(NA, diff( Low )) ), env)

1.2. 预测

我们将使用一组简化的预测器。数字滤波器 FATL, SATL, RFTL, RSTL 将扮演这个角色。它们在 V. Kravchuk 的 "跟随趋势和市场周期的新自适应方法" 一文中有详细描述, 其可在本文附件中找到 (参见 "技术分析新工具及其解释" 章节)。在这里我将列举它们。

FATL (快速自适应趋势线) ;

; SATL (慢速自适应趋势线) ;

; RFTL (引用快速趋势线) ;

; RSTL (引用慢速趋势线).



FATS 和 SALT 的变化率可使用 FILM (快速趋势线动量) 和 STLM (慢速趋势线动量) 指标进行监控。

我们需要的技术工具当中有两个振荡器 - 指数 RBCI 和 PCCI。RBCI (范围界限通道指数) 指数是通道带宽限定指数, 其值根据通道滤波器的均值计算得出。滤波器可以去除低频趋势和低频噪声。PCCI (完美商品通道指数) 指数是完美的商品通道指数。

计算数字滤波器 FATL, SATL, RFTL, RSTL 的函数如下:

#-----DigFiltr------------------------- DigFiltr <- function(X, type = 1 ){ # X - vector require(rowr) fatl <- c( + 0.4360409450 , + 0.3658689069 , + 0.2460452079 , + 0.1104506886 , - 0.0054034585 , - 0.0760367731 , - 0.0933058722 , - 0.0670110374 , - 0.0190795053 , + 0.0259609206 , + 0.0502044896 , + 0.0477818607 , + 0.0249252327 , - 0.0047706151 , - 0.0272432537 , - 0.0338917071 , - 0.0244141482 , - 0.0055774838 , + 0.0128149838 , + 0.0226522218 , + 0.0208778257 , + 0.0100299086 , - 0.0036771622 , - 0.0136744850 , - 0.0160483392 , - 0.0108597376 , - 0.0016060704 , + 0.0069480557 , + 0.0110573605 , + 0.0095711419 , + 0.0040444064 , - 0.0023824623 , - 0.0067093714 , - 0.0072003400 , - 0.0047717710 , 0.0005541115 , 0.0007860160 , 0.0130129076 , 0.0040364019 ) rftl <- c(- 0.0025097319 , + 0.0513007762 , + 0.1142800493 , + 0.1699342860 , + 0.2025269304 , + 0.2025269304 , + 0.1699342860 , + 0.1142800493 , + 0.0513007762 , - 0.0025097319 , - 0.0353166244 , - 0.0433375629 , - 0.0311244617 , - 0.0088618137 , + 0.0120580088 , + 0.0233183633 , + 0.0221931304 , + 0.0115769653 , - 0.0022157966 , - 0.0126536111 , - 0.0157416029 , - 0.0113395830 , - 0.0025905610 , + 0.0059521459 , + 0.0105212252 , + 0.0096970755 , + 0.0046585685 , - 0.0017079230 , - 0.0063513565 , - 0.0074539350 , - 0.0050439973 , - 0.0007459678 , + 0.0032271474 , + 0.0051357867 , + 0.0044454862 , + 0.0018784961 , - 0.0011065767 , - 0.0031162862 , - 0.0033443253 , - 0.0022163335 , + 0.0002573669 , + 0.0003650790 , + 0.0060440751 , + 0.0018747783 ) satl <- c(+ 0.0982862174 , + 0.0975682269 , + 0.0961401078 , + 0.0940230544 , + 0.0912437090 , + 0.0878391006 , + 0.0838544303 , + 0.0793406350 ,+ 0.0743569346 ,+ 0.0689666682 , + 0.0632381578 ,+ 0.0572428925 , + 0.0510534242 ,+ 0.0447468229 , + 0.0383959950 , + 0.0320735368 , + 0.0258537721 ,+ 0.0198005183 , + 0.0139807863 ,+ 0.0084512448 , + 0.0032639979 , - 0.0015350359 , - 0.0059060082 ,- 0.0098190256 , - 0.0132507215 , - 0.0161875265 , - 0.0186164872 , - 0.0205446727 , - 0.0219739146 ,- 0.0229204861 , - 0.0234080863 ,- 0.0234566315 , - 0.0231017777 , - 0.0223796900 , - 0.0213300463 ,- 0.0199924534 , - 0.0184126992 ,- 0.0166377699 , - 0.0147139428 , - 0.0126796776 , - 0.0105938331 ,- 0.0084736770 , - 0.0063841850 ,- 0.0043466731 , - 0.0023956944 , - 0.0005535180 , + 0.0011421469 ,+ 0.0026845693 , + 0.0040471369 ,+ 0.0052380201 , + 0.0062194591 , + 0.0070340085 , + 0.0076266453 ,+ 0.0080376628 , + 0.0083037666 ,+ 0.0083694798 , + 0.0082901022 , + 0.0080741359 , + 0.0077543820 ,+ 0.0073260526 , + 0.0068163569 ,+ 0.0062325477 , + 0.0056078229 , + 0.0049516078 , + 0.0161380976 ) rstl <- c(- 0.0074151919 ,- 0.0060698985 ,- 0.0044979052 ,- 0.0027054278 ,- 0.0007031702 ,+ 0.0014951741 , + 0.0038713513 ,+ 0.0064043271 ,+ 0.0090702334 ,+ 0.0118431116 ,+ 0.0146922652 ,+ 0.0175884606 , + 0.0204976517 ,+ 0.0233865835 ,+ 0.0262218588 ,+ 0.0289681736 ,+ 0.0315922931 ,+ 0.0340614696 , + 0.0363444061 ,+ 0.0384120882 ,+ 0.0402373884 ,+ 0.0417969735 ,+ 0.0430701377 ,+ 0.0440399188 , + 0.0446941124 ,+ 0.0450230100 ,+ 0.0450230100 ,+ 0.0446941124 ,+ 0.0440399188 ,+ 0.0430701377 , + 0.0417969735 ,+ 0.0402373884 ,+ 0.0384120882 ,+ 0.0363444061 ,+ 0.0340614696 ,+ 0.0315922931 , + 0.0289681736 ,+ 0.0262218588 ,+ 0.0233865835 ,+ 0.0204976517 ,+ 0.0175884606 ,+ 0.0146922652 , + 0.0118431116 ,+ 0.0090702334 ,+ 0.0064043271 ,+ 0.0038713513 ,+ 0.0014951741 ,- 0.0007031702 , - 0.0027054278 ,- 0.0044979052 ,- 0.0060698985 ,- 0.0074151919 ,- 0.0085278517 ,- 0.0094111161 , - 0.0100658241 ,- 0.0104994302 ,- 0.0107227904 ,- 0.0107450280 ,- 0.0105824763 ,- 0.0102517019 , - 0.0097708805 ,- 0.0091581551 ,- 0.0084345004 ,- 0.0076214397 ,- 0.0067401718 ,- 0.0058083144 , - 0.0048528295 ,- 0.0038816271 ,- 0.0029244713 ,- 0.0019911267 ,- 0.0010974211 ,- 0.0002535559 , + 0.0005231953 ,+ 0.0012297491 ,+ 0.0018539149 ,+ 0.0023994354 ,+ 0.0028490136 ,+ 0.0032221429 , + 0.0034936183 ,+ 0.0036818974 ,+ 0.0038037944 ,+ 0.0038338964 ,+ 0.0037975350 ,+ 0.0036986051 , + 0.0035521320 ,+ 0.0033559226 ,+ 0.0031224409 ,+ 0.0028550092 ,+ 0.0025688349 ,+ 0.0022682355 , + 0.0073925495 ) if (type == 1 ) {k = fatl} if (type == 2 ) {k = rftl} if (type == 3 ) {k = satl} if (type == 4 ) {k = rstl} n <- length(k) m <- length(X) k <- rev(k) f <- rowr::rollApply(data = X, fun = function(x) {sum(x * k)}, window = n, minimum = n, align = "right" ) while (length(f) < m) { f <- c(NA,f)} return (f) }

计算完毕后, 将它们添加到数据帧 pr

evalq(pr %<>% mutate(., fatl = DigFiltr( Close , 1 ), rftl = DigFiltr( Close , 2 ), satl = DigFiltr( Close , 3 ), rstl = DigFiltr( Close , 4 ) ), env)

添加振荡器 FTLM, STLM, RBCI, PCCI, 它们的第一个差值以及数字滤波器的第一个差值至数据帧 pr。

evalq(pr % < > % mutate(., ftlm = fatl - rftl, rbci = fatl - satl, stlm = satl - rstl, pcci = Close - fatl, v.fatl = c(NA, diff(fatl)), v.rftl = c(NA, diff(rftl)), v.satl = c(NA, diff(satl)), v.rstl = c(NA, diff(rstl)*10) ), env) evalq(pr % < > % mutate(., v.ftlm = c(NA, diff(ftlm)), v.stlm = c(NA, diff(stlm)), v.rbci = c(NA, diff(rbci)), v.pcci = c(NA, diff(pcci)) ), env)

1.3. 目标变量

ZigZag() 将用作生成目标变量的指标。

函数的计算需要接收时间序列和两个参数: 最小弯曲长度 (int 或 double) 和计算的价格类型 (收盘价, 中间价, 典型价, 加权(最高价, 最低价))。

#------ZZ----------------------------------- par <- c( 25 , 5 ) ZZ <- function(x, par) { # x - vector require(TTR) require(magrittr) ch = par[ 1 ] mode = par[ 2 ] if (ch > 1 ) ch <- ch/( 10 ^ (Dig - 1 )) switch (mode, xx <- x$ Close , xx <- x$Med, xx <- x$Typ, xx <- x$Wd, xx <- x %>% select( High , Low )) zz <- ZigZag(xx, change = ch, percent = F, retrace = F, lastExtreme = T) n <- 1 :length(zz) for (i in n) { if (is.na(zz[i])) zz[i] = zz[i - 1 ]} return (zz) }

计算 ZigZag, 第一个差值, 第一个差值的符号, 并将它们添加到数据框 pr:

evalq(pr % < > % cbind(., zigz = ZZ(., par = par)), env) evalq(pr % < > % cbind(., dz = diff(pr$zigz) %>% c(NA, .)), env) evalq(pr % < > % cbind(., sig = sign(pr$dz)), env)

1.4.初始数据集合

我们来总结一下我们应得的计算结果是什么数据。

我们收到来自终端的 OHLCV 向量, 并在 EURJPY 的 M15 时间帧柱线开始处的临时标记。这些数据已在 pr 数据帧里形成。变量 FATL, SATL, RFTL, RSTL, FTLM, STLM, RBCI, PCCI 和它们的第一个差值已被添加到此数据帧内。ZigZag 带有 25 点(4 位小数) 的最小杠杆, 其第一个差值和第一个差值 (-1,1) 的符号将被用作信号, 也被添加到数据帧中。

所有这些数据都不会加载到全局环境中, 而是加载到新的子环境 env 中, 所有计算将在其内执行。这样划分将允许在计算期间使用来自不同符号或时间帧的数据集合而没有名称冲突。

总数据帧 pr 的结构如下所示。可以轻松地从中提取以下计算所需的变量。

str(env$pr) 'data.frame': 8000 obs. of 30 variables: $ Data : POSIXct, format: " 2017 - 01 - 10 11 : 00 : 00 " ... $ Open : num 123 123 123 123 123 ... $ High : num 123 123 123 123 123 ... $ Low : num 123 123 123 123 123 ... $ Close : num 123 123 123 123 123 ... $ Vol : num 3830 3360 3220 3241 3071 ... $ Med : num 123 123 123 123 123 ... $ Typ : num 123 123 123 123 123 ... $ Wg : num 123 123 123 123 123 ... $ dH : num NA 0.031 - 0.068 - 0.119 0.113 ... $ dL : num NA 0.072 - 0.113 - 0.051 0.038 ... $ fatl : num NA NA NA NA NA NA NA NA NA NA ... $ rftl : num NA NA NA NA NA NA NA NA NA NA ... $ satl : num NA NA NA NA NA NA NA NA NA NA ... $ rstl : num NA NA NA NA NA NA NA NA NA NA ... $ ftlm : num NA NA NA NA NA NA NA NA NA NA ... $ rbci : num NA NA NA NA NA NA NA NA NA NA ... $ stlm : num NA NA NA NA NA NA NA NA NA NA ... $ pcci : num NA NA NA NA NA NA NA NA NA NA ... $ v.fatl: num NA NA NA NA NA NA NA NA NA NA ... $ v.rftl: num NA NA NA NA NA NA NA NA NA NA ... $ v.satl: num NA NA NA NA NA NA NA NA NA NA ... $ v.rstl: num NA NA NA NA NA NA NA NA NA NA ... $ v.ftlm: num NA NA NA NA NA NA NA NA NA NA ... $ v.stlm: num NA NA NA NA NA NA NA NA NA NA ... $ v.rbci: num NA NA NA NA NA NA NA NA NA NA ... $ v.pcci: num NA NA NA NA NA NA NA NA NA NA ... $ zigz : num 123 123 123 123 123 ... $ dz : num NA - 0.0162 - 0.0162 - 0.0162 - 0.0162 ... $ sig : num NA - 1 - 1 - 1 - 1 - 1 - 1 - 1 - 1 - 1 ...

从 dataSet 数据帧中选择先前计算的所有预测器。将目标变量 sig 转换为一个因子, 并向前移动一根柱线 (将来方向)。

evalq(dataSet <- pr %>% tbl_df() %>% dplyr::select(Data, ftlm, stlm, rbci, pcci, v.fatl, v.satl, v.rftl, v.rstl, v.ftlm, v.stlm, v.rbci, v.pcci, sig) %>% dplyr::filter(., sig != 0 ) %>% mutate(., Class = factor(sig, ordered = F) %>% dplyr::lead()) %>% dplyr::select(-sig), env)

可视化数据分析

使用 ggplot2 软件包绘制 OHLC 图表。取最后两天的数据, 并用柱线绘制报价图表。

evalq(pr %>% tail(., 200 ) %>% ggplot(aes(x = Data, y = Close )) + geom_candlestick(aes(open = Open , high = High , low = Low , close = Close )) + labs(title = "EURJPY Candlestick Chart", y = " Close Price", x = "") + theme_tq(), env)

图例.1. 报价图表

绘制 FATL, SATL, RFTL, RSTL 和 ZZ:图表

evalq(pr %>% tail(., 200 ) %>% ggplot(aes(x = Data, y = Close )) + geom_candlestick(aes(open = Open , high = High , low = Low , close = Close )) + geom_line(aes(Data, fatl), color = "steelblue", size = 1 ) + geom_line(aes(Data, rftl), color = "red", size = 1 ) + geom_line(aes(Data, satl), color = "gold", size = 1 ) + geom_line(aes(Data, rstl), color = "green", size = 1 ) + geom_line(aes(Data, zigz), color = "black", size = 1 ) + labs(title = "EURJPY Candlestick Chart", subtitle = "Combining Chart Geoms", y = " Close Price", x = "") + theme_tq(), env)

图例.2. FATL, SATL, RFTL, RSTL 和 ZZ

将振荡器划分为三组, 以便更方便的呈现。

require(dygraphs) evalq(dataSet %>% tail(., 200 ) %>% tk_tbl %>% select(Data, ftlm, stlm, rbci, pcci) %>% tk_xts() %>% dygraph(., main = "Oscilator base" ) %>% dyOptions(., fillGraph = TRUE, fillAlpha = 0.2 , drawGapEdgePoints = TRUE, colors = c( "green" , "violet" , "red" , "blue" ), digitsAfterDecimal = Dig) %>% dyLegend(show = "always" , hideOnMouseOut = TRUE), env)

图例.3. 基准振荡器

evalq(dataSet %>% tail(., 200 ) %>% tk_tbl %>% select(Data, v.fatl, v.satl, v.rftl, v.rstl) %>% tk_xts() %>% dygraph(., main = "Oscilator 2" ) %>% dyOptions(., fillGraph = TRUE, fillAlpha = 0.2 , drawGapEdgePoints = TRUE, colors = c( "green" , "violet" , "red" , "darkblue" ), digitsAfterDecimal = Dig) %>% dyLegend(show = "always" , hideOnMouseOut = TRUE), env)

图例.4. 第二组振荡器

第三组振荡器将在最后 100 根柱线绘制:

evalq(dataSet %>% tail(., 100 ) %>% tk_tbl %>% select(Data, v.ftlm, v.stlm, v.rbci, v.pcci) %>% tk_xts() %>% dygraph(., main = "Oscilator 3" ) %>% dyOptions(., fillGraph = TRUE, fillAlpha = 0.2 , drawGapEdgePoints = TRUE, colors = c( "green" , "violet" , "red" , "darkblue" ), digitsAfterDecimal = Dig) %>% dyLegend(show = "always" , hideOnMouseOut = TRUE), env)

图例.5. 第三组振荡器

2.探索性数据分析, EDA