交易中的机器学习：理论、模型、实践和算法交易

СанСаныч Фоменко 2018.02.10 12:55 #6541

交易员博士。

我也一直在思考这个问题。

如果回归模型预测了每一栏的价格收益，并且R2得分在前测和回测中都高于零，这已经是一个好的开始。问题是，结果虽然稳定，但却很小，价差不能被打败。

从分析上看，问题在于R2对模型的大误差惩罚较重，而忽略了小误差和错误的交易方向。如果你看一下收益的分布，大多数价格变动只有几个点。而这个模型，不是预测这种小运动的正确方向，而是学习预测分布的长尾，因为它将获得更高的R2。因此，该模型可以在某种程度上预测大的运动，但在小的运动中，它总是在方向上犯错，并失去了差价。

结论--外汇的标准回归估计值是不好的。有必要建立某种健身函数，以便考虑到交易的两个方向，以及价差和准确性。那么即使准确率略高于50%，也有机会获利。
准确度、夏普比率、恢复系数和其他分析交易图表的功能过于离散，带有标准反推的神经元将无法走出局部最小值，无法正常学习。

另一个结论是完全忽略神经元的弱信号。只对强势的进行交易。问题是，我们总是可以定义在回测中得到良好结果的阈值，但在前测中不会得到良好的结果。在这里，我们也需要思考一些问题。

尽管如此，将回归模型用于机器学习的想法似乎非常值得怀疑。而对于增量预测来说更是如此。对NS来说更是如此，从这个意义上说，NS是一个有一些层次和透镜的黑盒子。这些词有什么经济或统计意义？

毕竟，GARCH模型被用于增量不是没有道理的。而且它们是目前最常见的。通过将非平稳序列分解为具有非常有意义的经济和统计意义的组成部分来战胜非平稳性，这一基本思想非常有吸引力。

在GARCH中，该模型由以下步骤组成。

原始序列通过对数（降低离群值的影响）对相邻条形的比率进行去趋势处理。
因为通常我们不能完全摆脱非平稳性，那么
剩余趋势模型（ARIMA）。
ARCH模型的细微差别
对增量的分布进行建模。

所有有意义的和有意义的工作。

如果我们增加添加外部回归因子的可能性，我们就会得到相当丰富的工具，不幸的是，它的种类极其繁多，因此是劳动密集型。

Maxim Dmitrievsky 2018.02.10 13:09 #6542

桑桑尼茨-弗门科。

有什么问题呢？

https://www.quantstart.com/articles/ARIMA-GARCH-Trading-Strategy-on-the-SP500-Stock-Market-Index-Using-R

复制粘贴和粘贴

ARIMA+GARCH Trading Strategy on the S&P500 Stock Market Index Using R | QuantStart

www.quantstart.com

In this article I want to show you how to apply all of the knowledge gained in the previous time series analysis posts to a trading strategy on the S&P500 US stock market index. We will see that by combining the ARIMA and GARCH models we can significantly outperform a "Buy-and-Hold" approach over the long term. Strategy Overview The idea of the...

Maxim Dmitrievsky 2018.02.10 13:55 #6543

桑桑尼茨-弗门科。

原始序列通过相邻条形的比率的对数（降低排放的影响）来解读。

根据什么？

Yuriy Asaulenko 2018.02.10 14:10 #6544

桑桑尼茨-弗门科。

尽管如此，将回归模型用于机器学习的想法似乎非常值得怀疑。而这一点在增量预测中尤为明显。对于NS来说更是如此，它是一个有一些层次和透视的黑匣子的意义。这些词有什么经济或统计意义？

毕竟，GARCH模型被用于增量不是没有道理的。而且它们是目前最常见的。通过将非平稳序列分解为具有相当意义的经济和统计意义 的组成部分来战胜非平稳性的基本想法是非常吸引人的。

你错了，SanSanych。NS有点相当于模糊逻辑。可以学习。就个人而言，我不认为这有什么神秘之处。你可以使用其他类比。

嗯，还有非平稳性。任何过程，如果被分解成几块，都会变得不稳定，如果不稳定，也不会是随机的。

顺便说一下，从不同的长时间内的分布来看（有几个超过3个月），我没有注意到两者之间有任何明显的区别。

至于经济意义--嗯，我不知道。我假设市场对观察者来说是随机的。它是否真的是随机的，其实并不重要。这里的关键词是对观察者而言。

СанСаныч Фоменко 2018.02.10 14:13 #6545

马克西姆-德米特里耶夫斯基。

有什么问题呢？

https://www.quantstart.com/articles/ARIMA-GARCH-Trading-Strategy-on-the-SP500-Stock-Market-Index-Using-R

复制粘贴和复制。

你是一个有趣的人!事实证明，你什么都知道!

СанСаныч Фоменко 2018.02.10 14:13 #6546

马克西姆-德米特里耶夫斯基。

基于什么？

我有日志，这有什么区别呢？

Maxim Dmitrievsky 2018.02.10 14:14 #6547

桑桑尼茨-弗门科。

我有日志，这有什么区别呢？

因为在这种情况下，对数并不能摆脱离群值：用n-滞后计算增量可以摆脱离群值。

对数只是把图形的中心放在0上。

而要通过对数摆脱离群值，就必须引入对数刻度。

简单增量

增量的对数（自然数）

СанСаныч Фоменко 2018.02.10 14:35 #6548

马克西姆-德米特里耶夫斯基。

因为在这种情况下，对数不能避免离群值：用n-滞后计算增量可以避免离群值

对数只是将图形的中心放在0上。

而要通过对数摆脱离群值，就必须引入对数刻度。

简单增量

增量的对数（自然数）。

排放是一个棘手的问题。过大的排放量最好由一个更可接受的最大值来代替。

彻底摆脱排放是不可能的。但要尽量减少它们对分布的影响，不仅可以而且应该用对数来完成。

> summary(diff(eur))
     Index                       diff(eur)         
 Min.   :2016-01-04 00:00:00   Min.   :-0.0230100  
 1 st Qu.:2016-04-14 19:00:00   1 st Qu.:-0.0005300  
 Median :2016-07-27 12:00:00   Median : 0.0000100  
 Mean   :2016-07-27 12:01:14   Mean   :-0.0000036  
 3 rd Qu.:2016-11-08 06:00:00   3 rd Qu.: 0.0005200  
 Max.   :2017-02-17 23:00:00   Max.   : 0.0143400

> summary((diff(eur, log=T)))
     Index                     (diff(eur, log = T))
 Min.   :2016-01-04 00:00:00   Min.   :-0.0206443  
 1st Qu.:2016-04-14 19:00:00   1st Qu.:-0.0004810  
 Median :2016-07-27 12:00:00   Median : 0.0000090  
 Mean   :2016-07-27 12:01:14   Mean   :-0.0000034  
 3rd Qu.:2016-11-08 06:00:00   3rd Qu.: 0.0004755  
 Max.   :2017-02-17 23:00:00   Max.   : 0.0127862  
                               NA's   :1

如果我们以相邻的引号10和2为例进行假设

10/2 = 5

对数（10/2）= 0.69

СанСаныч Фоменко 2018.02.10 14:43 #6549

马克西姆-德米特里耶夫斯基。

因为在这种情况下，对数并不能避免离群值：用n-滞后 计算增量可以避免离群值。

n-滞后是TF的增加，TF越大，增量越大。

你的滞后50是H8，只是在你的TF=8小时每分钟开始的意义上更准确，不像普通图表。

Maxim Dmitrievsky 2018.02.10 14:44 #6550

桑桑尼茨-弗门科。

排放是一个棘手的问题。最好是用一个更可接受的最大值来完全取代太高的排放。

彻底摆脱排放是不可能的。但减少它们对分布的影响不仅是可能的，而且是必要的，它是通过对数来实现的。

如果我们以相邻的引号10和2为例进行假设

10/2 = 5

对数（10/2）= 0.69

好吧，很好，你找到了e 的幂，得到了原始增量的值

但你并没有摆脱离群值。

我在上面引用了2张图片

交易中的机器学习：理论、模型、实践和算法交易 - 页 655