交易中的机器学习：理论、模型、实践和算法交易

Forester 2018.12.26 09:12 #12361

Dmitry:

两年前，我在这里写过Maximka，NS是一个像核弹一样的玩具。如果其他任何模型都能提供至少令人满意的结果，就不建议使用NS--他们发现了不存在的东西，而你对此无能为力。

在树边是件好事，但最好是用脚手架。

我打算通过R来实验xgboost，我需要的一切似乎都在那里。而且它似乎非常快，以最佳方式使用内存。
它能否处理100,000个样本，例如100个预测因子？

Дмитрий 2018.12.26 09:15 #12362

elibrarius。
我计划通过R实验xgboost，我认为它有我需要的一切。而且它似乎非常快，以最佳方式使用内存。
它能否处理100,000个样本，例如100个预测因子？

)我不知道--那是为了阿法，我猜。

我一直在玩简单的模型--我一直在玩二进制。

Maxim Dmitrievsky 2018.12.26 12:16 #12363

elibrarius。
我打算通过R来实验xgboost，我想我需要的一切都在那里。而且它似乎非常快，以最佳方式使用内存。
它能处理100,000个样本，例如100个预测因子吗？

真快

一旦我学会了如何将mql中的矩阵保存为普通文件，我将在我的数据上进行测试（这很麻烦））。

我在mqlp和logs之间的质量没有区别......几乎没有任何东西和普通模型的区别，但我有兴趣自己尝试boisting，也许它真的好40倍......但事实上它可能更好一点。

关于上述书--当我看到文中有太多不必要的词和插话时，我立即意识到作者是个疯子，并关闭它))

Forester 2018.12.26 12:41 #12364

马克西姆-德米特里耶夫斯基。

真快

一旦我学会了如何将mql中的矩阵保存为普通文件，我将在我的数据上进行测试（这很麻烦））。

我在mqlp和logs之间的质量没有区别......几乎没有任何东西和正常模型的区别，但我想自己尝试boisting，也许它真的是40倍的好......但事实上它可能是更好一点。

关于这本书--当我看到文中充斥着太多的赘语和插话时，我立即意识到作者是个疯子，于是关闭它 ))

NS因为BackProp在有很多噪音的时候不能找到重要的数据（而我们所有的远端条形图几乎都是有噪音的，它们是否来自上面或下面基本上是重要的）。

对于森林，我还没有理解它们是如何处理噪音的（除了它是许多不同树木的投票）。

单一的树木本身能抑制噪音吗？(我记得一年前读到的内容是，它可以完全将样本和噪声一起记住)

Maxim Dmitrievsky 2018.12.26 12:46 #12365

elibrarius:
NS无法找到有大量噪音的重要数据（而所有的长条几乎都是有噪音的，也就是说，如果它们来自上方或下方并不重要）。

对于森林，我还没有理解它们是如何处理噪音的（除了它是许多不同树木的投票）。

单一的树木本身能抑制噪音吗？(从我一年前读到的内容来看，我记得它可以完全记住样本和噪声）。

同样的，神经网络合奏也是建立在装袋的基础上，你会得到和森林一样的东西。

你必须明白，森林只是一个装袋的特例，而不是树木，你可以把任何你想要的东西塞进去，任何薄弱的模型。单一的树是一个基本的模型，不能压制任何东西

森林 "某种程度上 "不会因为随机抽样而重新训练，但事实上它的重新训练非常容易，而且不费力气。

两者都需要通过衰减（梯度步骤）、早期停止、或通过森林的r参数、或预处理来进行规范化，但所有这些改进通常都在5-10%以内。在糟糕的数据上，两种模型的表现同样糟糕

关于提升（极端的，不是GBM），他们说这不是重新训练，你应该看一下，我不能说什么。

https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/

Кеша Рутов 2018.12.26 12:52 #12366

Vizard_。

我尊敬的无辜者。我不怕这个词，主人，谢谢你给我的那些快乐的时刻。
生命闪耀着新的色彩（蓝色、红色、灰色、绿色))))
请你回答几个问题。你为什么如此热衷于把沃龙佐夫称为沃龙诺夫？
而你为什么要告诉我们没有MO的市场情况，你为什么要给我们一些狗屁的目标定位。
而最主要的是--趋势-平坦在哪里？）

我写了沃龙佐夫和我对你的嘲笑的绝望，但我的帖子被删除了，不要像语法纳粹一样，我的目标不是灰色（平坦）和颜色（趋势）不同，准确率为90%，蓝色和红色是为了清晰，我不使用方向，我把绿色指标作为一个绝对值。

Igor Makanu 2018.12.26 13:07 #12367

Maxim Dmitrievsky:

一旦我学会了如何将mql中的矩阵以正常形式保存到文件中，我将在我的数据上进行测试（这很麻烦））。

创建一个结构数组，在每个结构中写入一个矩阵，并使用FileWriteArray() 一次性重置。

Документация по MQL5: Файловые операции / FileWriteArray

www.mql5.com

СанСаныч Фоменко 2018.12.26 13:11 #12368

elibrarius。
不大，他在小数字上的解释是10：8：2与6：4。但我们有大量的数据。

多少个样本可以被认为是BP的代表？我通常不使用低于10000的，小班应该至少有1000的。

对于树木来说，有一个奇妙的误差图，它取决于树木的数量。

所以对于哨兵来说，超过100棵树的数量并不能减少误差。

该图看起来像这样。

你可以采取不同的文件大小，得到你问题的答案。

但这还不是全部。

对于rf，还有一个参数 "样本量"。有了它，你可以拉平阶级的差异。总之，这个参数对误差大小的影响非常大。

比如说。

对于样本量=1000，500的文件大小为7500行，看起来很压抑。但它乍一看，也不一定是压抑的。假设 "0 "类是多头，"1 "类是 "非市场"。市场外 "的误差超过0.5，这意味着购买是从头开始的。如果我们换个地方，就意味着 "脱离市场 "是免费的，但 "长 "的误差非常小。

而同样的文件，样本量=1000，1000看起来非常体面。

Maxim Dmitrievsky 2018.12.26 13:12 #12369

伊戈尔-马卡努。

创建一个结构数组，必要时向每个结构写一个矩阵，并使用FileWriteArray()一次性重置。

我事先不知道列的数量......而且里面有动态数组的结构数组不是写在文件里吗？)这有点乱......。

我只需要保存一个二维数组，其中的列数事先是未知的

СанСаныч Фоменко 2018.12.26 13:22 #12370

Maxim Dmitrievsky:

同样的，神经网络合奏也是建立在装袋的基础上，你会得到和森林一样的东西。

你必须明白，森林只是双陆棋的一个特例，你可以用任何东西代替树木，任何弱的模型。单一的树是一个基本的模型，不能压制任何东西

森林 "某种程度上 "不会因为随机抽样而重新训练，但事实上它的重新训练非常容易，而且不费力气。

两者都需要通过衰减（梯度步骤）、早期停止、或通过森林的r参数、或预处理来进行规范化，但所有这些改进通常都在5-10%以内。在糟糕的数据上，两种模型的表现同样糟糕

关于提升（极端的，不是GBM），他们说这不是重新训练，你应该看一下，我不能说什么。

https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/

一切都差不多：RF、XGboost、SVM、GLM、Nnet。

在一些网站上，一种模式比另一种好，在另一些网站上则更差--所有单位都是百分比。

给人的印象是，模型误差实际上是预测者-目标变量对的误差。有一定的限度，超过这个限度，你不能靠任何技巧，但可以很容易地破坏它，你可能会错过一个有希望的一对。

交易中的机器学习：理论、模型、实践和算法交易 - 页 1237