交易中的机器学习:理论、模型、实践和算法交易 - 页 1237

 
Dmitry:

两年前,我在这里写过Maximka,NS是一个像核弹一样的玩具。如果其他任何模型都能提供至少令人满意的结果,就不建议使用NS--他们发现了不存在的东西,而你对此无能为力。

在树边是件好事,但最好是用脚手架。

我打算通过R来实验xgboost,我需要的一切似乎都在那里。而且它似乎非常快,以最佳方式使用内存。
它能否处理100,000个样本,例如100个预测因子?
 
elibrarius
我计划通过R实验xgboost,我认为它有我需要的一切。而且它似乎非常快,以最佳方式使用内存。
它能否处理100,000个样本,例如100个预测因子?

)我不知道--那是为了阿法,我猜。

我一直在玩简单的模型--我一直在玩二进制。

 
elibrarius
我打算通过R来实验xgboost,我想我需要的一切都在那里。而且它似乎非常快,以最佳方式使用内存。
它能处理100,000个样本,例如100个预测因子吗?

真快

一旦我学会了如何将mql中的矩阵保存为普通文件,我将在我的数据上进行测试(这很麻烦))。

我在mqlp和logs之间的质量没有区别......几乎没有任何东西和普通模型的区别,但我有兴趣自己尝试boisting,也许它真的好40倍......但事实上它可能更好一点。

关于上述书--当我看到文中有太多不必要的词和插话时,我立即意识到作者是个疯子,并关闭它))

 
马克西姆-德米特里耶夫斯基

真快

一旦我学会了如何将mql中的矩阵保存为普通文件,我将在我的数据上进行测试(这很麻烦))。

我在mqlp和logs之间的质量没有区别......几乎没有任何东西和正常模型的区别,但我想自己尝试boisting,也许它真的是40倍的好......但事实上它可能是更好一点。

关于这本书--当我看到文中充斥着太多的赘语和插话时,我立即意识到作者是个疯子,于是关闭它 ))

NS因为BackProp在有很多噪音的时候不能找到重要的数据(而我们所有的远端条形图几乎都是有噪音的,它们是否来自上面或下面基本上是重要的)。

对于森林,我还没有理解它们是如何处理噪音的(除了它是许多不同树木的投票)。


单一的树木本身能抑制噪音吗?(我记得一年前读到的内容是,它可以完全将样本和噪声一起记住)

 
elibrarius:
NS无法找到有大量噪音的重要数据(而所有的长条几乎都是有噪音的,也就是说,如果它们来自上方或下方并不重要)。

对于森林,我还没有理解它们是如何处理噪音的(除了它是许多不同树木的投票)。


单一的树木本身能抑制噪音吗?(从我一年前读到的内容来看,我记得它可以完全记住样本和噪声)。

同样的,神经网络合奏也是建立在装袋的基础上,你会得到和森林一样的东西。

你必须明白,森林只是一个装袋的特例,而不是树木,你可以把任何你想要的东西塞进去,任何薄弱的模型。单一的树是一个基本的模型,不能压制任何东西

森林 "某种程度上 "不会因为随机抽样而重新训练,但事实上它的重新训练非常容易,而且不费力气。

两者都需要通过衰减(梯度步骤)、早期停止、或通过森林的r参数、或预处理来进行规范化,但所有这些改进通常都在5-10%以内。在糟糕的数据上,两种模型的表现同样糟糕

关于提升(极端的,不是GBM),他们说这不是重新训练,你应该看一下,我不能说什么。

https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/

 
Vizard_

我尊敬的无辜者。我不怕这个词,主人,谢谢你给我的那些快乐的时刻。
生命闪耀着新的色彩(蓝色、红色、灰色、绿色))))
请你回答几个问题。你为什么如此热衷于把沃龙佐夫称为沃龙诺夫?
而你为什么要告诉我们没有MO的市场情况,你为什么要给我们一些狗屁的目标定位。
而最主要的是--趋势-平坦在哪里?)

我写了沃龙佐夫和我对你的嘲笑的绝望,但我的帖子被删除了,不要像语法纳粹一样,我的目标不是灰色(平坦)和颜色(趋势)不同,准确率为90%,蓝色和红色是为了清晰,我不使用方向,我把绿色指标作为一个绝对值

 
Maxim Dmitrievsky:

一旦我学会了如何将mql中的矩阵以正常形式保存到文件中,我将在我的数据上进行测试(这很麻烦))。

创建一个结构数组,在每个结构中写入一个矩阵,并使用FileWriteArray() 一次性重置。

Документация по MQL5: Файловые операции / FileWriteArray
Документация по MQL5: Файловые операции / FileWriteArray
  • www.mql5.com
//|                                          Demo_FileWriteArray.mq5 | //|                        Copyright 2013, MetaQuotes Software Corp. | //|                                              https://www.mql5.com | //| Структура для хранения данных о ценах                            |...
 
elibrarius
不大,他在小数字上的解释是10:8:2与6:4。但我们有大量的数据。


多少个样本可以被认为是BP的代表?我通常不使用低于10000的,小班应该至少有1000的。

对于树木来说,有一个奇妙的误差图,它取决于树木的数量。

所以对于哨兵来说,超过100棵树的数量并不能减少误差。

该图看起来像这样。



你可以采取不同的文件大小,得到你问题的答案。

但这还不是全部。

对于rf,还有一个参数 "样本量"。有了它,你可以拉平阶级的差异。总之,这个参数对误差大小的影响非常大。

比如说。

对于样本量=1000,500的文件大小为7500行,看起来很压抑。但它乍一看,也不一定是压抑的。假设 "0 "类是多头,"1 "类是 "非市场"。市场外 "的误差超过0.5,这意味着购买是从头开始的。如果我们换个地方,就意味着 "脱离市场 "是免费的,但 "长 "的误差非常小。



而同样的文件,样本量=1000,1000看起来非常体面。

 
伊戈尔-马卡努

创建一个结构数组,必要时向每个结构写一个矩阵,并使用FileWriteArray()一次性重置。

我事先不知道列的数量......而且里面有动态数 组的结构数组不是写在文件里吗?)这有点乱......。

我只需要保存一个二维数组,其中的列数事先是未知的

 
Maxim Dmitrievsky:

同样的,神经网络合奏也是建立在装袋的基础上,你会得到和森林一样的东西。

你必须明白,森林只是双陆棋的一个特例,你可以用任何东西代替树木,任何弱的模型。单一的树是一个基本的模型,不能压制任何东西

森林 "某种程度上 "不会因为随机抽样而重新训练,但事实上它的重新训练非常容易,而且不费力气。

两者都需要通过衰减(梯度步骤)、早期停止、或通过森林的r参数、或预处理来进行规范化,但所有这些改进通常都在5-10%以内。在糟糕的数据上,两种模型的表现同样糟糕

关于提升(极端的,不是GBM),他们说这不是重新训练,你应该看一下,我不能说什么。

https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/

一切都差不多:RF、XGboost、SVM、GLM、Nnet。

在一些网站上,一种模式比另一种好,在另一些网站上则更差--所有单位都是百分比。

给人的印象是,模型误差实际上是预测者-目标变量对的误差。有一定的限度,超过这个限度,你不能靠任何技巧,但可以很容易地破坏它,你可能会错过一个有希望的一对。