交易中的机器学习:理论、模型、实践和算法交易 - 页 596

 
阿列克谢-特伦特夫
尝试交叉验证(K-折)。
它将如何帮助提高新鲜数据的影响力?
 
elibrarius
它是如何帮助提高新鲜数据的影响力的?
想一想,你通过输入单独的数据块来训练模型,这将使模型与时间序列序列有一定的独立性,这导致新数据的评估没有 "偏见"。
 
阿列克谢-特伦特夫
想一想:你通过提供单独的数据块来教授模型,这将使模型在一定程度上独立于时间序列,而且新的数据将被评估,没有 "偏见"。

"序列无关的时间序列 "是通过搅拌来保证的。没有它,这个模型根本就没有意义。

而问题在于,在混合数据时,如何提高最新鲜数据的重要性,使模型更快地捕捉到新的市场趋势。

 
elibrarius

"序列无关的时间序列 "是通过搅拌来保证的。没有它,这个模型根本就没有意义。

而问题是如何通过混合来提高最新鲜数据的重要性,从而使模型更快地捕捉到新的市场趋势。

预训练是在旧数据上进行的。训练的最后阶段是在新数据上进行的。
 

即分两步进行培训?
在大量的数据上进行训练+在新鲜的数据上重新训练得到的模型。
可以尝试一下。


我有一个想法,只要在总的训练数据集上增加2-3倍的新鲜数据。即使洗牌,其意义也会增加。

 
elibrarius

我在想,如果所有的东西都被洗牌了,我们怎样才能使新鲜的数据对训练产生更强的影响?

有一个诀窍,就是把最近的训练例子重复几次。
而在gbm包中,你可以为每个训练实例设置一些重要性系数,但它不是一个神经元,我只是举了一个例子。


elibrarius

"与序列无关的时间序列 "是由洗牌提供的。没有它,这个模型根本就没有意义。

大多数模型根本就没有序列依赖这种东西。以神经元为例,每个训练实例都会计算出一个误差,然后所有误差的总和会影响权重的变化。当和数的顺序改变时,和数不会改变。

但模型通常有batch.size参数或类似的参数,影响训练数据的百分比,用于训练。如果你只取很小比例的训练数据,并关闭混合,那么模型每次都会取相同的小集,一切都会变得很糟糕。我不知道darch的具体情况,但关闭混合不应该导致完全失败,你的其他参数有问题。


阿列克谢-特伦特夫
尝试交叉验证(K-fold)。

我完全同意。无论该模型的作者如何大声宣称其对过度喂养的保护,只有k-fold才能显示它是否真实。

 
现在是你总结和得出结论的时候了。
并展示实践。
 
亚历山大-伊万诺夫
现在是时候让你围观并做出结论了。
并展示实践。

即将推出..."几乎完成。"

这是我一生中做过的最艰难的事情。

 
马克西姆-德米特里耶夫斯基

即将推出..."几乎完成。"

这是我一生中做过的最艰难的事情。

呃,擦笔试试演示😀👍👍👍👍,像一个新鲜美味的奶奶饼😂😀。
 
当然,但在这里,每一页的分支,你需要从SanSanych的口号开始--"垃圾进-垃圾出"。而你所有的认知和创造才能,首先应以减少输入端的垃圾为目标,然后才尝试将计算机硬件加载到一个极端的程度。
原因: