Network models have become a popular way to abstract complex systems and gain insights into relational patterns among observed variables in almost any area of science. The majority of these applications focuses on analyzing the structure of the network. However, if the network is not directly observed (Alice and Bob are friends) but estimated...
新的jPrediction 11 版本已经发布
修正了一个小故障(CSV中的逗号没有被数字的句号取代)。改进算法,为模型选择有意义的预测因子。
你可以从我的网站上下载(在我的个人资料中注明),主页上的第一篇文章。
我还想写一下预测器的选择...
除了主要的实验之外,我还在对一个交易所的资产做一些分析。
那里有正常的卷,我也把它加到了功能中。
然后,我将通常的线性模型(OLS回归)[Target ~ Predictor]分别应用于每个预测器的不同输出(其中有11个)。
计算出的f-stat.模型。我得到了一张这样的照片。
这里有一个惊喜--所有与数量相关的预测因子块都被证明是不必要的。而且我们也不需要基于价格增量的自相关的预测器。
同样明显的是,产出变量的滞后期越大,显著性就越差。
然后我通过F临界值(在0.01水平)消除了所有的噪音。
结果是这样的。
这还没有考虑到可能的相互作用,不幸的是...
但对于某些输入,线性模型的意义并不坏。
我尽量不对预测因素的重要性进行逐一分析。在这里的主题中,有一个很好的例子。
有两个预测器。哪一个 在视觉上非常容易工作,同时分析两个,你可以看到第二个目标形成清晰的集群,可以被模型发现。如果你一个接一个地使用这些预测器,那么每个预测器在预测中都是无用的。
这张图纯粹是假设。但关于外汇,我可以从一些迹象判断,好的预测因素在那里以某种方式形成类似的集群,只是我需要30个预测因素,而不是2个。...
以前,在第10版中,jPrediction使用更多的输入并不能提高概括能力,我不得不重新训练,但现在,随着模型中预测因子的增加,模型的概括能力普遍提高,而且这种模型的工作持续时间更长,效果更好。
谢谢你的反馈!
在我拥有的样本上测试第11版,我得到了类似的结论。有必要用独立的研究(再现实验)来证实这一假设性的结论。毕竟,每个人都有不同的目标。因此,对于某些问题,分类器可能会给出相反的结果,这是一个潜在的风险。此外,新版本中选择重要预测因子的时间大大增加,并非所有人都对此感到高兴。
至于模型训练时间,你有可能在不恶化质量(通用性)的情况下减少它--这已经是一个技术问题。最主要的是及时得到建设性的反馈,以了解:在这个方向上是否值得改进jPrediction,或者方向是错误的,应该回退?否则,我们将不得不在徒劳的功能上浪费时间和精力。
...
在我使用的数据中,我得到92.3%(os)。
...
我真诚地祝贺你(如果你没有说谎的话)。
并对它在某处存在而不在公共领域感到遗憾。
讨论公共领域的东西是没有意义的,因为不可能证明或反驳你对jPrediction的 "主张"。
我刚刚看到一篇文章 ,我认为这个话题对NS爱好者来说特别有趣。
我发现有趣的是文章的结尾,它比较了样本内 预测误差和样本外 预测误差:它通过这些误差的相关性来实现。在我的术语中,这意味着如果相关性很高(在文章中为0.8),那么该模型就没有被过度训练。
我尽量不对预测因素的重要性进行逐一分析。在这里的主题中,有一个很好的例子。
有两个预测器。哪一个 在视觉上非常容易工作,同时分析两个,你可以看到第二个目标形成清晰的集群,可以被模型发现。如果你一个接一个地使用这些预测器,那么每一个预测器在预测中都将是无用的。
这张图纯粹是假设。但关于外汇,我可以从一些迹象判断,好的预测者在那里以某种方式形成类似的集群,只是我需要的不是2个,而是30个预测者。一般来说,这都是事实。在相互作用上有额外的信息性,超过了边际投入的信息之和。
决策树、乞讨 和提升模型的相互作用很容易。也就是说,用户不需要做任何额外的努力。线性模型有很多问题。OLS回归考虑到了预测因素的出现顺序...贪婪地交替添加预测因子在原则上是可行的,但贪婪会使模型出现片面性。这同样适用于森林和树木。
但我对包括几十个预测器的做法持谨慎态度。你能想象自己与30个变量的互动吗?对于一棵树来说,这将是一个至少30的深度。你需要大量的数据来模拟,而不需要进行疯狂的再训练...
在实践中,3-5的互动深度已经足够了。
一般来说,这都是事实。在相互作用上,有额外的信息性,超过了边际投入的信息之和。
决策树、乞讨和提升模型的互动很容易。也就是说,在用户方面没有任何额外的努力。线性模型有很多问题。OLS回归考虑到了预测因素的出现顺序...贪婪地交替添加预测因子在原则上是可行的,但贪婪会使模型出现片面性。这同样适用于森林和树木。
但我对包括几十个预测器的做法持谨慎态度。你能想象自己与30个变量的互动吗?对于一棵树来说,它的深度至少是30。你需要大量的数据来模拟,而不需要进行疯狂的再训练...
在实践中,3-5的互动深度已经足够了。
对我来说,预测器的交互作用是一个极其可疑的东西。有很多问题,.....
而如果在OLS中也存在交互作用,那简直是不可想象的。如果你采取并在一张纸上仔细写出所有可以应用OLS的条件。然后将写在纸上的一切与金融时代 的现实进行比较。
PS。
如果你阅读几乎所有关于数据挖掘的书籍,必然会描述去除相关预测因素的程序。
如果你阅读几乎所有关于数据挖掘的书籍,必然会描述去除相关预测因素的程序。