поскольку он сам не смог нормально формализовать и привести примеры его способ отбора признаков основан на корреляции. чтобы определиться сколько классов формально выделить как их назвать уже дело субъективного вкуса. на основании которых относить sample ы к тому или иному классу
因此,请先检查一下。
检查什么?
这一点都不好笑了。
我总结一下桑尼奇的理论(因为他自己也没有把理论正规化并举例说明):
这完全是错误的。
1.我在上面写了我对 "预测能力 "的理解
2.意思不明确
3. 没有通常意义上的 traine。随机森林拟合。样本量=1500 条,树数=150。样本量是从拟合误差图中提取的。在这 170 个预测因子样本中,根据不同的标准对 预测因子进行筛选和预处理 。最终,在剩余的 20-30 个预测因子中,根据最大预测能力选出 5 到 10 个预测因子,并对模型进行拟合。利用所获得的模型预测下一个条形图。随着新柱状图的出现,模型建立的整个过程将重复进行。
最大拟合误差约为 20%,但这种情况很少见。通常约为 10%。
4.我在前面介绍了我的方法。
再来一次
但目标不是人字形,对吧?
完全错误
1.上面写的是他对 "预测能力 "的理解
2.含义不明确
3. 没有通常意义上的托盘。随机森林拟合。样本量 = 1500 条,树数 = 150。样本量是从拟合误差图中提取的。在这 170 个预测因子样本中,根据不同的标准对 预测因子进行筛选和预处理 。最终,在剩余的 20-30 个预测因子中,根据最大预测能力选出 5 到 10 个预测因子,并对模型进行拟合。利用所获得的模型预测下一个条形图。随着新柱状图的出现,整个模型建立过程将重复进行。
最大拟合误差约为 20%,但这种情况很少见。通常约为 10%。
4.我之前描述了我的方法。
通过预测能力统计,可以确信未来的结果也会如此:
1. 应具有足够高的 sd 值
2. 低 sd 值。
与往常一样,如果能找到 sd 值小于 10%的预测因子,那么预测误差的变化也会大致相同。
我的结论
1.我们应该采用(或开发)其中一种 "预测能力 "算法; 2.
2.找到预测能力值相差 1 倍的预测因子列表 3.
3.3. 运行一个窗口并获得统计数据:平均值和平均值偏差。如果幸运的话,你会找到这样一个列表。我找到了。
模型并不重要。在我的预测模型中,RF、ada、GBM、GLM 得出的结果差不多。SVM 稍差一些。nnet 则完全不行。
所有的成功都在于预测器及其预处理。你在这里胡说八道!
这样更有意义。聚类结果中的目标从何而来?
我有正常增量的标志。
目标是次要的。目标的问题在于预测因子:你可以将预测因子与特定目标匹配,也可以不匹配。
我有一个正常增量的标志。
目标是次要的。目标的问题在于预测器:你可以将预测器与特定目标相匹配,也可以不与之相匹配。
预测能力是信息相关性,而不是:
1.相关性是一个静态序列与另一个静态序列的 "相似性",总是存在某种值,不存在 "无关系 "值。相关性总是有某种值的,所以你可以很容易地利用相关性来发现教师和咖啡渣之间的关系。
2.Fiche selectin 是指在建立模型时使用 Fiche 的频率。如果我们选取与教师无关的预测因子,我们仍然可以得到 fiches 的排名。
与我对 "预测能力 "的理解类似的例子还有 caret::classDist(),它定义了每一类重心的马哈拉诺比斯 采样距离 。或者是 woeBinning。R 中有很多方法和软件包。还有更多基于信息论的方法。
我有一个正常增量的标志。
目标是次要的。目标的问题在于预测器:您可以将预测器与特定目标匹配,也可以不匹配。
增量的符号和 ZZ 的符号并不能保证盈利。5 个小增量很容易与一个强增量重叠,但方向相反。例如,10 个晚上盈利的条形图也会被 1 个白天亏损的条形图覆盖(误差仅为 10%)。
新数据会得到怎样的平衡线?我希望它不是水平的,上下波动很小?
在弗拉基米尔的文章中,误差也在 10-20%左右,但平衡线并不令人乐观。
我还是不明白。这不是相关性或使用频率的问题。在训练中,presc.sp.是如何估算出来的,或者是用什么估算出来的?
同样的向量代数,同样的特征映射,可以消除多重共线性问题。
- 即对基本相同的 "成分 "进行空间选择/投影 ....在多共线性特征空间中的位置为矢量(!)代数的应用提供了一个领域,为了避免以手工的方式来消除多共线性,最好是将其考虑在内(例如,通过将其还原为 3d 空间或任何你想要的空间,并使用投影进行操作,如果有必要,初始数据可以乘以这些估计值,就像因子载荷一样,尽管通常库本身会测量这种Mahalanobis 距离 并给出结果)。
总之,最终结果都是近似均值和 st.dev,并以此为基础做出交易决策。
- 自然界中没有其他建模方法,只有在(不同)n 维空间中解决常见问题(异方差、多共线性、残差自相关)的方法......
统计学是无法摆脱的......特质相关性问题的解决方案在这里以明确的形式出现......
p.s...
更新: 这个工具(MD)仍然用于聚类/分组/多维分类...在多维空间中选择离群值...有时与欧氏距离一起使用...... "当变量不相关时 -- 马哈罗诺比距离与通常的欧氏 距离相吻合"....在LDA 中...一般来说,tz 就是我 之前描述的那个....
我在这篇文章中无意将 PCA 等同于聚类,只是在我的记忆中,PCA 和 MD 都提供了在多维空间中去除异常值的可能性...但我更新的实质并没有改变:这些都是通过向量代数来解决空间问题,并考虑到了多重共线性问题(这样就不会扭曲/偏移统计估计值)。