In this post, I’ll look at two other methods: stability selection and recursive feature elimination (RFE), which can both considered wrapper methods. They both build on top of other (model based) selection methods such as regression or SVM, building models on different subsets of data and extracting the ranking from the aggregates. As a wrap-up...
ordEval вычисляет результирующие вероятностные факторы, соответствующие эффекту увеличение/уменьшение значимости атрибута для класса.
Алгоритм оценивает строго зависимые упорядоченные атрибуты, в которых значения отдельных атрибутов зависят от других атрибутов в разной манере.
在第二个阶段,函数
attrEval(formula, data, estimator, costMatrix = NULL, ...)
estimator Имя метода оценки. Ниже 37 имен.
[1] "ReliefFequalK"" ReliefFexpRank""ReliefFbestK""Relief"
[5] "InfGain""GainRatio""MDL""Gini"
[9] "MyopicReliefF""Accuracy""ReliefFmerit""ReliefFdistance"
[13] "ReliefFsqrDistance""DKM""ReliefFexpC""ReliefFavgC"
[17] "ReliefFpe""ReliefFpa""ReliefFsmp""GainRatioCost"
[21] "DKMcost""ReliefKukar""MDLsmp""ImpurityEuclid"
[25] "ImpurityHellinger""UniformDKM""UniformGini""UniformInf"
[29] "UniformAccuracy""EqualDKM""EqualGini""EqualInf"
[33] "EqualHellinger""DistHellinger""DistAUC""DistAngle"
[37] "DistEuclid"
Дополнительный параметр costMatrix может включить неоднородную матрицу стоимости для классификаций, чувствительных к стоимости мер
(ReliefFexpC, ReliefFavgC, ReliefFpe, ReliefFpa, ReliefFsmp, GainRatioCost, DKMcost, ReliefKukar и MDLsmp).
对原话进行测试是没有意义的,因为对眼睛来说,这个系列不是静止的,这是显而易见的。
有趣的是(对我来说不是--我总是用它)是时间序列log(p/p-1)的图表。
那里面有什么?当然,你也需要在纵轴上有一个刻度。
为了节省空间,我没有用比例尺把两个图装在一个框架里,但Y坐标原本是不同的。
结果与上次完全不同,这里是最有趣的图表,其余的都在档案中,所以我没有必要在这里贴上10张图片。但熵图一点都不有趣。
Atacha脚本,在R-Studio中,你可以在所有情节的历史中来回滚动。
哦,代码中又有错别字,重新附上.txt文件
讨论了主要内容,你看到了没有老师的算法的缺点。
在这里,它与老师在一起。
包装spls。
谢谢,从cran的描述中我甚至猜不到(稀疏局部最小二乘法(SPLS)回归和分类)。
为了节省空间,我没有用比例尺把两个图形装在一个框架里,但它们的Y坐标原本是不同的。
结果与上次大不相同,这里是最有趣的图表,其余的都在档案中,以便不在这里贴10张图片。但熵图一点都不有趣。
Atacha脚本,在R-Studio中,你可以在所有情节的历史中来回滚动。
哦,代码中又有错别字,重新附上了.txt文件。
伟大的照片!
你可以从拱门测试中看出,有的地块上有阿里马模型在起作用。但总有一个问题:我们在历史上都很聪明,我们在通过历史后才知道可以使用阿里马!这就是我们的问题。我们所有的理论都是如此:强烈的后知后觉。
为了跟进此事--https://www.mql5.com/ru/forum/86386/page643#comment_6472393
筛选预测器的函数random.forest.importance()在一些测试中显示了相当不错的结果。不方便的是,在它看来,所有的预测因素至少都有一定的重要性......但是,如果我们计算平均重要性,只取那些高于平均重要性的预测因子,我们会得到非常好的结果。
重要性是什么?吉尼值或互换值(MDA)
P.s. 还有其他方法,你可以用来比较http://blog.datadive.net/selecting-good-features-part-iv-stability-selection-rfe-and-everything-side-by-side/
我发现了另一个有趣的包,用于筛选出预测因素。它被称为FSelector。它提供了大约十几种筛除预测因子的方法,包括熵值。
我从这里取了一个带有预测器和目标的文件--https://www.mql5.com/ru/forum/86386/page6#comment_2534058
每种方法对预测器的评价我都在最后的图表中显示。
蓝色是好的,红色是坏的(对于corrplot,结果被缩放为[-1:1],对于准确的估计,见调用cfs(targetFormula, trainTable), chi.squared(targetFormula, trainTable)等的结果。)
你可以看到,X3、X4、X5、X19、X20几乎是用所有方法评估的,你可以从它们开始,然后尝试增加/删除更多。
然而,在Rat_DF2上使用这5个预测因子时, rattle中的模型没有通过测试,奇迹再次没有发生。也就是说,即使有剩余的预测因子,你也必须调整模型参数,做交叉验证,自己添加/删除预测因子。
FSelector来自WEKA,这意味着它使用Java。它消耗了大量的内存。最好使用FSelectorRcpp。
祝好运
这里有更多的entropy(price)和archTest(log(p/p-1))同时出现。对眼睛来说,它们似乎并不相关,我没有看到任何信号。有眼光的人可能会注意到一些东西。
是哪一种进口?吉尼值或互换值(MDA)
有2种类型可供选择 -
1=准确性的平均下降(这可能是mda,它与第一个字母相匹配)。
2=节点杂质的平均减少量
有2种类型可供选择 -
1=准确性的平均下降(这可能是mda的意思,与第一个字母相匹配)。
2=节点杂质的平均减少量
是的,就是他,谢谢,第二个MDI。
这里有更多的entropy(price)和archTest(log(p/p-1))同时出现。对眼睛来说,它们似乎并不相关,我没有看到任何信号。对指标有独到见解的人--可能会注意到一些东西。
一个常规的波动率指标变成了 )
但拱门测试并没有显示任何东西
我看到,人们对评估预测因素的重要性有着不可否认的兴趣。
最多样化的系统在CORElearn软件包中(曾一度被弗拉基米尔-佩雷文科 强烈推荐)
它有几个评估功能。
在第一个阶段,它是一个函数。
在第二个阶段,函数
正如你所看到的,在确定预测因素的重要性方面有很多练习的空间。