How can one use nested cross validation for model selection? From what I read online, nested CV works as follows: There is the inner CV loop, where we may conduct a grid search (e.g. running K-fold for every available model, e.g. combination of hyperparameters/features) There is the outer CV loop, where we measure the performance of the model...
-------------------------------- повторилась n раз
------------------------------------------------------------- на полученных данных сформирован комитет
------------------------------------------------------------------------------------------------------------------------ комитет валидирован на еще одной выборке из будущего
1)如果你看一下randomforest算法的作者的第一篇出版物,作者非常严肃地宣称rf根本不容易出现过度训练,并举了很多例子。randomforest软件包本身就是为了排除哪怕是最轻微的过度训练的嫌疑而建立的。
同时,训练最多的算法是Randomforest。我本人也曾烧伤过自己。
2)绝大多数的机器学习出版物都没有在任何第二文件的类似物上测试。原因是微不足道的。这些算法并没有应用于时间序列。而事实证明,对一号文件的随机分割是相当充分的。而这确实是手写文本识别的情况,比如说。
1)Forrest和GBM以及其他任何方法都要重新训练。在折叠的数据上无法察觉,而在高噪声的数据上非常明显。
2)有,有出版物讨论了在不同时间范围内的额外样本上引入嵌套交叉验证。
2)有,有出版物讨论了在不同时间范围内的额外样本上引入嵌套交叉验证。
如果你不介意的话,请链接
讨论之一:http://stats.stackexchange.com/questions/65128/nested-cross-validation-for-model-selection
Ibid:/go?link=https://stats.stackexchange.com/questions/103828/use-of-nested-cross-validation
在讨论中,有一些文章的链接。
一篇有趣的文章:http://www.andrewng.org/portfolio/preventing-overfitting-of-cross-validation-data/
从标题可以看出,它是关于过度训练的,这发生在交叉验证的验证犯上的模型评估阶段。因此,除了交叉验证,你还需要一个样本来评估一个已经选定的模型。
如果krakto(已经写过了)。
通过交叉验证选定的模型必须由另一个延时样本来重新验证。
而嵌套交叉验证意味着建立n个k-fold交叉验证(在不同的数据上),然后在n个延迟的样本上进行验证(每次在不同的数据上)。
甚至这还不是全部。如果顶层的递延样本被重新选择,例如基于这些递延样本数据的模型委员会,那么委员会的验证必须在多一个递延样本上进行。
理想情况下,这个过程。
k-fold кроссвалидация
-------------------------------- повторилась n раз
------------------------------------------------------------- на полученных данных сформирован комитет
------------------------------------------------------------------------------------------------------------------------ комитет валидирован на еще одной выборке из будущего
需要重复的不是一次而是多次,以便在最顶层将结果倒置。这就把偏差降低到了一个可行的最低限度。
但这样做,例如FS的预期价值可能会减少许多倍......疼痛。
在不同的时间范围内对额外的样本引入嵌套交叉验证。
我也做了类似的事情。比方说,我有一年的数据要训练。我将训练12个模型--一个是1月的数据,第二个模型是2月的数据,第三个是3月的数据,等等。我选择预测器和模型参数,以获得这些模型中任何一个在全年的一小部分数据上训练出来的良好性能,它给我一些希望,所使用的预测器之间有稳定的关系。利用整个模型组合对新数据作出决定。
在我试过的所有交叉验证方法中,这个方法在新数据上得到了最好的结果。但是有很多问题没有解决--应该有多少个模型,也就是说,我可以训练一百个而不是十二个,但是有意义吗?交易的估价也很重要,我可以选择任何东西,包括rf或sharp,我需要实验来找到最好的一个。
我也在做类似的事情。比方说,我有一年的训练数据。我将训练12个模型--一个用于一月,第二个用于二月,第三个用于三月,等等。我选择预测器和模型参数,以获得这些模型中任何一个在全年的一小部分数据上训练出来的良好性能,它给我一些希望,所使用的预测器之间有稳定的关系。利用整个模型组合对新数据作出决定。
在我试过的所有交叉验证方法中,这个方法在新数据上得到了最好的结果。但是有很多问题没有解决-- 应该有多少个模型,也就是说,我可以训练一百个而不是十二个,但是有意义吗?交易评估也很重要,你可以选择任何东西,包括rf或sharp,你需要做实验来找到最好的。
我也做过类似的事情。比方说,我有一年的训练数据。我将训练12个模型--一个用于一月,第二个用于二月,第三个用于三月,等等。我选择预测器和模型参数,以获得这些模型中任何一个在全年的一小部分数据上训练出来的良好性能,它给我一些希望,所使用的预测器之间有稳定的关系。利用整个模型组合对新数据作出决定。
在我试过的所有交叉验证方法中,这个方法在新数据上得到了最好的结果。但是有很多问题没有解决--应该有多少个模型,也就是说,我可以训练一百个而不是十二个,但是有意义吗?交易评估也很重要,任何东西都可以选择,包括rf或sharp,你需要做实验来找到最好的。
讨论之一:http://stats.stackexchange.com/questions/65128/nested-cross-validation-for-model-selection
Ibid:/go?link=https://stats.stackexchange.com/questions/103828/use-of-nested-cross-validation
在讨论中,有一些文章的链接。
一篇有趣的文章:http://www.andrewng.org/portfolio/preventing-overfitting-of-cross-validation-data/
从标题可以看出,它是关于过度训练的,这发生在交叉验证的验证犯上的模型评估阶段。因此,除了交叉验证,我们还需要另一个样本来估计已经选定的模型。