Если модель в среднем мало ошибается, значит она не переобучена, если же ошибается часто, значит с ней что-то не так.
不过,这个建议也有缺陷!如果按照错误率对模型进行排序,从中选取最好的模型,这又会造成过度训练。
Поэтому необходимо провести кросс-валидацию на тренировочном датасете, сравнить предсказания модели с обучающими метками и усреднить результаты по всем фолдам. Те примеры, которые в среднем были предсказаны неверно, следует удалить из финальной обучающей выборки как ошибочные. Еще следует обучить вторую модель уже на всех данных, которая отличает хорошо предсказуемые случаи от плохо предсказуемых, позволяя наиболее полно охватить все возможные исходы.
第一个模型负责交易,第二个模型负责分类(并预测)弱势交易地点。对吗?
关于国防部统计方法的专门讨论很有意思,如果有人有话要说/补充的话。
1) 我想看看模型在第三个样本上的表现,这既不是跟踪也不是测试,也没有以任何方式参与模型的创建和选择。
2) Vladimir 在其 2017 年的 文章 中介绍了噪声检测和标签重标注或元标注,他为此使用了 NoiseFiltersR 软件包。
Глубокие нейросети (Часть III). Выбор примеров и уменьшение размерности
- www.mql5.com
Эта статья продолжает серию публикаций о глубоких нейросетях. Рассматривается выбор примеров (удаление шумовых), уменьшение размерности входных данных и разделение набора на train/val/test в процессе подготовки данных для обучения.
mytarmailS #:
1) 我想看看模型在第三个样本上的表现,这个样本既不是 t-train 也不是测试,也没有以任何方式参与模型的创建和选择。
2) Vladimir 在 2017 年的 文章 中介绍了噪声检测和标签重标注或元标注,他为此使用了 NoiseFiltersR 软件包。
机器人附在文章之后
它描述了数十种或数百种类似方法中的几种,我们无意逐一深入研究,尤其是在没有验证结果的情况下。我更感兴趣的是自我设计并立即进行测试,现在转换到 ONNX 可以更快地完成这项工作。核心方法易于添加/改写,而无需更改代码的其他部分,这一点也非常酷。这个通过 cv 找 bug 的例子有一个缺陷,就是无法完整讲述因果推理,所以这只是一个介绍。改天我再试着解释。
这篇文章甚至已经很有用了,因为它是使用 MO 进行实验的现成解决方案。这些函数经过优化,运行速度很快。Yevgeniy Koshtenko 随机森林 模型的素材,现在正在测试)我也会试试你的模型)我希望能发表,我还是个初学者=).
欢迎更多的 MO:)我也是个业余爱好者。
你不能这样颠倒顺序:
。
。
int k = ArraySize(Periods) - 1; for(int i = 0; i < ArraySize(Periods); i++) { f[i] = features[i]; k--; }应该是
f[k] = features[i];为什么要颠倒顺序?
新文章 CatBoost 模型中的交叉验证和因果推理基础及导出为 ONNX 格式已发布:
本文提出了使用机器学习创建 EA 交易的方法。
正如我们的结论经常是错误的并且需要验证一样,机器学习模型的预测结果也应该经过仔细检查。如果我们将反复检查的过程转向我们自己,我们就能获得自制力。机器学习模型的自我控制归结为在不同但相似的情况下多次检查其预测的错误。如果模型平均犯的错误很少,则意味着它没有过度训练,但如果它经常犯错误,那么它就有问题了。
如果我们在选定的数据上只是对模型进行一次训练,那么它无法进行自我控制。如果我们在随机子样本上多次训练模型,然后检查每个子样本的预测质量并将所有错误加起来,我们就会得到一个相对可靠的图像,其中显示了模型实际错误的情况和经常正确的情况。这些情况可以分为两组,彼此之间相互独立。这类似于进行前向验证或交叉验证,但包含附加元素。这是实现自我控制并获得更为鲁棒的模型的唯一方法。
因此,有必要对训练数据集进行交叉验证,将模型的预测与训练标签进行比较,并对所有结果取平均值。那些平均预测错误的例子应该作为错误的例子从最终训练集中删除。我们还应该对所有数据训练第二个模型,该模型可以区分可预测性高的情况和可预测性低的情况,从而让我们能够更全面地涵盖所有可能的结果。
作者:Maxim Dmitrievsky