仅仅拒绝全局最优显然无法避免过度拟合。过度拟合是指模型对特定样本的适应性过强,损害了现有的规律性。这是因为几乎所有 MO 算法都具有极高的灵活性。因此,处理这种情况的标准方法是在优化标准中引入对模型过度灵活性的惩罚(例如套索回归)。您可以简单地以规定的方式限制模型的灵活性,但从数学上讲,这只是一种更严格的惩罚。
简单地拒绝全局极值显然无法避免过度训练(过拟合,overfitting)。过拟合是指模型对特定样本的适应性过强,损害了现有的规律性。这是因为几乎所有 MO 算法都具有极高的灵活性。因此,解决这一问题的标准方法是在优化标准中引入对模型过度灵活性的惩罚(例如套索回归)。也可以直接限制模型的灵活性,但在数学上这只是一种更严格的惩罚。
桑桑尼奇-福缅科,我们应该期待一个样本吗?
这是怎么回事?
原来如此。你对机器学习模型的了解还很肤浅。
这个链条的第一个要素是预处理,这需要花费 50% 到 70% 的人力。这也是决定未来成败的关键所在。
这个链条的第二个要素是在一组训练中训练模型。
第三个环节是在测试集上执行训练好的模型。如果模型在测试集上的表现至少相差三分之一,就需要对模型进行重新训练。这种情况偶尔会出现,甚至更频繁。过度训练的模型是指过于精确的模型。对不起,是基础知识。
这是怎么回事?
早些时候我写过
关于交易、自动交易系统和交易策略测试的论坛
交易中的机器学习:理论、模型、实践和算法交易
Aleksey Vyazmikin, 2022.12.08:44
能把您的样本发给我吗?我们对模型训练不佳的问题有相同的看法,我想比较一下你的选择方法比我的好多少,是否适合你的样本。
您回复说这是个好主意,但您删除了这条信息。
据我所知,我现在讨论的是机器学习模型,以及这些模型中内置的优化功能。这就是你的出发点,神经网络。
你讨论的是优化本身,对我来说这与机器学习无关。
祝你寻找全局最优。
据我所知,我现在讨论的是机器学习模型以及这些模型中内置的优化功能。这就是你从神经网络开始的地方。
你正在讨论的优化问题,对我来说与机器学习无关。
祝你寻找全局最优。
我得出了一个最重要的想法:优化和模型再训练之间存在着不可否认的联系。模型应始终保持相当 "粗糙 "的状态,当然也不需要全局最优。
仅仅拒绝全局最优显然无法避免过度拟合。过度拟合是指模型对特定样本的适应性过强,损害了现有的规律性。这是因为几乎所有 MO 算法都具有极高的灵活性。因此,处理这种情况的标准方法是在优化标准中引入对模型过度灵活性的惩罚(例如套索回归)。您可以简单地以规定的方式限制模型的灵活性,但从数学上讲,这只是一种更严格的惩罚。
顺便说一下,这就是为什么应该可以创建自定义标准的一个很好的例子。
优先选择全局极值而不是高原则有些不同。这不再是一个过度拟合特定样本而牺牲现有的不变依赖关系的问题。在这里,我们讨论的是由于价格的非平稳性(您最初写到的),依赖性发生了变化,我们需要寻找稳定(稳健)的参数值,即使依赖性发生微小变化,也能保持足够好的参数值。
你不需要把所有东西都混在一堆里。
当我在寻找一个可接受的预测因子列表时,这就是裤子意义上的优化。但意义却完全不同:试图避免 "垃圾进-垃圾出"。这与试图找到全局最优的 "正确 "算法有本质区别。没有一个全局最优算法能在垃圾中找到有利可图的 TS。
裤子的选择就是一个多标准优化的例子--选择的标准 包括长度、尺寸、颜色、面料、价格、品牌等)很明显,帕累托表面并没有建立起来,但在买方的头脑中,所有的标准都 隐含地混合在一个折衷方案中。特征选择也是如此。与裤装的重要区别在于,在这里,对折衷优化标准进行明确的形式化会很有用,因为一味依赖直觉会导致不可预知的失败。
如果模型是有效的,那么它在未知数据上的设置就会很好。它也有可能在 oos 上的设置不能提供令人满意的性能--这种情况有人称之为过度训练。事实上,估计标准的选择是不正确的。
反之亦然,如果选择的标准不正确,那么将不正确的标准最大化就会得到一条红色曲线。
这是在模型有效的前提下,但我们可以看到评估标准是多么重要。
但如果模型失效,那么无论是标准还是优化都无济于事。
因此,模型->标准->标准优化
裤子的选择就是一个多标准优化的例子--选择的标准 包括长度、尺寸、颜色、面料、价格、品牌等)很明显,帕累托曲面并没有建立起来,但在买方的头脑 中却隐含着将所有标准 混合成一个折衷方案的想法。特征选择也是如此。与裤装的重要区别在于,在这里,对折衷优化标准进行明确的形式化会很有用,因为一味依赖直觉会导致不可预知的失败。
裤子选择是标准驱动优化的一个很好的例子。并非所有的好裤子都适合每个人,用户驱动的优化会给出最好、最合适的裤子(全局最大标准)。
西裤 -> 西裤评价标准 -> 选择(优化西裤评价标准)
简单地拒绝全局极值显然无法避免过度训练(过拟合,overfitting)。过拟合是指模型对特定样本的适应性过强,损害了现有的规律性。这是因为几乎所有 MO 算法都具有极高的灵活性。因此,解决这一问题的标准方法是在优化标准中引入对模型过度灵活性的惩罚(例如套索回归)。也可以直接限制模型的灵活性,但在数学上这只是一种更严格的惩罚。
顺便说一句,这就是为什么要创建自定义标准的一个很好的例子。
优先选择全局极值而不是高原则有些不同。这不再是一个过度拟合特定样本而牺牲现有的不变依赖关系的问题。在这里,我们讨论的是由于价格的非平稳性(您最初写到的),依赖性会发生变化,因此有必要寻找稳定(稳健)的参数值,即使依赖性发生微小变化,也能保持足够好的参数值。
不要把所有东西都混在一堆。
裤子的选择就是一个多标准优化的例子--选择的标准 包括长度、尺寸、颜色、面料、价格、品牌等)很明显,帕累托表面并没有建立起来,但在买方的头脑中,所有的标准 都隐含地混合在一个折衷方案中。特征选择也是如此。与裤装的重要区别在于,在这里,对折衷优化标准进行明确的形式化会很有用,因为一味依赖直觉会导致不可预知的失败。
很高兴看到有人就主题发表文章!
如果模型是有效的,那么它就有在未知数据上运行良好的设置。它也可能有在 oos 上运行不理想的设置--这种情况有人称之为过度训练。事实上,估计标准的选择并不正确。
反之亦然,如果选择的标准不正确,那么将不正确的标准最大化就会得到一条红色曲线。
这只是假设模型有效,但我们可以看出评估标准是多么重要。
但如果模型失效,那么无论是标准还是优化都无济于事。
因此,模型->标准->标准优化
。
例如,两个最终余额相同为 10000 的结果,一个是 1000 笔盈利交易,另一个是 999 笔无利可图和 1 笔盈利交易。很明显,虽然这两种情况下的积分标准相同,但实现结果的方式却截然不同。这就是为什么人们经常抱怨积分标准,说要接受再培训、市场不稳定等。
推导标准的一个例子是从起点到终点的平衡线的标准偏差。这种标准与积分标准不同,考虑到了过程的中间结果。
积分标准也有可能适用于某些类型的系统(例如,单位时间内的交易次数实际上是一个常数)。
但是,无论是积分标准还是导出标准,都必须达到全局最优。标准的选择决定了系统未来的稳健性。
如果研究人员认为有必要寻找的不是全局最大值,而是中间值,那么在这种情况下, 就有必要立即重新考虑评估模型的标准。