交易中的机器学习：理论、模型、实践和算法交易

СанСаныч Фоменко 2023.10.11 09:28 #32921

Maxim Dmitrievsky #:

国防部使用不同的时间表

在科佐尔推理中，偏差比方差更容易处理。因此，可以得出这样一个非假设性的结论：模型的复杂性或特征数量的增加，阻碍大于帮助。

这张图从何而来？

数学模型使用的是完全不同的标准，如 AIC，如果参数过多就会受到惩罚。

这个标准和其他信息标准符合建模中的一个常见假设，即在两个性能相同的模型中，选择参数较少的那个。

我们不要忘记，"模型 "这一概念本身就是对现实的愚弄。这里没有极端。在模型精度的粗糙化和可接受性之间存在着一种平衡。但最重要的不是模型的准确性，而是模型的粗糙化，即模型的概括能力。这是可以理解的，因为建模的主要敌人是过度拟合，而过度拟合是模型准确性的孪生兄弟。

Maxim Dmitrievsky 2023.10.11 10:21 #32922

СанСаныч Фоменко #:

这张图是从哪里来的？

基础中的基础

https://en.wikipedia.org/wiki/Bias%E2%80%93variance_tradeoff

Andrey Dik 2023.10.11 11:11 #32923

СанСаныч Фоменко #:

我们不要忘记，"模型 "这一概念本身就是对现实的浓缩。这里没有极端。模型精确度的粗化和可接受性之间存在着平衡。但最重要的不是模型的准确性，而是它的粗略性，它的概括能力。这是可以理解的，因为建模的主要敌人是过度拟合，而过度拟合是模型准确性的孪生兄弟。

你经常混淆 "极值 "和 "尖峰"（函数没有导数的点）这两个概念。

即使是平面也有极值。

另外，FF 总是试图选择一种方式，使 FF 表面尽可能光滑，而全局极值是唯一的。唯一的全局极值必须是问题的唯一明确解。

如果 FF 的全局极值不是唯一的，甚至没有导数，则意味着 FF（模型评估标准）的选择不正确。对这一点的误解导致了 "过拟合 "一词，而对这一点的误解则导致了寻找一些模糊的局部极值。

我们可以打一个比方：一个专家--医生--是训练出来的，资格考试（FF）是为认证而开发的，对于医生来说，不存在 "过度训练 "或 "过度拟合 "的概念，如果一个医生没有得到最高分--这意味着他训练不足。而按照你的说法，一个好医生应该永远是一个训练不足、成绩不佳的人。

再一次，"过度训练 "的问题在于错误地选择了评估模型的标准。论坛上似乎也有这样冷静的专家，但他们一次又一次地重复着同样的错误。制定正确的估计标准的重要性不亚于选择预测因子，否则根本不可能充分估计模型。

我预计会有很多人反对，没关系，我已经习惯了。如果这对某人有用--那就太好了，而那些没用的人--管他呢，所以他们认为现在这样就很好。

Maxim Dmitrievsky 2023.10.11 11:29 #32924

Andrey Dik #:

你一直在混淆 "极值 "和 "尖峰"（函数没有导数的点）的概念。

即使是平面也有极值。

另外，FF 总是尽量选择使 FF 表面尽可能光滑，而全局极值是唯一的。唯一的全局极值一定是问题的唯一明确解。

如果 FF 的全局极值不是唯一的，甚至没有导数，则意味着 FF 的选择（模型评估标准）不正确。对这一点的误解导致了 "过拟合 "一词，而对这一点的误解则导致了寻找一些模糊的局部极值。

我们可以打一个比方：一个专家--医生--是训练出来的，资格考试（FF）是为认证而开发的，对于医生来说，不存在 "过度训练 "或 "过度拟合 "的概念，如果一个医生没有得到最高分--那就意味着他训练不足。而按照你的说法，一个好医生应该永远是一个训练不足的非科学家。

再说一次，"过度训练 "的问题在于错误地选择了评估模型的标准。论坛上似乎也有这样冷静的专家，但他们一次又一次地重复着同样的错误。制定正确的估算标准的重要性不亚于选择预测因子，否则根本不可能对模型进行充分的估算。

我预计会有很多人反对，没关系，我已经习惯了。如果它对某人有用，那就太好了，而那些没用的人根本不在乎，所以他们认为现在这样就很好。

你在混淆实体。你试图将优化与近似相提并论，反之亦然。

近似和优化是解决机器学习问题的不同方法。

近似是指建立一个模型，近似处理输入和输出数据之间的关系。例如，这可以是构建一个最能描述数据的线性或非线性函数。近似法不考虑要解决的目标或问题，只寻求建立一个最适合数据的模型。

另一方面，优化指的是找到实现特定目标或问题的最佳模型参数。在这种情况下，模型可能比近似模型更复杂，包含的参数也更多。优化会考虑目标或目的，并调整模型参数以达到最佳结果。

一般来说，近似法和优化法经常一起用于建立有效的机器学习模型。首先，通过近似来建立模型，然后通过优化来调整模型参数，以实现预期目标或任务。

Maxim Dmitrievsky 2023.10.11 11:32 #32925

神经网络并不关心你的 FF。它根据现成的数据执行任务。这里讨论的是如何在这种模型的方差和偏差之间找到平衡。Mitramiles 将不同的 FF 放在 NS 的第二端。得到的拟合结果都一样。

你写到要找到一个目标 F-i，我们已经默认设置了。

你仍然需要认识到两者的区别。

Maxim Dmitrievsky 2023.10.11 11:39 #32926

这就是为什么上文提到了基于专家知识或算法决定的正确标记或 Oracle 的重要性。这是你先验带入模型的东西。在这方面，任何 FF 都救不了你。

这个问题已经讨论过好几次了，反反复复。要么讨论出具体的东西，要么每个人都把重担拉到自己这边。

Andrey Dik 2023.10.11 11:55 #32927

我告诉过你

如果 Sanych 开始反击，我可以理解，但 Max....

FF 是一种评估，我们评估一切。如果我们判断失误，并不意味着我们做错了。如果没有适当的评估，就会出现一半一半的情况，然后他们就会说--这个不行，那个也不行....。我并不是评估设计方面的专家，这是一项非常艰巨的任务。

"这只是在兜圈子说同样的话"--这不是我说的话，如果有的话))))))在这里，评价标准是 "字数"，这不是一个正确的评价，因为改动一些地方的字，意思就会发生很大的变化。

Andrey Dik 2023.10.11 12:01 #32928

我忍不住要与大家分享一个惊人的消息（对我来说太真实了）：一种比 SSG 更强大的算法已经被发现。

Maxim Dmitrievsky 2023.10.11 12:05 #32929

概念不断替换，无法沟通。

Andrey Dik 2023.10.11 12:10 #32930

Maxim Dmitrievsky #:
概念不断被替换，根本无法交流。

我同意，没有人能够相互理解，也没有一个单一的标准来评估语句及其语义负载。没有人知道谁是什么意思，就像那个轶事一样：

- 你什么意思？

- 我的意思就是我的意思。

国防部就是这样。

交易中的机器学习：理论、模型、实践和算法交易 - 页 3293