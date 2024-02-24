交易中的机器学习：理论、模型、实践和算法交易 - 页 3311

Aleksey Vyazmikin #:

谁尝试过"紧凑性剖面"方法？

该方法的目的是从样本中剔除不一致的示例，如果使用 K 近邻学习方法，应该可以提高学习效率并减少模型大小。

我无法在 python 中找到实现方法.....。

您的同一链接还提到了将 "profile "与交叉验证联系起来，这可能更容易找到相关的软件包。
 
这项工作是实验性的。以下是http://www.ccas.ru/frc/papers/students/VoronKoloskov05mmro.pdf 中的一段话

这项工作是在 RFBR 项目 05-01-00877、05-07-90410 和 OMN RAS 计划框架内进行的。

不可能每个实验都是一个软件包。

是的，实验是人为的。噪音被添加到了按类别明确区分的数据集中。而这种明显的分隔只是通过一个特征--Y 轴。如果我们去掉噪音（0.2 到 0.8 之间的所有数据），就会发现我们只留下与其他类的距离不小于 0.6 的例子。我说的是图中最难的第三个选项：


到现实生活中去，将你的 5000 个预测因子添加到这个单一的工作样本中，这些预测因子将成为噪音。在聚类过程中，您需要计算 5001 维空间中点与点之间的总距离。在这种混乱的情况下，永远也找不到 0.6 的工作点。

，我认为任何分类器都能做得更好，同一棵树都能找到这个单一特征并将其除以 0.5，然后它将达到 0.2 和 0.8 的分裂，接着是纯度为 100%的树叶。

 
弗拉基米尔-佩列文科（Vladimir Perervenko）的一篇文章介绍了这种方法，当然还有一个带代码的示例
 
Forester #:

作品是实验性的。以下是http://www.ccas.ru/frc/papers/students/VoronKoloskov05mmro.pdf 的一段话

不可能每个实验都是一个软件包。

哦，实验是人为的。噪声被添加到了按类别明确区分的数据集中。而这种明显的分隔只针对一个特征--Y 轴。如果我们去掉噪音（0.2 到 0.8 之间的所有数据），就会发现我们只留下与另一个类的距离不小于 0.6 的例子。我指的是图中最复杂的第 3 个变量：


到现实生活中去，在这个单一的工作样本中加入 5000 个预测因子，这些预测因子将成为噪音。在聚类过程中，您需要计算 5001 维空间中点与点之间的总距离。在这种混乱的情况下，永远也找不到 0.6 的工作点。

，我认为任何分类器都能做得更好，同一棵树都能找到这个单一特征 并将其除以 0.5，然后它将达到 0.2 和 0.8 的分裂，接着是纯度为 100%的树叶

它永远不会找到。在训练模型之前，应该先清除垃圾。"垃圾进-垃圾出 "是统计学的定律

 
СанСаныч Фоменко #:

永远找不到。任何 IO 都找不到它。 在训练模型之前，你必须先清除垃圾。"垃圾进，垃圾出 "是统计学的定律

我说的是一个具体的人工例子，在这个例子上进行了实验。这不是垃圾进垃圾出。例子中的垃圾很容易被清除。

这正是优化者们无法理解的地方。只有通过简化才能提高稳定性，而不是通过寻找全局最大值。
最简单的例子就是 SVM，支持向量之间的距离是给定的。交叉轴则更加灵活。在这里你会看到，然后可以输入 matstat 进行半张图计算。
如果你不能从一开始就进入 kozul，你可以从这个层面开始思考。

题外话：你玩过星际争霸吗？贝斯达兹德知道如何营造气氛。让人身临其境。
 
Forester #:

我说的是进行实验的具体人工例子。这不是垃圾进垃圾出。在这个例子中，已知的东西很容易被切断。

澄清一下我的观点。

任何 MO 算法都试图减少误差。减少误差对垃圾更有效，因为垃圾更有可能具有 "方便 "减少误差的值。因此，可以肯定的是，垃圾信息预测因子的 "重要性 "将高于非垃圾信息预测因子。这就是为什么要进行预处理，而预处理比模型拟合本身更耗费人力。

 
СанСаныч Фоменко #:

让我澄清一下我的观点。

任何 MO 算法都试图减少误差。减少误差对垃圾更有效，因为在垃圾中减少误差的 "方便 "值更为常见。因此，可以肯定的是，垃圾中预测因子的 "重要性 "要高于非垃圾中预测因子的 "重要性"。这就是为什么要进行预处理，而预处理比模型拟合本身更耗费人力。

请告诉我，什么不是垃圾？我从未见过有人谈论纯输入数据。但我在论坛上经常听到垃圾。

它们是什么？如果你说的是垃圾，那么你就没有垃圾，否则就没有什么可比性了。

 
СанСаныч Фоменко #:

让我澄清一下我的观点。

任何 MO 算法都试图减少误差。减少误差对垃圾更有效，因为在垃圾中减少误差的 "方便 "值更为常见。因此，可以肯定的是，垃圾中预测因子的 "重要性 "要高于非垃圾中预测因子的 "重要性"。这就是为什么要进行预处理，而预处理比实际的模型拟合要耗费大量人力物力。

预处理的目的是规范化，而不是垃圾。
垃圾是特征选择，部分是特征工程。

Sanych，不要再给不成熟的人输入垃圾了。
 
Ivan Butko #:

你能告诉我什么不是垃圾吗？我从未见过有人谈论干净的输入数据。但我在论坛上经常听到垃圾数据。

它们是什么？如果你说的是垃圾，那么你就没有垃圾，否则就没有什么可比性了。

没人知道什么是垃圾，什么不是，这些都是假设的概念。

如果他们知道什么是垃圾，就不会有一个长达 3 000 页的主题了。）

人们只是假设超出了这样或那样的限度就是 "垃圾"，而这些限度也是假设的。这就是为什么 "垃圾进-垃圾出 "只不过是一句漂亮话，对一个研究者来说是垃圾的东西，对另一个研究者来说就不是垃圾。这就像艾略特的波浪。

