交易中的机器学习:理论、模型、实践和算法交易 - 页 3311

 
Aleksey Vyazmikin #:

谁尝试过"紧凑性剖面"方法?

该方法的目的是从样本中剔除不一致的示例,如果使用 K 近邻学习方法,应该可以提高学习效率并减少模型大小。

我无法在 python 中找到实现方法.....。

您的同一链接还提到了将 "profile "与交叉验证联系起来,这可能更容易找到相关的软件包。
 
Aleksey Vyazmikin #:

谁尝试过"紧凑性剖面"方法?

该方法的目的是从样本中剔除不一致的示例,如果使用 K 近邻学习方法,应该可以提高学习效率并减少模型大小。

我无法在 python 中找到实现方法.....。

这项工作是实验性的。以下是http://www.ccas.ru/frc/papers/students/VoronKoloskov05mmro.pdf 中的一段话

这项工作是在 RFBR 项目 05-01-00877、05-07-90410 和 OMN RAS 计划框架内进行的。

不可能每个实验都是一个软件包。

是的,实验是人为的。噪音被添加到了按类别明确区分的数据集中。而这种明显的分隔只是通过一个特征--Y 轴。如果我们去掉噪音(0.2 到 0.8 之间的所有数据),就会发现我们只留下与其他类的距离不小于 0.6 的例子。我说的是图中最难的第三个选项:


到现实生活中去,将你的 5000 个预测因子添加到这个单一的工作样本中,这些预测因子将成为噪音。在聚类过程中,您需要计算 5001 维空间中点与点之间的总距离。在这种混乱的情况下,永远也找不到 0.6 的工作点。

,我认为任何分类器都能做得更好,同一棵树都能找到这个单一特征并将其除以 0.5,然后它将达到 0.2 和 0.8 的分裂,接着是纯度为 100%的树叶。

 
Aleksey Vyazmikin #:

谁尝试过"紧凑性剖面"方法?

该方法的目的是从样本中剔除不一致的示例,如果使用 K 近邻学习方法,应该可以提高学习效率并减少模型大小。

我找不到 python.... 中的实现方法。

弗拉基米尔-佩列文科(Vladimir Perervenko)的一篇文章介绍了这种方法,当然还有一个带代码的示例
 
Forester #:

作品是实验性的。以下是http://www.ccas.ru/frc/papers/students/VoronKoloskov05mmro.pdf 的一段话

不可能每个实验都是一个软件包。

哦,实验是人为的。噪声被添加到了按类别明确区分的数据集中。而这种明显的分隔只针对一个特征--Y 轴。如果我们去掉噪音(0.2 到 0.8 之间的所有数据),就会发现我们只留下与另一个类的距离不小于 0.6 的例子。我指的是图中最复杂的第 3 个变量:


到现实生活中去,在这个单一的工作样本中加入 5000 个预测因子,这些预测因子将成为噪音。在聚类过程中,您需要计算 5001 维空间中点与点之间的总距离。在这种混乱的情况下,永远也找不到 0.6 的工作点。

,我认为任何分类器都能做得更好,同一棵树都能找到这个单一特征 并将其除以 0.5,然后它将达到 0.2 和 0.8 的分裂,接着是纯度为 100%的树叶

它永远不会找到。在训练模型之前,应该先清除垃圾。"垃圾进-垃圾出 "是统计学的定律

 
СанСаныч Фоменко #:

永远找不到。任何 IO 都找不到它。 在训练模型之前,你必须先清除垃圾。"垃圾进,垃圾出 "是统计学的定律

我说的是一个具体的人工例子,在这个例子上进行了实验。这不是垃圾进垃圾出。例子中的垃圾很容易被清除。

 
这正是优化者们无法理解的地方。只有通过简化才能提高稳定性,而不是通过寻找全局最大值。
最简单的例子就是 SVM,支持向量之间的距离是给定的。交叉轴则更加灵活。在这里你会看到,然后可以输入 matstat 进行半张图计算。
如果你不能从一开始就进入 kozul,你可以从这个层面开始思考。

题外话:你玩过星际争霸吗?贝斯达兹德知道如何营造气氛。让人身临其境。
 
Forester #:

我说的是进行实验的具体人工例子。这不是垃圾进垃圾出。在这个例子中,已知的东西很容易被切断。

澄清一下我的观点。

任何 MO 算法都试图减少误差。减少误差对垃圾更有效,因为垃圾更有可能具有 "方便 "减少误差的值。因此,可以肯定的是,垃圾信息预测因子的 "重要性 "将高于非垃圾信息预测因子。这就是为什么要进行预处理,而预处理比模型拟合本身更耗费人力。

 
СанСаныч Фоменко #:

让我澄清一下我的观点。

任何 MO 算法都试图减少误差。减少误差对垃圾更有效,因为在垃圾中减少误差的 "方便 "值更为常见。因此,可以肯定的是,垃圾中预测因子的 "重要性 "要高于非垃圾中预测因子的 "重要性"。这就是为什么要进行预处理,而预处理比模型拟合本身更耗费人力。

请告诉我,什么不是垃圾?我从未见过有人谈论纯输入数据。但我在论坛上经常听到垃圾。

它们是什么?如果你说的是垃圾,那么你就没有垃圾,否则就没有什么可比性了。

 
СанСаныч Фоменко #:

让我澄清一下我的观点。

任何 MO 算法都试图减少误差。减少误差对垃圾更有效,因为在垃圾中减少误差的 "方便 "值更为常见。因此,可以肯定的是,垃圾中预测因子的 "重要性 "要高于非垃圾中预测因子的 "重要性"。这就是为什么要进行预处理,而预处理比实际的模型拟合要耗费大量人力物力。

预处理的目的是规范化,而不是垃圾。
垃圾是特征选择,部分是特征工程。

Sanych,不要再给不成熟的人输入垃圾了。
 
Ivan Butko #:

你能告诉我什么不是垃圾吗?我从未见过有人谈论干净的输入数据。但我在论坛上经常听到垃圾数据。

它们是什么?如果你说的是垃圾,那么你就没有垃圾,否则就没有什么可比性了。

没人知道什么是垃圾,什么不是,这些都是假设的概念。

如果他们知道什么是垃圾,就不会有一个长达 3 000 页的主题了。)

人们只是假设超出了这样或那样的限度就是 "垃圾",而这些限度也是假设的。这就是为什么 "垃圾进-垃圾出 "只不过是一句漂亮话,对一个研究者来说是垃圾的东西,对另一个研究者来说就不是垃圾。这就像艾略特的波浪。