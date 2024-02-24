交易中的机器学习：理论、模型、实践和算法交易 - 页 3311 1...330433053306330733083309331033113312331333143315331633173318...3399 新评论 Aleksey Nikolayev 2023.10.23 08:59 #33101 Aleksey Vyazmikin #:谁尝试过"紧凑性剖面"方法？该方法的目的是从样本中剔除不一致的示例，如果使用 K 近邻学习方法，应该可以提高学习效率并减少模型大小。我无法在 python 中找到实现方法.....。 您的同一链接还提到了将 "profile "与交叉验证联系起来，这可能更容易找到相关的软件包。 Aleksei Kuznetsov 2023.10.23 09:41 #33102 Aleksey Vyazmikin #:谁尝试过"紧凑性剖面"方法？该方法的目的是从样本中剔除不一致的示例，如果使用 K 近邻学习方法，应该可以提高学习效率并减少模型大小。我无法在 python 中找到实现方法.....。 这项工作是实验性的。以下是http://www.ccas.ru/frc/papers/students/VoronKoloskov05mmro.pdf 中的一段话 这项工作是在 RFBR 项目 05-01-00877、05-07-90410 和 OMN RAS 计划框架内进行的。 不可能每个实验都是一个软件包。 是的，实验是人为的。噪音被添加到了按类别明确区分的数据集中。而这种明显的分隔只是通过一个特征--Y 轴。如果我们去掉噪音（0.2 到 0.8 之间的所有数据），就会发现我们只留下与其他类的距离不小于 0.6 的例子。我说的是图中最难的第三个选项： 到现实生活中去，将你的 5000 个预测因子添加到这个单一的工作样本中，这些预测因子将成为噪音。在聚类过程中，您需要计算 5001 维空间中点与点之间的总距离。在这种混乱的情况下，永远也找不到 0.6 的工作点。，我认为任何分类器都能做得更好，同一棵树都能找到这个单一特征并将其除以 0.5，然后它将达到 0.2 和 0.8 的分裂，接着是纯度为 100%的树叶。 mytarmailS 2023.10.23 10:06 #33103 Aleksey Vyazmikin #:谁尝试过"紧凑性剖面"方法？该方法的目的是从样本中剔除不一致的示例，如果使用 K 近邻学习方法，应该可以提高学习效率并减少模型大小。我找不到 python.... 中的实现方法。 弗拉基米尔-佩列文科（Vladimir Perervenko）的一篇文章介绍了这种方法，当然还有一个带代码的示例 СанСаныч Фоменко 2023.10.23 11:37 #33104 Forester #:作品是实验性的。以下是http://www.ccas.ru/frc/papers/students/VoronKoloskov05mmro.pdf 的一段话不可能每个实验都是一个软件包。哦，实验是人为的。噪声被添加到了按类别明确区分的数据集中。而这种明显的分隔只针对一个特征--Y 轴。如果我们去掉噪音（0.2 到 0.8 之间的所有数据），就会发现我们只留下与另一个类的距离不小于 0.6 的例子。我指的是图中最复杂的第 3 个变量： 到现实生活中去，在这个单一的工作样本中加入 5000 个预测因子，这些预测因子将成为噪音。在聚类过程中，您需要计算 5001 维空间中点与点之间的总距离。在这种混乱的情况下，永远也找不到 0.6 的工作点。，我认为任何分类器都能做得更好，同一棵树都能找到这个单一特征 并将其除以 0.5，然后它将达到 0.2 和 0.8 的分裂，接着是纯度为 100%的树叶 。 它永远不会找到。在训练模型之前，应该先清除垃圾。"垃圾进-垃圾出 "是统计学的定律。 Aleksei Kuznetsov 2023.10.23 11:43 #33105 СанСаныч Фоменко #:永远找不到。任何 IO 都找不到它。 在训练模型之前，你必须先清除垃圾。"垃圾进，垃圾出 "是统计学的定律。 我说的是一个具体的人工例子，在这个例子上进行了实验。这不是垃圾进垃圾出。例子中的垃圾很容易被清除。 [删除] 2023.10.24 14:20 #33106 这正是优化者们无法理解的地方。只有通过简化才能提高稳定性，而不是通过寻找全局最大值。最简单的例子就是 SVM，支持向量之间的距离是给定的。交叉轴则更加灵活。在这里你会看到，然后可以输入 matstat 进行半张图计算。 如果你不能从一开始就进入 kozul，你可以从这个层面开始思考。题外话：你玩过星际争霸吗？贝斯达兹德知道如何营造气氛。让人身临其境。 СанСаныч Фоменко 2023.10.25 09:27 #33107 Forester #:我说的是进行实验的具体人工例子。这不是垃圾进垃圾出。在这个例子中，已知的东西很容易被切断。 澄清一下我的观点。 任何 MO 算法都试图减少误差。减少误差对垃圾更有效，因为垃圾更有可能具有 "方便 "减少误差的值。因此，可以肯定的是，垃圾信息预测因子的 "重要性 "将高于非垃圾信息预测因子。这就是为什么要进行预处理，而预处理比模型拟合本身更耗费人力。 Ivan Butko 2023.10.25 09:36 #33108 СанСаныч Фоменко #:让我澄清一下我的观点。任何 MO 算法都试图减少误差。减少误差对垃圾更有效，因为在垃圾中减少误差的 "方便 "值更为常见。因此，可以肯定的是，垃圾中预测因子的 "重要性 "要高于非垃圾中预测因子的 "重要性"。这就是为什么要进行预处理，而预处理比模型拟合本身更耗费人力。 请告诉我，什么不是垃圾？我从未见过有人谈论纯输入数据。但我在论坛上经常听到垃圾。 它们是什么？如果你说的是垃圾，那么你就没有垃圾，否则就没有什么可比性了。 mytarmailS 2023.10.25 09:42 #33109 СанСаныч Фоменко #:让我澄清一下我的观点。任何 MO 算法都试图减少误差。减少误差对垃圾更有效，因为在垃圾中减少误差的 "方便 "值更为常见。因此，可以肯定的是，垃圾中预测因子的 "重要性 "要高于非垃圾中预测因子的 "重要性"。这就是为什么要进行预处理，而预处理比实际的模型拟合要耗费大量人力物力。预处理的目的是规范化，而不是垃圾。垃圾是特征选择，部分是特征工程。Sanych，不要再给不成熟的人输入垃圾了。 Andrey Dik 2023.10.25 09:51 #33110 Ivan Butko #:你能告诉我什么不是垃圾吗？我从未见过有人谈论干净的输入数据。但我在论坛上经常听到垃圾数据。它们是什么？如果你说的是垃圾，那么你就没有垃圾，否则就没有什么可比性了。 没人知道什么是垃圾，什么不是，这些都是假设的概念。 如果他们知道什么是垃圾，就不会有一个长达 3 000 页的主题了。） 人们只是假设超出了这样或那样的限度就是 "垃圾"，而这些限度也是假设的。这就是为什么 "垃圾进-垃圾出 "只不过是一句漂亮话，对一个研究者来说是垃圾的东西，对另一个研究者来说就不是垃圾。这就像艾略特的波浪。 1...330433053306330733083309331033113312331333143315331633173318...3399 新评论 您错过了交易机会： 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符（不带空格） 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号，请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置，否则您将无法登录。 忘记您的登录名/密码？ 使用 Google 登录
这项工作是实验性的。以下是http://www.ccas.ru/frc/papers/students/VoronKoloskov05mmro.pdf 中的一段话
这项工作是在 RFBR 项目 05-01-00877、05-07-90410 和 OMN RAS 计划框架内进行的。
不可能每个实验都是一个软件包。
是的，实验是人为的。噪音被添加到了按类别明确区分的数据集中。而这种明显的分隔只是通过一个特征--Y 轴。如果我们去掉噪音（0.2 到 0.8 之间的所有数据），就会发现我们只留下与其他类的距离不小于 0.6 的例子。我说的是图中最难的第三个选项：
到现实生活中去，将你的 5000 个预测因子添加到这个单一的工作样本中，这些预测因子将成为噪音。在聚类过程中，您需要计算 5001 维空间中点与点之间的总距离。在这种混乱的情况下，永远也找不到 0.6 的工作点。
，我认为任何分类器都能做得更好，同一棵树都能找到这个单一特征并将其除以 0.5，然后它将达到 0.2 和 0.8 的分裂，接着是纯度为 100%的树叶。
它永远不会找到。在训练模型之前，应该先清除垃圾。"垃圾进-垃圾出 "是统计学的定律。
我说的是一个具体的人工例子，在这个例子上进行了实验。这不是垃圾进垃圾出。例子中的垃圾很容易被清除。
任何 MO 算法都试图减少误差。减少误差对垃圾更有效，因为垃圾更有可能具有 "方便 "减少误差的值。因此，可以肯定的是，垃圾信息预测因子的 "重要性 "将高于非垃圾信息预测因子。这就是为什么要进行预处理，而预处理比模型拟合本身更耗费人力。
没人知道什么是垃圾，什么不是，这些都是假设的概念。
如果他们知道什么是垃圾，就不会有一个长达 3 000 页的主题了。）
人们只是假设超出了这样或那样的限度就是 "垃圾"，而这些限度也是假设的。这就是为什么 "垃圾进-垃圾出 "只不过是一句漂亮话，对一个研究者来说是垃圾的东西，对另一个研究者来说就不是垃圾。这就像艾略特的波浪。