交易中的机器学习:理论、模型、实践和算法交易 - 页 3311 1...330433053306330733083309331033113312331333143315331633173318...3399 新评论 Aleksey Nikolayev 2023.10.23 08:59 #33101 Aleksey Vyazmikin #:谁尝试过"紧凑性剖面"方法?该方法的目的是从样本中剔除不一致的示例,如果使用 K 近邻学习方法,应该可以提高学习效率并减少模型大小。我无法在 python 中找到实现方法.....。 您的同一链接还提到了将 "profile "与交叉验证联系起来,这可能更容易找到相关的软件包。 Aleksei Kuznetsov 2023.10.23 09:41 #33102 Aleksey Vyazmikin #:谁尝试过"紧凑性剖面"方法?该方法的目的是从样本中剔除不一致的示例,如果使用 K 近邻学习方法,应该可以提高学习效率并减少模型大小。我无法在 python 中找到实现方法.....。 这项工作是实验性的。以下是http://www.ccas.ru/frc/papers/students/VoronKoloskov05mmro.pdf 中的一段话 这项工作是在 RFBR 项目 05-01-00877、05-07-90410 和 OMN RAS 计划框架内进行的。 不可能每个实验都是一个软件包。 是的,实验是人为的。噪音被添加到了按类别明确区分的数据集中。而这种明显的分隔只是通过一个特征--Y 轴。如果我们去掉噪音(0.2 到 0.8 之间的所有数据),就会发现我们只留下与其他类的距离不小于 0.6 的例子。我说的是图中最难的第三个选项: 到现实生活中去,将你的 5000 个预测因子添加到这个单一的工作样本中,这些预测因子将成为噪音。在聚类过程中,您需要计算 5001 维空间中点与点之间的总距离。在这种混乱的情况下,永远也找不到 0.6 的工作点。,我认为任何分类器都能做得更好,同一棵树都能找到这个单一特征并将其除以 0.5,然后它将达到 0.2 和 0.8 的分裂,接着是纯度为 100%的树叶。 mytarmailS 2023.10.23 10:06 #33103 Aleksey Vyazmikin #:谁尝试过"紧凑性剖面"方法?该方法的目的是从样本中剔除不一致的示例,如果使用 K 近邻学习方法,应该可以提高学习效率并减少模型大小。我找不到 python.... 中的实现方法。 弗拉基米尔-佩列文科(Vladimir Perervenko)的一篇文章介绍了这种方法,当然还有一个带代码的示例 СанСаныч Фоменко 2023.10.23 11:37 #33104 Forester #:作品是实验性的。以下是http://www.ccas.ru/frc/papers/students/VoronKoloskov05mmro.pdf 的一段话不可能每个实验都是一个软件包。哦,实验是人为的。噪声被添加到了按类别明确区分的数据集中。而这种明显的分隔只针对一个特征--Y 轴。如果我们去掉噪音(0.2 到 0.8 之间的所有数据),就会发现我们只留下与另一个类的距离不小于 0.6 的例子。我指的是图中最复杂的第 3 个变量: 到现实生活中去,在这个单一的工作样本中加入 5000 个预测因子,这些预测因子将成为噪音。在聚类过程中,您需要计算 5001 维空间中点与点之间的总距离。在这种混乱的情况下,永远也找不到 0.6 的工作点。,我认为任何分类器都能做得更好,同一棵树都能找到这个单一特征 并将其除以 0.5,然后它将达到 0.2 和 0.8 的分裂,接着是纯度为 100%的树叶 。 它永远不会找到。在训练模型之前,应该先清除垃圾。"垃圾进-垃圾出 "是统计学的定律。 Aleksei Kuznetsov 2023.10.23 11:43 #33105 СанСаныч Фоменко #:永远找不到。任何 IO 都找不到它。 在训练模型之前,你必须先清除垃圾。"垃圾进,垃圾出 "是统计学的定律。 我说的是一个具体的人工例子,在这个例子上进行了实验。这不是垃圾进垃圾出。例子中的垃圾很容易被清除。 Maxim Dmitrievsky 2023.10.24 14:20 #33106 这正是优化者们无法理解的地方。只有通过简化才能提高稳定性,而不是通过寻找全局最大值。最简单的例子就是 SVM,支持向量之间的距离是给定的。交叉轴则更加灵活。在这里你会看到,然后可以输入 matstat 进行半张图计算。 如果你不能从一开始就进入 kozul,你可以从这个层面开始思考。题外话:你玩过星际争霸吗?贝斯达兹德知道如何营造气氛。让人身临其境。 СанСаныч Фоменко 2023.10.25 09:27 #33107 Forester #:我说的是进行实验的具体人工例子。这不是垃圾进垃圾出。在这个例子中,已知的东西很容易被切断。 澄清一下我的观点。 任何 MO 算法都试图减少误差。减少误差对垃圾更有效,因为垃圾更有可能具有 "方便 "减少误差的值。因此,可以肯定的是,垃圾信息预测因子的 "重要性 "将高于非垃圾信息预测因子。这就是为什么要进行预处理,而预处理比模型拟合本身更耗费人力。 Ivan Butko 2023.10.25 09:36 #33108 СанСаныч Фоменко #:让我澄清一下我的观点。任何 MO 算法都试图减少误差。减少误差对垃圾更有效,因为在垃圾中减少误差的 "方便 "值更为常见。因此,可以肯定的是,垃圾中预测因子的 "重要性 "要高于非垃圾中预测因子的 "重要性"。这就是为什么要进行预处理,而预处理比模型拟合本身更耗费人力。 请告诉我,什么不是垃圾?我从未见过有人谈论纯输入数据。但我在论坛上经常听到垃圾。 它们是什么?如果你说的是垃圾,那么你就没有垃圾,否则就没有什么可比性了。 mytarmailS 2023.10.25 09:42 #33109 СанСаныч Фоменко #:让我澄清一下我的观点。任何 MO 算法都试图减少误差。减少误差对垃圾更有效,因为在垃圾中减少误差的 "方便 "值更为常见。因此,可以肯定的是,垃圾中预测因子的 "重要性 "要高于非垃圾中预测因子的 "重要性"。这就是为什么要进行预处理,而预处理比实际的模型拟合要耗费大量人力物力。预处理的目的是规范化,而不是垃圾。垃圾是特征选择,部分是特征工程。Sanych,不要再给不成熟的人输入垃圾了。 Andrey Dik 2023.10.25 09:51 #33110 Ivan Butko #:你能告诉我什么不是垃圾吗?我从未见过有人谈论干净的输入数据。但我在论坛上经常听到垃圾数据。它们是什么?如果你说的是垃圾,那么你就没有垃圾,否则就没有什么可比性了。 没人知道什么是垃圾,什么不是,这些都是假设的概念。 如果他们知道什么是垃圾,就不会有一个长达 3 000 页的主题了。) 人们只是假设超出了这样或那样的限度就是 "垃圾",而这些限度也是假设的。这就是为什么 "垃圾进-垃圾出 "只不过是一句漂亮话,对一个研究者来说是垃圾的东西,对另一个研究者来说就不是垃圾。这就像艾略特的波浪。 1...330433053306330733083309331033113312331333143315331633173318...3399 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
谁尝试过"紧凑性剖面"方法?
该方法的目的是从样本中剔除不一致的示例,如果使用 K 近邻学习方法,应该可以提高学习效率并减少模型大小。
我无法在 python 中找到实现方法.....。
谁尝试过"紧凑性剖面"方法?
该方法的目的是从样本中剔除不一致的示例,如果使用 K 近邻学习方法,应该可以提高学习效率并减少模型大小。
我无法在 python 中找到实现方法.....。
这项工作是实验性的。以下是http://www.ccas.ru/frc/papers/students/VoronKoloskov05mmro.pdf 中的一段话
这项工作是在 RFBR 项目 05-01-00877、05-07-90410 和 OMN RAS 计划框架内进行的。
不可能每个实验都是一个软件包。
是的,实验是人为的。噪音被添加到了按类别明确区分的数据集中。而这种明显的分隔只是通过一个特征--Y 轴。如果我们去掉噪音(0.2 到 0.8 之间的所有数据),就会发现我们只留下与其他类的距离不小于 0.6 的例子。我说的是图中最难的第三个选项:
到现实生活中去,将你的 5000 个预测因子添加到这个单一的工作样本中,这些预测因子将成为噪音。在聚类过程中,您需要计算 5001 维空间中点与点之间的总距离。在这种混乱的情况下,永远也找不到 0.6 的工作点。
,我认为任何分类器都能做得更好,同一棵树都能找到这个单一特征并将其除以 0.5,然后它将达到 0.2 和 0.8 的分裂,接着是纯度为 100%的树叶。
谁尝试过"紧凑性剖面"方法?
该方法的目的是从样本中剔除不一致的示例,如果使用 K 近邻学习方法,应该可以提高学习效率并减少模型大小。
我找不到 python.... 中的实现方法。
作品是实验性的。以下是http://www.ccas.ru/frc/papers/students/VoronKoloskov05mmro.pdf 的一段话
不可能每个实验都是一个软件包。
哦,实验是人为的。噪声被添加到了按类别明确区分的数据集中。而这种明显的分隔只针对一个特征--Y 轴。如果我们去掉噪音(0.2 到 0.8 之间的所有数据),就会发现我们只留下与另一个类的距离不小于 0.6 的例子。我指的是图中最复杂的第 3 个变量:
到现实生活中去,在这个单一的工作样本中加入 5000 个预测因子,这些预测因子将成为噪音。在聚类过程中,您需要计算 5001 维空间中点与点之间的总距离。在这种混乱的情况下,永远也找不到 0.6 的工作点。
,我认为任何分类器都能做得更好,同一棵树都能找到这个单一特征 并将其除以 0.5,然后它将达到 0.2 和 0.8 的分裂,接着是纯度为 100%的树叶 。
它永远不会找到。在训练模型之前,应该先清除垃圾。"垃圾进-垃圾出 "是统计学的定律。
永远找不到。任何 IO 都找不到它。 在训练模型之前,你必须先清除垃圾。"垃圾进,垃圾出 "是统计学的定律。
我说的是一个具体的人工例子,在这个例子上进行了实验。这不是垃圾进垃圾出。例子中的垃圾很容易被清除。
我说的是进行实验的具体人工例子。这不是垃圾进垃圾出。在这个例子中,已知的东西很容易被切断。
澄清一下我的观点。
任何 MO 算法都试图减少误差。减少误差对垃圾更有效,因为垃圾更有可能具有 "方便 "减少误差的值。因此,可以肯定的是,垃圾信息预测因子的 "重要性 "将高于非垃圾信息预测因子。这就是为什么要进行预处理,而预处理比模型拟合本身更耗费人力。
让我澄清一下我的观点。
任何 MO 算法都试图减少误差。减少误差对垃圾更有效,因为在垃圾中减少误差的 "方便 "值更为常见。因此,可以肯定的是,垃圾中预测因子的 "重要性 "要高于非垃圾中预测因子的 "重要性"。这就是为什么要进行预处理,而预处理比模型拟合本身更耗费人力。
请告诉我,什么不是垃圾?我从未见过有人谈论纯输入数据。但我在论坛上经常听到垃圾。
它们是什么?如果你说的是垃圾,那么你就没有垃圾,否则就没有什么可比性了。
让我澄清一下我的观点。
任何 MO 算法都试图减少误差。减少误差对垃圾更有效,因为在垃圾中减少误差的 "方便 "值更为常见。因此,可以肯定的是,垃圾中预测因子的 "重要性 "要高于非垃圾中预测因子的 "重要性"。这就是为什么要进行预处理,而预处理比实际的模型拟合要耗费大量人力物力。
你能告诉我什么不是垃圾吗?我从未见过有人谈论干净的输入数据。但我在论坛上经常听到垃圾数据。
它们是什么?如果你说的是垃圾,那么你就没有垃圾,否则就没有什么可比性了。
没人知道什么是垃圾,什么不是,这些都是假设的概念。
如果他们知道什么是垃圾,就不会有一个长达 3 000 页的主题了。)
人们只是假设超出了这样或那样的限度就是 "垃圾",而这些限度也是假设的。这就是为什么 "垃圾进-垃圾出 "只不过是一句漂亮话,对一个研究者来说是垃圾的东西,对另一个研究者来说就不是垃圾。这就像艾略特的波浪。