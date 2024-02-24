交易中的机器学习：理论、模型、实践和算法交易 - 页 2792 1...278527862787278827892790279127922793279427952796279727982799...3399 新评论 Aleksei Kuznetsov 2022.10.19 10:29 #27911 Maxim Dmitrievsky #: 一年多前，我也用聚类法做了同样的事情，然后确定了图片中的平均水平，并以此为基础下单。分为向上、向下、均值回归 3 个群组。 有趣的是，无论你使用什么特殊手段，都无法从随机中获得任何好的结果 是的，显然你无法从价格中得到任何东西。没有别的了。还有证券交易所的交易量。 显然，FA 是唯一能给出东西的东西。而且最好还是手动操作。但即使是这样，您也可能搞错了，假新闻正在积极发挥作用。 СанСаныч Фоменко 2022.10.19 10:54 #27912 Maxim Dmitrievsky #:我通过向后移动属性来检查属性的信息量。也就是说，我们取的不是属性历史的最后值，而是向过去缩进。我进行了 50 次缩进。(从 0 到 -50 小节）右栏以条为单位缩进，左栏为互信息。缩进是按照芯片和标签之间 互信息 的升序排列的。结果表明，最后的价格并不总是比之前的价格好，在 -11 条时，价格相对于零条有一定的上升：指示性 您说的 "相互信息 "是什么意思？信息对价格的影响是否有趣？相互影响是否有趣？如何计算 "相互信息"？ [删除] 2022.10.19 10:59 #27913 СанСаныч Фоменко #:您说的 "相互信息 "是什么意思？档案对标签的影响有趣吗？相互影响有趣吗？如何计算 "互信息"？ 你的问题把我难住了 Aleksei Kuznetsov 2022.10.19 11:01 #27914 Maxim Dmitrievsky #:我通过向后移动属性来检查属性的信息量。也就是说，我们取的不是属性历史的最后值，而是向过去缩进。我进行了 50 次缩进。(从 0 到 -50 小节）右栏以条为单位缩进，左栏为互信息。缩进是按照芯片和标签之间互信息的升序排列的。结果表明，最后的价格并不总是比之前的价格好，在 -11 条时，价格相对于零条有一定的上升：指示性 H1 修复？ 0 0.001554 23 1 0.001612 22 2 0.001708 15 3 0.001783 24 看起来像是昼夜周期。22-24 小时的信息量最大。所以今天会和昨天一样。 СанСаныч Фоменко 2022.10.19 11:19 #27915 Maxim Dmitrievsky #:你的问题难倒我了 为什么 "绊倒"？ 对我来说，一个特征、芯片、预测器与一个标签的影响、联系和预测能力可以用下面的例子来解释。 假设有一个标签 "人"，它有两个值：男性和女性。 假设有一个 "服装 "标签，它有两个值：裤子和裙子，而不同裤子和裙子的值有成百上千个。 假设男性只穿裤子，女性只穿裙子。那么这样的标尺确定标签时不会出现错误，即预测误差 = 0%。我们可以认为，该样本对标签的影响、约束和预测是 100% 的。如果将来保持这样的条件，误差将不会改变，将 =- 0%。 在现代社会中，情况并非如此，因此会出现预测误差，误差的大小尚不可知，而且可能会因填写的信息不同而变化。 有很多方法都是以软件包的形式实现的，例如，在我们的例子中，对于女性对长裤和男性对裙子的喜爱程度，就会显示出芯片与标记的连接与 100% 的连接存在一定的差异。 图表很好地说明了这一点。 一个无用功能的例子： 相当有前途的芯片示例。交叉点是预测错误。在上一张图中，一个芯片与另一个芯片完全重叠--预测误差为 50%。 这是衡量第一张图中芯片之间的差异，还是第二张图中芯片之间的差异？估计值相差 2.5 倍。但数字是相对的。所有特征都是垃圾吗？ [删除] 2022.10.19 12:16 #27916 好吧，我不想引用维基百科，你可以去谷歌上找找看。衡量联系的标准可以是几何的，如相关性，也可以是信息的，如 Mi。我不明白为什么我要和别人的懒惰作斗争，你自己以前也承认过）。给一个好方法，你不需要大量的数据包。名字就足够了。 СанСаныч Фоменко 2022.10.19 12:23 #27917 Maxim Dmitrievsky 几何 的，如相关性，也可以是信息的，如 Mi。 我不明白我为什么要和别人的懒惰作斗争，而我自己也曾经承认自己的懒惰 ) 是啊，好吧，好吧。就这样吧 [删除] 2022.10.19 12:29 #27918 СанСаныч Фоменко #:好吧那就这样吧 你不仅没有给出任何结果，还引用了很多好的软件包，而且还让我帮你猜测你到底是什么意思。如果要讨论具体的东西，就写得具体一点，有具体的结果。这是一个关于扩展分布的平庸例子，请告诉我如何有效地获得它们。信息关系是由你命名的。它的基础是熵和互信息。你需要写 500 遍吗？熵是为一个序列定义的，互信息是为两个序列定义的。 Aleksei Kuznetsov 2022.10.19 12:58 #27919 2 年前，我比较了评估https://www.mql5.com/ru/blogs/post/737458 重要性的方法。 模型本身就是一个样本。我对其进行了 N 次训练（根据特征的数量），去掉了其中一个特征。 去掉一个特征后，结果恶化得越厉害，这个特征就越重要。也有一些芯片去掉后结果有所改善，即它显然是噪声。 确定特征重要性的所有变体都与示例重要性不相似。 互信息和其他软件包恐怕也不一致。 Сравнение разных методов оценки важности предикторов. www.mql5.com Провел сравнение разных методов оценки важности предикторов. Тесты проводил на данных титаника (36 фичей и 891 строки) при помощи случайного леса из 100 деревьев. Распечатка с результатами ниже. За СанСаныч Фоменко 2022.10.19 14:52 #27920 elibrarius #:最好不要使用与模型无关的方法和软件包来评估特征，而应使用模型本身。 2 年前我比较了重要性评估方法https://www.mql5.com/ru/blogs/post/737458模型本身被当作样本。我训练了 N 次（根据特征的数量），去掉了其中一个特征。 去掉一个特征后，结果恶化得越厉害，这个特征就越重要。也有一些芯片去掉后结果有所改善，即它显然是噪声。 确定特征重要性的所有变体都与示例重要性不相似。 互信息和其他软件包恐怕也不一致。 近似来说，您说得很对--如果您的意思是通过模型的性能指标来评估模型，那么就应该有一个最终得分。 但是，有一个细微差别大于一切。 通过性能来评估模型是对历史数据的评估。但模型在未来会有怎样的表现呢？ 如果我们评估的是特征本身，我们可以运行一个窗口，统计每个特征得分值的变化。而且，在我看来，最好使用那些重要度得分波动较小的特征，最好小于 10%。我的小说集在 500 小节时的 sd 波动从 10% 到 120%（根据记忆）。这意味着分数在 10%的范围内波动，即我们看到的数字就是它。但在 120% 的范围内，我们看到的重要性分数值就是小说。 1...278527862787278827892790279127922793279427952796279727982799...3399 新评论 您错过了交易机会： 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符（不带空格） 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号，请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置，否则您将无法登录。 忘记您的登录名/密码？ 使用 Google 登录
一年多前，我也用聚类法做了同样的事情，然后确定了图片中的平均水平，并以此为基础下单。分为向上、向下、均值回归 3 个群组。
是的，显然你无法从价格中得到任何东西。没有别的了。还有证券交易所的交易量。
显然，FA 是唯一能给出东西的东西。而且最好还是手动操作。但即使是这样，您也可能搞错了，假新闻正在积极发挥作用。
我通过向后移动属性来检查属性的信息量。也就是说，我们取的不是属性历史的最后值，而是向过去缩进。我进行了 50 次缩进。(从 0 到 -50 小节）
右栏以条为单位缩进，左栏为互信息。缩进是按照芯片和标签之间 互信息 的升序排列的。
结果表明，最后的价格并不总是比之前的价格好，在 -11 条时，价格相对于零条有一定的上升：
指示性
您说的 "相互信息 "是什么意思？信息对价格的影响是否有趣？相互影响是否有趣？如何计算 "相互信息"？
看起来像是昼夜周期。22-24 小时的信息量最大。所以今天会和昨天一样。
为什么 "绊倒"？
对我来说，一个特征、芯片、预测器与一个标签的影响、联系和预测能力可以用下面的例子来解释。
假设有一个标签 "人"，它有两个值：男性和女性。
假设有一个 "服装 "标签，它有两个值：裤子和裙子，而不同裤子和裙子的值有成百上千个。
假设男性只穿裤子，女性只穿裙子。那么这样的标尺确定标签时不会出现错误，即预测误差 = 0%。我们可以认为，该样本对标签的影响、约束和预测是 100% 的。如果将来保持这样的条件，误差将不会改变，将 =- 0%。
在现代社会中，情况并非如此，因此会出现预测误差，误差的大小尚不可知，而且可能会因填写的信息不同而变化。
有很多方法都是以软件包的形式实现的，例如，在我们的例子中，对于女性对长裤和男性对裙子的喜爱程度，就会显示出芯片与标记的连接与 100% 的连接存在一定的差异。
图表很好地说明了这一点。
一个无用功能的例子：
相当有前途的芯片示例。交叉点是预测错误。在上一张图中，一个芯片与另一个芯片完全重叠--预测误差为 50%。
这是衡量第一张图中芯片之间的差异，还是第二张图中芯片之间的差异？估计值相差 2.5 倍。但数字是相对的。所有特征都是垃圾吗？
2 年前，我比较了评估https://www.mql5.com/ru/blogs/post/737458 重要性的方法。
模型本身就是一个样本。我对其进行了 N 次训练（根据特征的数量），去掉了其中一个特征。
去掉一个特征后，结果恶化得越厉害，这个特征就越重要。也有一些芯片去掉后结果有所改善，即它显然是噪声。
确定特征重要性的所有变体都与示例重要性不相似。 互信息和其他软件包恐怕也不一致。
最好不要使用与模型无关的方法和软件包来评估特征，而应使用模型本身。
近似来说，您说得很对--如果您的意思是通过模型的性能指标来评估模型，那么就应该有一个最终得分。
但是，有一个细微差别大于一切。
通过性能来评估模型是对历史数据的评估。但模型在未来会有怎样的表现呢？
如果我们评估的是特征本身，我们可以运行一个窗口，统计每个特征得分值的变化。而且，在我看来，最好使用那些重要度得分波动较小的特征，最好小于 10%。我的小说集在 500 小节时的 sd 波动从 10% 到 120%（根据记忆）。这意味着分数在 10%的范围内波动，即我们看到的数字就是它。但在 120% 的范围内，我们看到的重要性分数值就是小说。