交易中的机器学习:理论、模型、实践和算法交易 - 页 87 1...808182838485868788899091929394...3399 新评论 Alexey Burnakov 2016.08.03 16:41 #861 桑桑尼茨-弗门科。所有软件包(模型)可分为两类。基本良好原则上不适合。那些 "基本良好 "的软件包的性能大致相同,差异并不明显。问题不是出在模型上,而是出在预测器的集合和它们的预处理上。如果我们采取一些预测器的集合,建立一个不过度训练的模型的可能性,以及误差的大小对模型的变化没有什么影响。因此,人们应该从那些 "原则上适合 "的模型中选择最简单、最快的模型。PS。从我自己的经验来看。在我看来,在构建TS的过程中,超过75%的劳动投入是对预测器的选择,如果能设法为一个特定的目标变量挑选出这样一套预测器。桑桑尼奇,你好。而如果通过你的方法,对于3个不相交的数据区间,我们得到不同的预测值,那么它们是非平稳的(噪声等),我们应该遵循吗? mytarmailS 2016.08.03 17:00 #862 桑桑尼茨-弗门科。所有软件包(模型)可分为两类。基本良好原则上不适合。那些 "基本良好 "的软件包的性能大致相同,差异并不明显。问题不是出在模型上,而是出在预测器的集合和它们的预处理上。如果我们采取一些预测器的集合,建立一个不过度训练的模型的可能性,以及误差的大小对模型的变化没有什么影响。因此,人们应该从那些 "原则上适合 "的模型中选择最简单、最快的模型。PS。从我自己的经验来看。在构建TC的过程中,超过75%的劳动投入是对预测因子的选择,如果有可能为一个特定的目标变量选择这样一套预测因子的话。什么模型,你在说什么......。这就像一个人问"现在是什么时候?" 而答案是"你想让我跳什么?":)千万不要,请不要再这样做了,写10行文字比读两行问题更容易。 mytarmailS 2016.08.03 19:07 #863 mytarmailS:也许有人会感兴趣,我发现了一个可以模拟交易和建立交易系统的软件包,叫做quantstrathttp://www.rinfinance.com/agenda/2013/workshop/Humme+Peterson.pdf 转帖 СанСаныч Фоменко 2016.08.03 19:36 #864 阿列克谢-伯纳科夫。桑桑尼奇,你好。但是,如果按照你的方法,我们在3个不相交的训练数据段上得到了不同的预测因子的意义,那么它们就是非平稳的(噪声等),我们应该遵循吗? 预测因子的重要性只获得一次--当模型被训练时。那么这个模型是可应用的,而不是可训练的。 Alexey Burnakov 2016.08.03 19:36 #865 桑桑尼茨-弗门科。 预测器的相关性只获得一次--当模型被训练时。那么这个模式是可应用的,而不是教的。 我记得,你在那里要教好几遍? СанСаныч Фоменко 2016.08.03 19:48 #866 阿列克谢-伯纳科夫: 你要教好几遍,我记得?不可能!再一次。1.我们取一大块时间序列预测因子,例如10 000个观测值(线)。2.我们把它分成两部分,严格按照机械方式:第一部分7000,第二部分3000。3.我们将第一部分随机分为三部分:用于训练、测试和验证4.我们在训练样本上教授(适合-适合)模型。5.将训练好的模型应用于测试和验证样本。6.如果在所有三个样本上--训练、测试和验证--误差大致相等,那么第7条。7.在第二部分上应用该模型,它的时间序列是一个不间断的时间序列。8.如果这一部分的误差也与前三部分大致相等,那么。这组预测器不会导致模型的重新训练是所有四组数据(三组随机数据和一组顺序数据)的误差,是一个很难通过模型拟合减少的误差。我的模型错误表现如下:ada、randomforest、SVM和它们的许多品种。联网的情况要糟糕得多。 Alexey Burnakov 2016.08.03 20:19 #867 桑桑尼茨-弗门科。不可能!再一次。1.取一大块时间序列预测因子,例如10,000个观测值(线)。2.我们把它分成两部分,严格按照机械方式:第一部分7000,第二部分3000。3.我们将第一部分随机分为三部分:用于训练、测试和验证4.我们在训练样本上教授(适合-适合)模型。5.将训练好的模型应用于测试和验证样本。6.如果在所有三个样本上--训练、测试和验证--误差大致相等,那么第7条。7.在第二部分上应用该模型,它的时间序列是一个不间断的时间序列。8.如果这一部分的误差也与前三部分大致相等,那么。这组预测器不会导致模型的重新训练是所有四组数据(三组随机数据和一组顺序数据)的误差,是一个很难通过模型拟合减少的误差。我的模型错误表现如下:ada、randomforest、SVM和它们的许多品种。联网的情况要糟糕得多。 给你。谢谢你。我在训练上的效果比在其他样本上好得多。而在交叉验证上,结果更接近于最终的出样。我认为你关于所有样本的误差相等的论述说明了欠拟合模型。也就是说,在任何地方都是一样的。 СанСаныч Фоменко 2016.08.03 20:25 #868 阿列克谢-伯纳科夫。....,也就是说,各地的情况都一样,都很一般。马马虎虎只是缺乏大脑和时间。你必须从目标变量开始,然后为它选择预测器,然后用数学进行双重检查,或者这样。总之,这个过程很缓慢,我无法将其正式化。 Alexey Burnakov 2016.08.03 21:36 #869 桑桑尼茨-弗门科。一般般--只是没有足够的大脑和时间。你必须从目标变量开始,然后你必须用预测器来匹配它,然后用数学来反复检查它们,可以这么说。无论如何,这个过程对我来说是痛苦的,也是不能形式化的。 特别是在意义上,它是折磨人的。我不是这个意思。如果你在任何地方都同样出色,那就是一种成就。但更多的时候,它将是同样糟糕的,这是一个薄弱的模型允许你实现的。 mytarmailS 2016.08.03 23:32 #870 该主题似乎是死的.... 1...808182838485868788899091929394...3399 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
所有软件包(模型)可分为两类。
那些 "基本良好 "的软件包的性能大致相同,差异并不明显。
问题不是出在模型上,而是出在预测器的集合和它们的预处理上。如果我们采取一些预测器的集合,建立一个不过度训练的模型的可能性,以及误差的大小对模型的变化没有什么影响。因此,人们应该从那些 "原则上适合 "的模型中选择最简单、最快的模型。
PS。
从我自己的经验来看。在我看来,在构建TS的过程中,超过75%的劳动投入是对预测器的选择,如果能设法为一个特定的目标变量挑选出这样一套预测器。
桑桑尼奇,你好。
而如果通过你的方法,对于3个不相交的数据区间,我们得到不同的预测值,那么它们是非平稳的(噪声等),我们应该遵循吗?
所有软件包(模型)可分为两类。
那些 "基本良好 "的软件包的性能大致相同,差异并不明显。
问题不是出在模型上,而是出在预测器的集合和它们的预处理上。如果我们采取一些预测器的集合,建立一个不过度训练的模型的可能性,以及误差的大小对模型的变化没有什么影响。因此,人们应该从那些 "原则上适合 "的模型中选择最简单、最快的模型。
PS。
从我自己的经验来看。在构建TC的过程中,超过75%的劳动投入是对预测因子的选择,如果有可能为一个特定的目标变量选择这样一套预测因子的话。
什么模型,你在说什么......。这就像一个人问"现在是什么时候?" 而答案是"你想让我跳什么?":)
千万不要,请不要再这样做了,写10行文字比读两行问题更容易。
也许有人会感兴趣,我发现了一个可以模拟交易和建立交易系统的软件包,叫做quantstrat
http://www.rinfinance.com/agenda/2013/workshop/Humme+Peterson.pdf
桑桑尼奇,你好。
但是,如果按照你的方法,我们在3个不相交的训练数据段上得到了不同的预测因子的意义,那么它们就是非平稳的(噪声等),我们应该遵循吗?
预测器的相关性只获得一次--当模型被训练时。那么这个模式是可应用的,而不是教的。
你要教好几遍,我记得?
不可能!
再一次。
1.我们取一大块时间序列预测因子,例如10 000个观测值(线)。
2.我们把它分成两部分,严格按照机械方式:第一部分7000,第二部分3000。
3.我们将第一部分随机分为三部分:用于训练、测试和验证
4.我们在训练样本上教授(适合-适合)模型。
5.将训练好的模型应用于测试和验证样本。
6.如果在所有三个样本上--训练、测试和验证--误差大致相等,那么第7条。
7.在第二部分上应用该模型,它的时间序列是一个不间断的时间序列。
8.如果这一部分的误差也与前三部分大致相等,那么。
不可能!
再一次。
1.取一大块时间序列预测因子,例如10,000个观测值(线)。
2.我们把它分成两部分,严格按照机械方式:第一部分7000,第二部分3000。
3.我们将第一部分随机分为三部分:用于训练、测试和验证
4.我们在训练样本上教授(适合-适合)模型。
5.将训练好的模型应用于测试和验证样本。
6.如果在所有三个样本上--训练、测试和验证--误差大致相等,那么第7条。
7.在第二部分上应用该模型,它的时间序列是一个不间断的时间序列。
8.如果这一部分的误差也与前三部分大致相等,那么。
马马虎虎只是缺乏大脑和时间。
你必须从目标变量开始,然后为它选择预测器,然后用数学进行双重检查,或者这样。总之,这个过程很缓慢,我无法将其正式化。
一般般--只是没有足够的大脑和时间。
你必须从目标变量开始,然后你必须用预测器来匹配它,然后用数学来反复检查它们,可以这么说。无论如何,这个过程对我来说是痛苦的,也是不能形式化的。