交易中的机器学习:理论、模型、实践和算法交易 - 页 1203 1...119611971198119912001201120212031204120512061207120812091210...3399 新评论 [删除] 2018.12.12 18:27 #12021 阿列克谢-维亚兹米 金。谢谢你。用与样本中的预测因子相同的值进行随机化,对吗? 总的来说,方法很明确,谢谢你,我需要考虑如何实施和尝试。 唉,我无法掌握它,所以我想听听你在这个场合下的复述。不,要完全随机化,即完全清除预测值,把白噪声塞进去然后当你去检查下一个时,再把原始值塞回去。 大致说来,把白噪声塞进每个预测器的位置,一次一个。这可能更容易理解。 一个重要的条件是:预测因子不应该有关联,否则你会得到胡言乱语的错误。为此,我首先通过PCA进行转换,但也可以做一个相关矩阵,并删除所有强相关的。还有另一种机制,但它很复杂 Aleksey Vyazmikin 2018.12.12 18:30 #12022 马克西姆-德米特里耶夫斯基。不,完全按左旋随机化,即完全清除预测值,把白噪声塞进去 然后,当你去检查下一次时,再把原来的值推回去。如果只是噪音,那么我们将完全打破分裂,例如,有一个带有 "超过100 "规则的分裂,但我们将添加从0到99的随机数,那么进一步的分裂将不再活跃。 这可能是重要的,看看如果列表中的一个规则退出,进一步的分裂将如何运作... Aleksey Vyazmikin 2018.12.12 18:33 #12023 马克西姆-德米特里耶夫斯基。 一个重要的条件:预测器不应该有关联,否则你会得到胡言乱语的错误......为此,我首先通过PCA进行转换,但也可以做一个相关矩阵,并删除所有强相关的。还有另一种机制,但它很复杂什么样的关联性是可以接受的?毕竟,好的预测器应该与目标相关,这意味着它们在某种程度上会相互关联...... [删除] 2018.12.12 18:34 #12024 Aleksey Vyazmikin: 如果它只是噪音,那么我们就会完全打破分裂,例如有一个分裂的规则是 "超过100",我们会放一个从0到99的随机,那么进一步的分裂就不会再活跃了,当其中一个表的规则落空时,进一步的分裂可能很重要...因此,错误会下降很多,一切都会好起来,重要性很 低。不要搞什么模型,你怎么知道树是怎么分的,每个人都是不同的,有不同数量的特征。他们总是看起来像医院的平均水平。 [删除] 2018.12.12 18:35 #12025 阿列克谢-维亚兹米 金。什么样的关联性是可以接受的?毕竟,好的预测器必须与目标相关,这意味着它们在某种程度上会相互关联......。这对于只有一个预测因子的线性回归 来说是异端,在非线性模型中,没有任何东西必须与目标相关,特别是如果它是一个分类。 我不知道哪一个是可以接受的,这很难......或者是实验性的。当然,在这个意义上,使用PCA更容易。 Aleksey Vyazmikin 2018.12.12 18:43 #12026 马克西姆-德米特里耶夫斯基。因此,错误将急剧下降,一切都会好起来,进口量很低。不要搞什么模型,你怎么知道树是怎么分的,而且每个人的特征数量都不一样。你总是看医院的平均水平。然后你可以直接将该值置空或用任何其他值替换它--同样的随机性,但对我来说似乎并不符合逻辑......总之,如果我能实现它,我将尝试两种变体。 马克西姆-德米特里耶夫斯基。这是线性回归 的异端,在非线性模型中,没有什么东西应该与目标相关。 如果与目标有关联,那么预测者就不好,这是什么说法? [删除] 2018.12.12 18:48 #12027 Aleksey Vyazmikin: 那么你可以直接将该值置空或用任何其他值替换它--同样的随机性,但在我看来这并不符合逻辑......总之,如果我可以实施,我将尝试两种方案。那么,有什么理由说如果与目标有关联,那么预测者就不好呢?我不在乎你怎么做,主要是重新排列组合,在我看来,这更像是一件小事。 我说的不是一个,而是当有很多个,而且进口产品 大致相同的时候,因为它们之间的关联性很强。事实证明,在重排过程中去掉一个强势 特征,模型误差不会下降,因为会有类似的特征具有相同的重要性,而强势特征都不会被识别。这就是为什么你应该一次性随机化所有相关的特征(这更难实现),或者注意不要强相关的东西 Aleksey Vyazmikin 2018.12.12 18:53 #12028 马克西姆-德米特里耶夫斯基。随你怎么做,主要是重新安排芯片的原则,我认为更可能是小事一桩 我说的不是一个,而是当有很多,而且重要性大致相同的时候,因为相关性很强。所以,在重排中去掉一个强势 特征并不会使模型误差减少,因为会有重要性相同的类似特征,而强势特征都不会被识别。模型应该这样建立预测器来建立对称树--在我看来,不重新训练是不可能的,所以在创建模型时没有意义。 那么,什么样的关联性是可以接受的? [删除] 2018.12.12 18:56 #12029 Aleksey Vyazmikin: 还是要靠模型来让预测器建立对称树--因为如果不重新学习,在我看来是不太可能的,因为在创建模型的时候是没有意义的。在森林的情况下,它工作得很好,在catbust的情况下,你必须阅读,我不记得它是如何工作的。也许它本身有一个好的进口,因为模型本身的结构我不知道什么是可以接受的,设置一个门槛,看看。+-模型中几乎没有变化。提升的方式与射频不一样,也许从一开始就有明确的重要性。 或者如果你确定这些特征是异质的,不相关的,那么就不要尝试这个步骤。这些都是很重要的事情,特别是如果你有很多特征,需要从模型中剔除噪音,但也不至于让你担心每一个百分比的相关性,我认为。在-0.5;0.5的范围内可能是正常的。 我以后会自己做一个这样的变体,并检查一下。 Aleksey Vyazmikin 2018.12.12 19:32 #12030 马克西姆-德米特里耶夫斯基。在森林的情况下效果很好,在catbust的情况下,你必须阅读,我不记得它是如何工作的。也许它本身具有良好的进口,因为模型本身的结构我不知道什么是可以接受的,设置一个门槛,看看。+-模型中几乎没有变化。提升的方式与射频不一样,也许从一开始就有明确的重要性。 或者如果你确定这些特征是异质的,不相关的,那么就不要尝试这个步骤。这些都是很重要的事情,特别是如果你有很多特征,需要减少杂乱无章的东西,但不至于让你担心每一个百分比的相关性,我认为。在-0.5;0.5的范围内可能是正常的。 我以后会自己做一个这样的变体,看一看。我明白了,我得试试。我只是想看看相关模型的叶子,也许还有catbust模型。 我知道模型配对是可能的--简单的搜索已经表明了这一点,但我应该合理地做每一件事,检测到相关将允许减少模型配对的迭代次数。 1...119611971198119912001201120212031204120512061207120812091210...3399 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
谢谢你。用与样本中的预测因子相同的值进行随机化,对吗?
总的来说,方法很明确,谢谢你,我需要考虑如何实施和尝试。
唉,我无法掌握它,所以我想听听你在这个场合下的复述。
不,要完全随机化,即完全清除预测值,把白噪声塞进去
然后当你去检查下一个时,再把原始值塞回去。
大致说来,把白噪声塞进每个预测器的位置,一次一个。这可能更容易理解。
一个重要的条件是:预测因子不应该有关联,否则你会得到胡言乱语的错误。为此,我首先通过PCA进行转换,但也可以做一个相关矩阵,并删除所有强相关的。还有另一种机制,但它很复杂不,完全按左旋随机化,即完全清除预测值,把白噪声塞进去
然后,当你去检查下一次时,再把原来的值推回去。如果只是噪音,那么我们将完全打破分裂,例如,有一个带有 "超过100 "规则的分裂,但我们将添加从0到99的随机数,那么进一步的分裂将不再活跃。 这可能是重要的,看看如果列表中的一个规则退出,进一步的分裂将如何运作...
一个重要的条件:预测器不应该有关联,否则你会得到胡言乱语的错误......为此,我首先通过PCA进行转换,但也可以做一个相关矩阵,并删除所有强相关的。还有另一种机制,但它很复杂什么样的关联性是可以接受的?毕竟,好的预测器应该与目标相关,这意味着它们在某种程度上会相互关联......
如果它只是噪音,那么我们就会完全打破分裂,例如有一个分裂的规则是 "超过100",我们会放一个从0到99的随机,那么进一步的分裂就不会再活跃了,当其中一个表的规则落空时,进一步的分裂可能很重要...
因此,错误会下降很多,一切都会好起来,重要性很 低。不要搞什么模型,你怎么知道树是怎么分的,每个人都是不同的,有不同数量的特征。他们总是看起来像医院的平均水平。
什么样的关联性是可以接受的?毕竟,好的预测器必须与目标相关,这意味着它们在某种程度上会相互关联......。
这对于只有一个预测因子的线性回归 来说是异端,在非线性模型中,没有任何东西必须与目标相关,特别是如果它是一个分类。
我不知道哪一个是可以接受的,这很难......或者是实验性的。当然,在这个意义上,使用PCA更容易。因此,错误将急剧下降,一切都会好起来,进口量很低。不要搞什么模型,你怎么知道树是怎么分的,而且每个人的特征数量都不一样。你总是看医院的平均水平。
然后你可以直接将该值置空或用任何其他值替换它--同样的随机性,但对我来说似乎并不符合逻辑......总之,如果我能实现它,我将尝试两种变体。
这是线性回归 的异端,在非线性模型中,没有什么东西应该与目标相关。
如果与目标有关联,那么预测者就不好,这是什么说法?
那么你可以直接将该值置空或用任何其他值替换它--同样的随机性,但在我看来这并不符合逻辑......总之,如果我可以实施,我将尝试两种方案。
那么,有什么理由说如果与目标有关联,那么预测者就不好呢?
我不在乎你怎么做,主要是重新排列组合,在我看来,这更像是一件小事。
我说的不是一个,而是当有很多个,而且进口产品 大致相同的时候,因为它们之间的关联性很强。事实证明,在重排过程中去掉一个强势 特征,模型误差不会下降,因为会有类似的特征具有相同的重要性,而强势特征都不会被识别。这就是为什么你应该一次性随机化所有相关的特征(这更难实现),或者注意不要强相关的东西
随你怎么做,主要是重新安排芯片的原则,我认为更可能是小事一桩
我说的不是一个,而是当有很多,而且重要性大致相同的时候,因为相关性很强。所以,在重排中去掉一个强势 特征并不会使模型误差减少,因为会有重要性相同的类似特征,而强势特征都不会被识别。
模型应该这样建立预测器来建立对称树--在我看来,不重新训练是不可能的,所以在创建模型时没有意义。
那么,什么样的关联性是可以接受的?还是要靠模型来让预测器建立对称树--因为如果不重新学习,在我看来是不太可能的,因为在创建模型的时候是没有意义的。
在森林的情况下,它工作得很好,在catbust的情况下,你必须阅读,我不记得它是如何工作的。也许它本身有一个好的进口,因为模型本身的结构
我不知道什么是可以接受的,设置一个门槛,看看。+-模型中几乎没有变化。提升的方式与射频不一样,也许从一开始就有明确的重要性。
或者如果你确定这些特征是异质的,不相关的,那么就不要尝试这个步骤。
这些都是很重要的事情,特别是如果你有很多特征,需要从模型中剔除噪音,但也不至于让你担心每一个百分比的相关性,我认为。在-0.5;0.5的范围内可能是正常的。
我以后会自己做一个这样的变体,并检查一下。
在森林的情况下效果很好,在catbust的情况下,你必须阅读,我不记得它是如何工作的。也许它本身具有良好的进口,因为模型本身的结构
我不知道什么是可以接受的,设置一个门槛,看看。+-模型中几乎没有变化。提升的方式与射频不一样,也许从一开始就有明确的重要性。
或者如果你确定这些特征是异质的,不相关的,那么就不要尝试这个步骤。
这些都是很重要的事情,特别是如果你有很多特征,需要减少杂乱无章的东西,但不至于让你担心每一个百分比的相关性,我认为。在-0.5;0.5的范围内可能是正常的。
我以后会自己做一个这样的变体,看一看。
我明白了,我得试试。我只是想看看相关模型的叶子,也许还有catbust模型。 我知道模型配对是可能的--简单的搜索已经表明了这一点,但我应该合理地做每一件事,检测到相关将允许减少模型配对的迭代次数。