交易中的机器学习:理论、模型、实践和算法交易 - 页 1276 1...126912701271127212731274127512761277127812791280128112821283...3399 新评论 Кеша Рутов 2019.01.27 15:52 #12751 马克西姆-德米特里耶夫斯基。所有的海狸都在建造同样的大坝,尽管它们并不知道这一点。 但每个人都顽固地认为自己发明了新东西。海狸是一种勤劳和正义的生物,完全是另一回事,学习型海狸 是一种卑鄙的生物,用扫帚把他从各处赶走,或者最好直接忽略他。 Maxim Dmitrievsky 2019.01.27 15:58 #12752 凯沙-鲁托夫。海狸是一种勤劳、正确的生物,完全是另一回事,骑士的学徒 是一种讨厌的生物,用扫帚从各处赶走他,或者最好不要理会他。 "罐子里的分析家" :) 洗碗机滚开 Forester 2019.01.27 16:20 #12753 阿列克谢-维亚兹米 金。关键是,即使所有的50%都被拿走了,那么进一步说,从这50%到第一根分叉处有一个明确的选择(或者在Alglib不是这样?)CatBoost不仅有预测因子的随机选择,而且在第一棵树上也有随机分割(权重是随机加入计算的)。 我得到了不同的结果,我的目标不是要估计整个模型,而是要得到叶子,这些叶子很有可能描述了大部分的样本。然后,这样的树叶在历史上逐年被检验,并对其进行构成,这可能无法描述整个市场,但我认为在大多数情况下,对你知道的东西有更准确的答案比以50%的概率猜测要好。 预测器,现在将在600的区域,所以完全的过度已经不现实了。 Alglib检查所有剩余的50%的预测器,将每个预测器按四分位数分成4部分,并在所有变体中选择误差最大的分部。原则上,随机分区并不难做到。 我没有看到个别的树木有很好的测试结果(45-50%),但一片森林更有趣)。 Forester 2019.01.27 16:27 #12754 就所考察的预测因素的重要性而言。 xgboost、lightGBM软件包有内置的方法来估计 "木材模型 "的特征重要性。 增长 这个衡量标准显示了每个特征对模型的相对贡献。 为了计算这个,我们通过每棵树,看树上的每个节点,哪个特征导致了节点分裂,根据衡量标准(吉尼杂质,信息增益),模型的不确定性减少了多少。 对于每个特征,其贡献在所有的树上相加。 覆盖 显示每个特征的观察值的数量。例如,你有4个特征,3棵树。假设fich 1在树节点1、2和3中分别有10、5和2个观测值。 那么这个fich的重要性将是17(10+5+2)。 頻率 显示一个给定的特征在树节点中的出现频率,即计算每棵树中每个特征的分裂树节点的总数。他们并没有真正正确地划分出重要性。 我有一个在5条上训练的森林,在测试中的结果比100条更好。但是,当按100人进行教学时,前5人并没有被标记为重要的,而是一些遥远的地方。 当训练量为100时,单个树木和森林的误差较低--显然是由于过度训练和重视30-100条。但很明显,按照通常的逻辑,它们并不重要,而是因为在5条的森林能得到更好的结果。 Forester 2019.01.27 16:35 #12755 顺便说一下,我不明白Cover和Frequency之间的区别是什么?更具体地说,什么是Cover中的特征观察?(我的理解是通过频率中的一个芯片来分解)。树木似乎是被特征分割的,而不是被观察的。 Forester 2019.01.27 17:18 #12756 阿列克谢-维亚兹米 金。有一个R脚本,用遗传算法 来创建一棵树,通过熵的提高来选择世代。然后是某种最终的选择。我把所有的树木进行最终选择,并从它们身上拔出叶子,在MT5中分别进行进一步测量。该剧本没有公开发布,所以也没有详细的描述。显然,这就像从森林中选择最好的树,但有一个深度限制,以避免过度训练,好在这个过程在所有核心的最后一个样本上需要约2天,其中不是所有的酒吧,但只有信号进入,如果3年的所有酒吧,那么计算需要1.5个月有。在计算之后,我对树进行了分割,也就是说,我删除了带有最佳群体树的根预测器的那一列,然后重新开始,看起来,即使在40个这样的程序中,有时也会产生非常好的叶子,所以我得出的结论是,最佳数学树并不总是最有效的,一种信息会干扰另一种信息,这种信息后来出现在同一个CatBoost中,当从所有样本中随机选择预测器来建立一个树。 在快速浏览了代码之后,我看到了从rpart包中构建树的遗传选择功能。因此,每棵树都被提出来学习它自己的一组特征。由于遗传学的原因,这样的特征集比完全的蛮力要快。 但这棵树并不神奇,它是rpart提供的。我想这是那里的标准。 Forester 2019.01.27 17:55 #12757 马克西姆-德米特里耶夫斯基。首先对所有特征进行模型训练,保存误差 然后,一个接一个地随机化每个预测因子,比方说用正态分布,并再次检查所有特征的误差,包括这个随机化的(改变了的)特征,将其与初始特征比较。没有必要 重新训练模型。于是检查每个预测因素。如果预测器是好的,那么整个样本(包括所有其他的原始预测器)的误差与原始的相比会急剧增加。保存错误差异,在此基础上筛选出最佳档案。然后,在最后,只对最好的进行训练,并将模型投入生产。坏的预测者是模型的噪音,不需要他们的1%。好的通常保持5-10个,其余的重要性呈指数级下降(Zipf定律)。 我试着教过过滤器,但不多,我觉得意义不大,最好是一次把所有东西都放到一个模型中去 如果可以的话,关于预测器的选择非常称职(前面已经抛出)。 找到了你关于包络的帖子。 这是一个有趣的变体。我必须要试一试。 虽然我担心,如果我把它应用于一个100条的模型,并试图删除95条而留下前5条,结果将是50%。毕竟,这前5名几乎没有参与拆分(平均只有5%的节点建立在他们身上)。 Maxim Dmitrievsky 2019.01.27 18:15 #12758 elibrarius。 找到了你关于包络的帖子。 有趣的变体。我必须试一试。 虽然我担心,如果我把它应用于100个条形模型,并试图删除95个条形而留下前5个,结果将是50%。毕竟,这前5名几乎没有参与拆分(平均只有5%的节点建立在他们身上)。我不知道你在用100条做什么,你也许应该适当地应用它,你会好起来的。 Forester 2019.01.27 20:39 #12759 马克西姆-德米特里耶夫斯基。我不知道你在用100条做什么,你可能需要适当地应用它,它就会发挥作用。我想把筛选出不重要的预测因子的过程自动化) Forester 2019.01.27 20:42 #12760 马克西姆-德米特里耶夫斯基。首先对所有特征进行模型训练,保存误差 然后,一个接一个地随机化每个预测因子,比方说通过正态分布,并再次检查所有特征的误差,包括这个随机化的(改变了的)特征,并与最初的特征进行比较。没有必要 重新训练模型。于是检查每个预测因素。如果预测器是好的,那么整个样本(包括所有其他的原始预测器)的误差与原始的相比会急剧增加。保存错误差异,在此基础上筛选出最佳档案。然后,在最后,只对最好的进行训练,并将模型投入生产。 坏的预测者是模型的噪音,不需要他们的1%。 好的通常保持5-10个,其余的重要性呈指数级下降(Zipf定律)。 我试着教过过滤器,但不多,我觉得意义不大,最好是一次把所有东西都放到一个模型中去 如果可以的话,关于预测器的选择非常称职(前面已经抛出)。我对这种方法的理解是不同的。 对于所研究的预测器,我们不应该用正态分布来送入随机值,而只是对这一列的行进行洗牌。 无论如何,文章的结果令人印象深刻。我应该在实践中试试。 1...126912701271127212731274127512761277127812791280128112821283...3399 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
所有的海狸都在建造同样的大坝,尽管它们并不知道这一点。
但每个人都顽固地认为自己发明了新东西。
海狸是一种勤劳和正义的生物,完全是另一回事,学习型海狸 是一种卑鄙的生物,用扫帚把他从各处赶走,或者最好直接忽略他。
海狸是一种勤劳、正确的生物,完全是另一回事,骑士的学徒 是一种讨厌的生物,用扫帚从各处赶走他,或者最好不要理会他。
"罐子里的分析家" :) 洗碗机滚开
关键是,即使所有的50%都被拿走了,那么进一步说,从这50%到第一根分叉处有一个明确的选择(或者在Alglib不是这样?)CatBoost不仅有预测因子的随机选择,而且在第一棵树上也有随机分割(权重是随机加入计算的)。
我得到了不同的结果,我的目标不是要估计整个模型,而是要得到叶子,这些叶子很有可能描述了大部分的样本。然后,这样的树叶在历史上逐年被检验,并对其进行构成,这可能无法描述整个市场,但我认为在大多数情况下,对你知道的东西有更准确的答案比以50%的概率猜测要好。
预测器,现在将在600的区域,所以完全的过度已经不现实了。
原则上,随机分区并不难做到。
我没有看到个别的树木有很好的测试结果(45-50%),但一片森林更有趣)。
xgboost、lightGBM软件包有内置的方法来估计 "木材模型 "的特征重要性。
这个衡量标准显示了每个特征对模型的相对贡献。 为了计算这个,我们通过每棵树,看树上的每个节点,哪个特征导致了节点分裂,根据衡量标准(吉尼杂质,信息增益),模型的不确定性减少了多少。
对于每个特征,其贡献在所有的树上相加。
显示每个特征的观察值的数量。例如,你有4个特征,3棵树。假设fich 1在树节点1、2和3中分别有10、5和2个观测值。 那么这个fich的重要性将是17(10+5+2)。
显示一个给定的特征在树节点中的出现频率,即计算每棵树中每个特征的分裂树节点的总数。
我有一个在5条上训练的森林,在测试中的结果比100条更好。但是,当按100人进行教学时,前5人并没有被标记为重要的,而是一些遥远的地方。
当训练量为100时,单个树木和森林的误差较低--显然是由于过度训练和重视30-100条。但很明显,按照通常的逻辑,它们并不重要,而是因为在5条的森林能得到更好的结果。
有一个R脚本,用遗传算法 来创建一棵树,通过熵的提高来选择世代。然后是某种最终的选择。我把所有的树木进行最终选择,并从它们身上拔出叶子,在MT5中分别进行进一步测量。该剧本没有公开发布,所以也没有详细的描述。显然,这就像从森林中选择最好的树,但有一个深度限制,以避免过度训练,好在这个过程在所有核心的最后一个样本上需要约2天,其中不是所有的酒吧,但只有信号进入,如果3年的所有酒吧,那么计算需要1.5个月有。在计算之后,我对树进行了分割,也就是说,我删除了带有最佳群体树的根预测器的那一列,然后重新开始,看起来,即使在40个这样的程序中,有时也会产生非常好的叶子,所以我得出的结论是,最佳数学树并不总是最有效的,一种信息会干扰另一种信息,这种信息后来出现在同一个CatBoost中,当从所有样本中随机选择预测器来建立一个树。
但这棵树并不神奇,它是rpart提供的。我想这是那里的标准。
首先对所有特征进行模型训练,保存误差
然后,一个接一个地随机化每个预测因子,比方说用正态分布,并再次检查所有特征的误差,包括这个随机化的(改变了的)特征,将其与初始特征比较。没有必要 重新训练模型。于是检查每个预测因素。如果预测器是好的,那么整个样本(包括所有其他的原始预测器)的误差与原始的相比会急剧增加。保存错误差异,在此基础上筛选出最佳档案。然后,在最后,只对最好的进行训练,并将模型投入生产。坏的预测者是模型的噪音,不需要他们的1%。好的通常保持5-10个,其余的重要性呈指数级下降(Zipf定律)。
我试着教过过滤器,但不多,我觉得意义不大,最好是一次把所有东西都放到一个模型中去
如果可以的话,关于预测器的选择非常称职(前面已经抛出)。
这是一个有趣的变体。我必须要试一试。
虽然我担心,如果我把它应用于一个100条的模型,并试图删除95条而留下前5条,结果将是50%。毕竟,这前5名几乎没有参与拆分(平均只有5%的节点建立在他们身上)。
找到了你关于包络的帖子。
有趣的变体。我必须试一试。
虽然我担心,如果我把它应用于100个条形模型,并试图删除95个条形而留下前5个,结果将是50%。毕竟,这前5名几乎没有参与拆分(平均只有5%的节点建立在他们身上)。
我不知道你在用100条做什么,你也许应该适当地应用它,你会好起来的。
我不知道你在用100条做什么,你可能需要适当地应用它,它就会发挥作用。
我想把筛选出不重要的预测因子的过程自动化)
首先对所有特征进行模型训练,保存误差
然后,一个接一个地随机化每个预测因子,比方说通过正态分布,并再次检查所有特征的误差,包括这个随机化的(改变了的)特征,并与最初的特征进行比较。没有必要 重新训练模型。于是检查每个预测因素。如果预测器是好的,那么整个样本(包括所有其他的原始预测器)的误差与原始的相比会急剧增加。保存错误差异,在此基础上筛选出最佳档案。然后,在最后,只对最好的进行训练,并将模型投入生产。 坏的预测者是模型的噪音,不需要他们的1%。 好的通常保持5-10个,其余的重要性呈指数级下降(Zipf定律)。
我试着教过过滤器,但不多,我觉得意义不大,最好是一次把所有东西都放到一个模型中去
如果可以的话,关于预测器的选择非常称职(前面已经抛出)。
我对这种方法的理解是不同的。
无论如何,文章的结果令人印象深刻。我应该在实践中试试。对于所研究的预测器,我们不应该用正态分布来送入随机值,而只是对这一列的行进行洗牌。