交易中的机器学习:理论、模型、实践和算法交易 - 页 897 1...890891892893894895896897898899900901902903904...3399 新评论 Maxim Dmitrievsky 2018.05.11 11:35 #8961 阿列克谢-维亚兹米 金。评估OOB(出包)的情况 Aleksey Vyazmikin 2018.05.11 12:14 #8962 马克西姆-德米特里耶夫斯基。OOB(出包)估计我在这里读到过这种方法https://habr.com/company/ods/blog/324402/,但我看不出估算会如何影响在被改变的数据中寻找模式。也许我说得不对,但这里有一个简单的例子,在一个样本中,我们有,比方说,一个这样的模式 " 1+2=3 ... 1+2=3,5 ... 1+2=3,8 ... 1+2=3,5 ... 1+2=3 " "..."- 不是一个明确的时间段,过了这个时间段,规则就会改变。即使在理想情况下,有一个规则变化的模式。他们怎么能找到这种规律性,说一个规则在n个样本行中会被改变,然后n*x个规则会恢复到原来的状态?而如果规则变化的性质不仅仅是一个时间间隔,而是其数据在样本中的其他情况的影响,但其影响的规律性只能通过事件的顺序(即通过每行有数据的提交顺序)来估计呢?森林是通过不同的方法来拉动大块的,怎么能不仅看到横向(预测者的集合)的规律性,而且看到纵向(预测者相对于过去n的变化)? Maxim Dmitrievsky 2018.05.11 12:29 #8963 阿列克谢-维亚兹米 金。我晚上再回答......突然想吃披萨和金发女郎了 Aleksey Vyazmikin 2018.05.11 12:42 #8964 马克西姆-德米特里耶夫斯基。我今晚晚些时候再回答......我突然想吃披萨和金发女郎了。春天--可能解释了突然性:) 我将等待答案,谢谢你花时间问我可能很愚蠢的问题。 Maxim Dmitrievsky 2018.05.11 13:05 #8965 阿列克谢-维亚兹米 金。春天--可能解释了突然性 :) 我期待着你的答复,感谢你花时间问我可能很傻的问题。相反,很好的逻辑问题,我最近也问过他们。 Maxim Dmitrievsky 2018.05.11 14:46 #8966 阿列克谢-维亚兹米 金。"..."- 不是一个明确的时间段,过了这个时间段,规则就会改变。即使在理想情况下,有一个规则变化的模式。脚手架如何找到这个规律性,说一个规则将在n个样本行中被改变,然后在n*x个行中,规则将返回到它的初始状态?而如果规则变化的性质不仅仅是一个时间间隔,而是数据在样本中的其他情况的影响,但其影响的规律性只能通过事件的顺序(即通过每行数据的归档顺序)来估计呢?森林使用不同的方法拉动大块,如何才能不仅看到横向(预测者集合)的模式,而且看到纵向(预测者相对于过去n的变化)?嗯,不完全是模式的改变。更像是一个较粗的近似值。如果样本足够大,例如,在随机子集上训练脚手架,从中抽出大块,是的,在oob(剩余的大块)上验证模型,并比较误差。如果误差+-相同,那么脚手架就没有被过度训练,所以在未来有更高的概率做出正确预测。如果对oob的误差不满意,我们可以玩一下设置,例如减少训练子集(给模型添加更多的噪音),增加验证子集。这样做,模型对训练样本的近似度已经变差,误差会更大,但在新的数据上,有可能得到完全相同的误差,也就是说,模型在两个子样本上都会稳定。而且,由于子样本本身是随机选择的,训练子样本中大量的未知因素都被覆盖了。显然,这不是万能的,但与仅仅是树木相比,它给了工作更多的灵活性。NS合奏的情况也是如此。 Aleksey Vyazmikin 2018.05.11 15:32 #8967 马克西姆-德米特里耶夫斯基。嗯,不完全是模式的改变。更像是一个较粗的近似值。比如说,如果样本足够大,那么就在随机子集上训练支架,从中抽出一些块,是的,在oob(剩余的块)上验证模型,并比较误差。如果误差+-相同,那么脚手架就没有被过度训练,所以在未来有更高的概率做出正确预测。如果对oob的误差不满意,我们可以玩一下设置,例如减少训练子集(给模型添加更多的噪音),增加验证子集。这样做,模型对训练样本的近似度已经变差,误差会更大,但在新的数据上,有可能得到完全相同的误差,也就是说,模型在两个子样本上都会稳定。而且,由于子样本本身是随机选择的,训练子样本中大量的未知因素都被覆盖了。显然,这不是万能的,但与简单的树相比,它给了工作更多的灵活性。NS合奏也是如此。好吧,大致上我是这么想的,如果最初,它只是简单地检查规则,在每个条件独立的树的样本上,由于交叉错误被买下,过度训练,但以同样的方式切出所有的时间规律性,其因果关系无法建立(而且只有在偶然的情况下才有可能建立这种因果关系,如果树用那个样本检查其结果,其中规律性被保留了)。 而如果我们把样本切开,在较小的块上进行训练(比方说把一年切成12个月,取2-3年),然后在树的情况下,收集每棵树上所有权重较大的规则,并与24个样本相匹配(如果一个规则对少于x%的样本有效,就把它扔掉),我们能不看到不同的规则会对不同时期有效?然后我们可以做出周期性的假设,由于时间的关系(财务报告),金融市场一定是这样的。 例如很多人写到相关性分析是估计预测因子的初步方法,但是当我看了这个表后,我不能理解,相关性很小,但是树建立后给这个元素的价值更大。为什么会发生这种情况? 如果我们拿一个名为 "arr_TimeH "的预测器来思考,很明显,我们可以预期市场在不同的时间有不同的行为,例如在上午10点交易所开盘时,会有一个强烈的运动,因为从没有交易的时刻开始处理信息(积累的事件),而在其他时间,情况可能不同,同样的计划新闻可能被发布,之后很可能出现强烈的市场运动,另一方面,有一个晚上的会议,运动经常与前一天相比发生变化,可能幅度较小,所以时间明显受到影响。这就是为什么我认为应该使用MO方法进行交易,而不是相信已经建立的传统,包括预处理数据。 P.S.我在Photoshop中绘制了表格,随意勾选,以显示颜色,当我看到勾选框的颜色与意义标尺的颜色重合时,我感到很震惊--上升到了音调!这就是为什么我的工作会如此重要。这怎么可能呢?事实证明,我无意识地注意了它,它影响了我的选择。 也许人们的交易直觉也是如此,也就是说,他们使用了一个他们没有意识到的系统。 Ivan Negreshniy 2018.05.12 05:06 #8968 阿列克谢-维亚兹米 金。例如,很多人写到相关分析是评估预测因素的初步方法,但当我看表时,我无法理解,相关度很小,但树在构建后赋予这个元素更多的意义。为什么会发生这种情况? 也许根据你的时间预测器的组合(月、周、日、小时......),这棵树只是到了某个买入/卖出栏。 这就像记住大棒的时间,并利用它们在历史上进行交易获利,尽管这种属性与价格运动的相关性将几乎为零。 Aleksey Vyazmikin 2018.05.12 12:51 #8969 伊万-内格雷什尼。也许通过你的时间预测器的组合(月、周、日、小时......),树只是到一个特定的买/卖栏。 这就像记住时间条并利用它们进行历史交易,尽管这种属性与价格运动的相关性几乎为零。也许,确实如此,但只有两个预测因素--星期和小时,也就是说,我们可以得到5*14=70个具有这种属性的组,而样本包含403933条线,即5770条线落入这个组,另一方面,目标33000条线,即471条目标线落入每个组。而如果我们也考虑到还有其他的预测因素,我们就已经有很多组了。这就像把苹果切成片,在片上做标记,并记录那些比其他特征更多的片子,但因为有这么多片子,所以会有只有一个特征的片子。那么问题来了,对于一个给定的样本量,应该有多少个预测因子?苹果片应该有多大? 那么在这几天和几个小时里,本身就有一个模式,它受时间因素的影响--交易时段 的开幕,交易时段的周期,新闻(经济/统计,大多在一周的同一时间和一天发布)。 Ilnur Khasanov 2018.05.12 15:55 #8970 阿列克谢-维亚兹米 金。这可能是,但只有两个预测因素--星期和小时,所以我们可以通过这个标准得到5*14=70个组,而样本有403933条线,所以组得到5770条线,另一方面,目标33000,所以我们每组得到471条目标线。而如果我们也考虑到还有其他的预测因素,我们将已经有了很多组。这就像把苹果切成片,在片上做标记,并记录那些比其他特征更多的片子,但因为有这么多片子,所以会有只有一个特征的片子。那么问题来了,对于一个给定的样本量,应该有多少个预测因子?苹果片应该有多大? 但它本身是有规律的,而且受到时间因素的影响--交易时段的 开盘,交易时段的周期,新闻(经济/统计,大多在一周的同一时间和一天发布)。 马克西姆-德米特里夫斯基,你如何解决这个问题?一般来说,有哪些选择?苹果的碎片可能是不同的。 为合奏中的每个ns添加一些上下文,并在一些控制ns中使用这些上下文? 我所说的背景是指,例如,与一些基本的定义、概念、预测器和加上一些数据的链接... 1...890891892893894895896897898899900901902903904...3399 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
评估OOB(出包)的情况
OOB(出包)估计
我在这里读到过这种方法https://habr.com/company/ods/blog/324402/,但我看不出估算会如何影响在被改变的数据中寻找模式。也许我说得不对,但这里有一个简单的例子,在一个样本中,我们有,比方说,一个这样的模式
"
1+2=3
...
1+2=3,5
...
1+2=3,8
...
1+2=3,5
...
1+2=3
"
"..."- 不是一个明确的时间段,过了这个时间段,规则就会改变。即使在理想情况下,有一个规则变化的模式。他们怎么能找到这种规律性,说一个规则在n个样本行中会被改变,然后n*x个规则会恢复到原来的状态?而如果规则变化的性质不仅仅是一个时间间隔,而是其数据在样本中的其他情况的影响,但其影响的规律性只能通过事件的顺序(即通过每行有数据的提交顺序)来估计呢?森林是通过不同的方法来拉动大块的,怎么能不仅看到横向(预测者的集合)的规律性,而且看到纵向(预测者相对于过去n的变化)?
我晚上再回答......突然想吃披萨和金发女郎了
我今晚晚些时候再回答......我突然想吃披萨和金发女郎了。
春天--可能解释了突然性:)
我将等待答案,谢谢你花时间问我可能很愚蠢的问题。
春天--可能解释了突然性 :)
我期待着你的答复,感谢你花时间问我可能很傻的问题。
相反,很好的逻辑问题,我最近也问过他们。
"..."- 不是一个明确的时间段,过了这个时间段,规则就会改变。即使在理想情况下,有一个规则变化的模式。脚手架如何找到这个规律性,说一个规则将在n个样本行中被改变,然后在n*x个行中,规则将返回到它的初始状态?而如果规则变化的性质不仅仅是一个时间间隔,而是数据在样本中的其他情况的影响,但其影响的规律性只能通过事件的顺序(即通过每行数据的归档顺序)来估计呢?森林使用不同的方法拉动大块,如何才能不仅看到横向(预测者集合)的模式,而且看到纵向(预测者相对于过去n的变化)?
嗯,不完全是模式的改变。更像是一个较粗的近似值。如果样本足够大,例如,在随机子集上训练脚手架,从中抽出大块,是的,在oob(剩余的大块)上验证模型,并比较误差。如果误差+-相同,那么脚手架就没有被过度训练,所以在未来有更高的概率做出正确预测。如果对oob的误差不满意,我们可以玩一下设置,例如减少训练子集(给模型添加更多的噪音),增加验证子集。这样做,模型对训练样本的近似度已经变差,误差会更大,但在新的数据上,有可能得到完全相同的误差,也就是说,模型在两个子样本上都会稳定。而且,由于子样本本身是随机选择的,训练子样本中大量的未知因素都被覆盖了。显然,这不是万能的,但与仅仅是树木相比,它给了工作更多的灵活性。NS合奏的情况也是如此。
嗯,不完全是模式的改变。更像是一个较粗的近似值。比如说,如果样本足够大,那么就在随机子集上训练支架,从中抽出一些块,是的,在oob(剩余的块)上验证模型,并比较误差。如果误差+-相同,那么脚手架就没有被过度训练,所以在未来有更高的概率做出正确预测。如果对oob的误差不满意,我们可以玩一下设置,例如减少训练子集(给模型添加更多的噪音),增加验证子集。这样做,模型对训练样本的近似度已经变差,误差会更大,但在新的数据上,有可能得到完全相同的误差,也就是说,模型在两个子样本上都会稳定。而且,由于子样本本身是随机选择的,训练子样本中大量的未知因素都被覆盖了。显然,这不是万能的,但与简单的树相比,它给了工作更多的灵活性。NS合奏也是如此。
好吧,大致上我是这么想的,如果最初,它只是简单地检查规则,在每个条件独立的树的样本上,由于交叉错误被买下,过度训练,但以同样的方式切出所有的时间规律性,其因果关系无法建立(而且只有在偶然的情况下才有可能建立这种因果关系,如果树用那个样本检查其结果,其中规律性被保留了)。
而如果我们把样本切开,在较小的块上进行训练(比方说把一年切成12个月,取2-3年),然后在树的情况下,收集每棵树上所有权重较大的规则,并与24个样本相匹配(如果一个规则对少于x%的样本有效,就把它扔掉),我们能不看到不同的规则会对不同时期有效?然后我们可以做出周期性的假设,由于时间的关系(财务报告),金融市场一定是这样的。
例如很多人写到相关性分析是估计预测因子的初步方法,但是当我看了这个表后,我不能理解,相关性很小,但是树建立后给这个元素的价值更大。为什么会发生这种情况?
如果我们拿一个名为 "arr_TimeH "的预测器来思考,很明显,我们可以预期市场在不同的时间有不同的行为,例如在上午10点交易所开盘时,会有一个强烈的运动,因为从没有交易的时刻开始处理信息(积累的事件),而在其他时间,情况可能不同,同样的计划新闻可能被发布,之后很可能出现强烈的市场运动,另一方面,有一个晚上的会议,运动经常与前一天相比发生变化,可能幅度较小,所以时间明显受到影响。这就是为什么我认为应该使用MO方法进行交易,而不是相信已经建立的传统,包括预处理数据。
P.S.我在Photoshop中绘制了表格,随意勾选,以显示颜色,当我看到勾选框的颜色与意义标尺的颜色重合时,我感到很震惊--上升到了音调!这就是为什么我的工作会如此重要。这怎么可能呢?事实证明,我无意识地注意了它,它影响了我的选择。 也许人们的交易直觉也是如此,也就是说,他们使用了一个他们没有意识到的系统。
例如,很多人写到相关分析是评估预测因素的初步方法,但当我看表时,我无法理解,相关度很小,但树在构建后赋予这个元素更多的意义。为什么会发生这种情况?
也许根据你的时间预测器的组合(月、周、日、小时......),这棵树只是到了某个买入/卖出栏。
这就像记住大棒的时间,并利用它们在历史上进行交易获利,尽管这种属性与价格运动的相关性将几乎为零。
也许通过你的时间预测器的组合(月、周、日、小时......),树只是到一个特定的买/卖栏。
这就像记住时间条并利用它们进行历史交易,尽管这种属性与价格运动的相关性几乎为零。
也许,确实如此,但只有两个预测因素--星期和小时,也就是说,我们可以得到5*14=70个具有这种属性的组,而样本包含403933条线,即5770条线落入这个组,另一方面,目标33000条线,即471条目标线落入每个组。而如果我们也考虑到还有其他的预测因素,我们就已经有很多组了。这就像把苹果切成片,在片上做标记,并记录那些比其他特征更多的片子,但因为有这么多片子,所以会有只有一个特征的片子。那么问题来了,对于一个给定的样本量,应该有多少个预测因子?苹果片应该有多大?
那么在这几天和几个小时里,本身就有一个模式,它受时间因素的影响--交易时段 的开幕,交易时段的周期,新闻(经济/统计,大多在一周的同一时间和一天发布)。
这可能是,但只有两个预测因素--星期和小时,所以我们可以通过这个标准得到5*14=70个组,而样本有403933条线,所以组得到5770条线,另一方面,目标33000,所以我们每组得到471条目标线。而如果我们也考虑到还有其他的预测因素,我们将已经有了很多组。这就像把苹果切成片,在片上做标记,并记录那些比其他特征更多的片子,但因为有这么多片子,所以会有只有一个特征的片子。那么问题来了,对于一个给定的样本量,应该有多少个预测因子?苹果片应该有多大?
但它本身是有规律的,而且受到时间因素的影响--交易时段的 开盘,交易时段的周期,新闻(经济/统计,大多在一周的同一时间和一天发布)。
一般来说,有哪些选择?苹果的碎片可能是不同的。
为合奏中的每个ns添加一些上下文,并在一些控制ns中使用这些上下文?
我所说的背景是指,例如,与一些基本的定义、概念、预测器和加上一些数据的链接...