交易中的机器学习：理论、模型、实践和算法交易 - 页 897

阿列克谢-维亚兹米 金。评估OOB（出包）的情况

Aleksey Vyazmikin 2018.05.11 12:14 #8962

马克西姆-德米特里耶夫斯基。OOB（出包）估计我在这里读到过这种方法https://habr.com/company/ods/blog/324402/，但我看不出估算会如何影响在被改变的数据中寻找模式。也许我说得不对，但这里有一个简单的例子，在一个样本中，我们有，比方说，一个这样的模式 " 1+2=3 ... 1+2=3,5 ... 1+2=3,8 ... 1+2=3,5 ... 1+2=3 " "..."- 不是一个明确的时间段，过了这个时间段，规则就会改变。即使在理想情况下，有一个规则变化的模式。他们怎么能找到这种规律性，说一个规则在n个样本行中会被改变，然后n*x个规则会恢复到原来的状态？而如果规则变化的性质不仅仅是一个时间间隔，而是其数据在样本中的其他情况的影响，但其影响的规律性只能通过事件的顺序（即通过每行有数据的提交顺序）来估计呢？森林是通过不同的方法来拉动大块的，怎么能不仅看到横向（预测者的集合）的规律性，而且看到纵向（预测者相对于过去n的变化）？

[删除] 2018.05.11 12:29 #8963

阿列克谢-维亚兹米 金。我晚上再回答......突然想吃披萨和金发女郎了

Aleksey Vyazmikin 2018.05.11 12:42 #8964

马克西姆-德米特里耶夫斯基。我今晚晚些时候再回答......我突然想吃披萨和金发女郎了。春天--可能解释了突然性：) 我将等待答案，谢谢你花时间问我可能很愚蠢的问题。

[删除] 2018.05.11 13:05 #8965

阿列克谢-维亚兹米 金。春天--可能解释了突然性 :) 我期待着你的答复，感谢你花时间问我可能很傻的问题。相反，很好的逻辑问题，我最近也问过他们。

[删除] 2018.05.11 14:46 #8966

阿列克谢-维亚兹米 金。"..."- 不是一个明确的时间段，过了这个时间段，规则就会改变。即使在理想情况下，有一个规则变化的模式。脚手架如何找到这个规律性，说一个规则将在n个样本行中被改变，然后在n*x个行中，规则将返回到它的初始状态？而如果规则变化的性质不仅仅是一个时间间隔，而是数据在样本中的其他情况的影响，但其影响的规律性只能通过事件的顺序（即通过每行数据的归档顺序）来估计呢？森林使用不同的方法拉动大块，如何才能不仅看到横向（预测者集合）的模式，而且看到纵向（预测者相对于过去n的变化）？嗯，不完全是模式的改变。更像是一个较粗的近似值。如果样本足够大，例如，在随机子集上训练脚手架，从中抽出大块，是的，在oob（剩余的大块）上验证模型，并比较误差。如果误差+-相同，那么脚手架就没有被过度训练，所以在未来有更高的概率做出正确预测。如果对oob的误差不满意，我们可以玩一下设置，例如减少训练子集（给模型添加更多的噪音），增加验证子集。这样做，模型对训练样本的近似度已经变差，误差会更大，但在新的数据上，有可能得到完全相同的误差，也就是说，模型在两个子样本上都会稳定。而且，由于子样本本身是随机选择的，训练子样本中大量的未知因素都被覆盖了。显然，这不是万能的，但与仅仅是树木相比，它给了工作更多的灵活性。NS合奏的情况也是如此。

Aleksey Vyazmikin 2018.05.11 15:32 #8967

马克西姆-德米特里耶夫斯基。嗯，不完全是模式的改变。更像是一个较粗的近似值。比如说，如果样本足够大，那么就在随机子集上训练支架，从中抽出一些块，是的，在oob（剩余的块）上验证模型，并比较误差。如果误差+-相同，那么脚手架就没有被过度训练，所以在未来有更高的概率做出正确预测。如果对oob的误差不满意，我们可以玩一下设置，例如减少训练子集（给模型添加更多的噪音），增加验证子集。这样做，模型对训练样本的近似度已经变差，误差会更大，但在新的数据上，有可能得到完全相同的误差，也就是说，模型在两个子样本上都会稳定。而且，由于子样本本身是随机选择的，训练子样本中大量的未知因素都被覆盖了。显然，这不是万能的，但与简单的树相比，它给了工作更多的灵活性。NS合奏也是如此。好吧，大致上我是这么想的，如果最初，它只是简单地检查规则，在每个条件独立的树的样本上，由于交叉错误被买下，过度训练，但以同样的方式切出所有的时间规律性，其因果关系无法建立（而且只有在偶然的情况下才有可能建立这种因果关系，如果树用那个样本检查其结果，其中规律性被保留了）。 而如果我们把样本切开，在较小的块上进行训练（比方说把一年切成12个月，取2-3年），然后在树的情况下，收集每棵树上所有权重较大的规则，并与24个样本相匹配（如果一个规则对少于x%的样本有效，就把它扔掉），我们能不看到不同的规则会对不同时期有效？然后我们可以做出周期性的假设，由于时间的关系（财务报告），金融市场一定是这样的。 例如很多人写到相关性分析是估计预测因子的初步方法，但是当我看了这个表后，我不能理解，相关性很小，但是树建立后给这个元素的价值更大。为什么会发生这种情况？ 如果我们拿一个名为 "arr_TimeH "的预测器来思考，很明显，我们可以预期市场在不同的时间有不同的行为，例如在上午10点交易所开盘时，会有一个强烈的运动，因为从没有交易的时刻开始处理信息（积累的事件），而在其他时间，情况可能不同，同样的计划新闻可能被发布，之后很可能出现强烈的市场运动，另一方面，有一个晚上的会议，运动经常与前一天相比发生变化，可能幅度较小，所以时间明显受到影响。这就是为什么我认为应该使用MO方法进行交易，而不是相信已经建立的传统，包括预处理数据。 P.S.我在Photoshop中绘制了表格，随意勾选，以显示颜色，当我看到勾选框的颜色与意义标尺的颜色重合时，我感到很震惊--上升到了音调！这就是为什么我的工作会如此重要。这怎么可能呢？事实证明，我无意识地注意了它，它影响了我的选择。 也许人们的交易直觉也是如此，也就是说，他们使用了一个他们没有意识到的系统。

Ivan Negreshniy 2018.05.12 05:06 #8968

阿列克谢-维亚兹米 金。例如，很多人写到相关分析是评估预测因素的初步方法，但当我看表时，我无法理解，相关度很小，但树在构建后赋予这个元素更多的意义。为什么会发生这种情况？ 也许根据你的时间预测器的组合（月、周、日、小时......），这棵树只是到了某个买入/卖出栏。 这就像记住大棒的时间，并利用它们在历史上进行交易获利，尽管这种属性与价格运动的相关性将几乎为零。

Aleksey Vyazmikin 2018.05.12 12:51 #8969

伊万-内格雷什尼。也许通过你的时间预测器的组合（月、周、日、小时......），树只是到一个特定的买/卖栏。 这就像记住时间条并利用它们进行历史交易，尽管这种属性与价格运动的相关性几乎为零。也许，确实如此，但只有两个预测因素--星期和小时，也就是说，我们可以得到5*14=70个具有这种属性的组，而样本包含403933条线，即5770条线落入这个组，另一方面，目标33000条线，即471条目标线落入每个组。而如果我们也考虑到还有其他的预测因素，我们就已经有很多组了。这就像把苹果切成片，在片上做标记，并记录那些比其他特征更多的片子，但因为有这么多片子，所以会有只有一个特征的片子。那么问题来了，对于一个给定的样本量，应该有多少个预测因子？苹果片应该有多大？ 那么在这几天和几个小时里，本身就有一个模式，它受时间因素的影响--交易时段 的开幕，交易时段的周期，新闻（经济/统计，大多在一周的同一时间和一天发布）。

Ilnur Khasanov 2018.05.12 15:55 #8970

阿列克谢-维亚兹米 金。这可能是，但只有两个预测因素--星期和小时，所以我们可以通过这个标准得到5*14=70个组，而样本有403933条线，所以组得到5770条线，另一方面，目标33000，所以我们每组得到471条目标线。而如果我们也考虑到还有其他的预测因素，我们将已经有了很多组。这就像把苹果切成片，在片上做标记，并记录那些比其他特征更多的片子，但因为有这么多片子，所以会有只有一个特征的片子。那么问题来了，对于一个给定的样本量，应该有多少个预测因子？苹果片应该有多大？ 但它本身是有规律的，而且受到时间因素的影响--交易时段的 开盘，交易时段的周期，新闻（经济/统计，大多在一周的同一时间和一天发布）。 马克西姆-德米特里夫斯基，你如何解决这个问题？一般来说，有哪些选择？苹果的碎片可能是不同的。 为合奏中的每个ns添加一些上下文，并在一些控制ns中使用这些上下文？ 我所说的背景是指，例如，与一些基本的定义、概念、预测器和加上一些数据的链接...
我在这里读到过这种方法https://habr.com/company/ods/blog/324402/，但我看不出估算会如何影响在被改变的数据中寻找模式。也许我说得不对，但这里有一个简单的例子，在一个样本中，我们有，比方说，一个这样的模式
"
1+2=3
...
1+2=3,5
...
1+2=3,8
...
1+2=3,5
...
1+2=3
"
"..."- 不是一个明确的时间段，过了这个时间段，规则就会改变。即使在理想情况下，有一个规则变化的模式。他们怎么能找到这种规律性，说一个规则在n个样本行中会被改变，然后n*x个规则会恢复到原来的状态？而如果规则变化的性质不仅仅是一个时间间隔，而是其数据在样本中的其他情况的影响，但其影响的规律性只能通过事件的顺序（即通过每行有数据的提交顺序）来估计呢？森林是通过不同的方法来拉动大块的，怎么能不仅看到横向（预测者的集合）的规律性，而且看到纵向（预测者相对于过去n的变化）？
我晚上再回答......突然想吃披萨和金发女郎了
春天--可能解释了突然性：)
我将等待答案，谢谢你花时间问我可能很愚蠢的问题。
相反，很好的逻辑问题，我最近也问过他们。
嗯，不完全是模式的改变。更像是一个较粗的近似值。如果样本足够大，例如，在随机子集上训练脚手架，从中抽出大块，是的，在oob（剩余的大块）上验证模型，并比较误差。如果误差+-相同，那么脚手架就没有被过度训练，所以在未来有更高的概率做出正确预测。如果对oob的误差不满意，我们可以玩一下设置，例如减少训练子集（给模型添加更多的噪音），增加验证子集。这样做，模型对训练样本的近似度已经变差，误差会更大，但在新的数据上，有可能得到完全相同的误差，也就是说，模型在两个子样本上都会稳定。而且，由于子样本本身是随机选择的，训练子样本中大量的未知因素都被覆盖了。显然，这不是万能的，但与仅仅是树木相比，它给了工作更多的灵活性。NS合奏的情况也是如此。
好吧，大致上我是这么想的，如果最初，它只是简单地检查规则，在每个条件独立的树的样本上，由于交叉错误被买下，过度训练，但以同样的方式切出所有的时间规律性，其因果关系无法建立（而且只有在偶然的情况下才有可能建立这种因果关系，如果树用那个样本检查其结果，其中规律性被保留了）。
而如果我们把样本切开，在较小的块上进行训练（比方说把一年切成12个月，取2-3年），然后在树的情况下，收集每棵树上所有权重较大的规则，并与24个样本相匹配（如果一个规则对少于x%的样本有效，就把它扔掉），我们能不看到不同的规则会对不同时期有效？然后我们可以做出周期性的假设，由于时间的关系（财务报告），金融市场一定是这样的。
例如很多人写到相关性分析是估计预测因子的初步方法，但是当我看了这个表后，我不能理解，相关性很小，但是树建立后给这个元素的价值更大。为什么会发生这种情况？
如果我们拿一个名为 "arr_TimeH "的预测器来思考，很明显，我们可以预期市场在不同的时间有不同的行为，例如在上午10点交易所开盘时，会有一个强烈的运动，因为从没有交易的时刻开始处理信息（积累的事件），而在其他时间，情况可能不同，同样的计划新闻可能被发布，之后很可能出现强烈的市场运动，另一方面，有一个晚上的会议，运动经常与前一天相比发生变化，可能幅度较小，所以时间明显受到影响。这就是为什么我认为应该使用MO方法进行交易，而不是相信已经建立的传统，包括预处理数据。
P.S.我在Photoshop中绘制了表格，随意勾选，以显示颜色，当我看到勾选框的颜色与意义标尺的颜色重合时，我感到很震惊--上升到了音调！这就是为什么我的工作会如此重要。这怎么可能呢？事实证明，我无意识地注意了它，它影响了我的选择。 也许人们的交易直觉也是如此，也就是说，他们使用了一个他们没有意识到的系统。
也许，确实如此，但只有两个预测因素--星期和小时，也就是说，我们可以得到5*14=70个具有这种属性的组，而样本包含403933条线，即5770条线落入这个组，另一方面，目标33000条线，即471条目标线落入每个组。而如果我们也考虑到还有其他的预测因素，我们就已经有很多组了。这就像把苹果切成片，在片上做标记，并记录那些比其他特征更多的片子，但因为有这么多片子，所以会有只有一个特征的片子。那么问题来了，对于一个给定的样本量，应该有多少个预测因子？苹果片应该有多大？
那么在这几天和几个小时里，本身就有一个模式，它受时间因素的影响--交易时段 的开幕，交易时段的周期，新闻（经济/统计，大多在一周的同一时间和一天发布）。
一般来说，有哪些选择？苹果的碎片可能是不同的。
为合奏中的每个ns添加一些上下文，并在一些控制ns中使用这些上下文？
我所说的背景是指，例如，与一些基本的定义、概念、预测器和加上一些数据的链接...