交易中的机器学习：理论、模型、实践和算法交易

Кеша Рутов 2019.01.27 15:52 #12751

马克西姆-德米特里耶夫斯基。

所有的海狸都在建造同样的大坝，尽管它们并不知道这一点。

但每个人都顽固地认为自己发明了新东西。

海狸是一种勤劳和正义的生物，完全是另一回事，学习型海狸 是一种卑鄙的生物，用扫帚把他从各处赶走，或者最好直接忽略他。

Maxim Dmitrievsky 2019.01.27 15:58 #12752

凯沙-鲁托夫。

海狸是一种勤劳、正确的生物，完全是另一回事，骑士的学徒 是一种讨厌的生物，用扫帚从各处赶走他，或者最好不要理会他。

"罐子里的分析家" :) 洗碗机滚开

Forester 2019.01.27 16:20 #12753

阿列克谢-维亚兹米 金。

关键是，即使所有的50%都被拿走了，那么进一步说，从这50%到第一根分叉处有一个明确的选择（或者在Alglib不是这样？）CatBoost不仅有预测因子的随机选择，而且在第一棵树上也有随机分割（权重是随机加入计算的）。

我得到了不同的结果，我的目标不是要估计整个模型，而是要得到叶子，这些叶子很有可能描述了大部分的样本。然后，这样的树叶在历史上逐年被检验，并对其进行构成，这可能无法描述整个市场，但我认为在大多数情况下，对你知道的东西有更准确的答案比以50%的概率猜测要好。

预测器，现在将在600的区域，所以完全的过度已经不现实了。

Alglib检查所有剩余的50%的预测器，将每个预测器按四分位数分成4部分，并在所有变体中选择误差最大的分部。

原则上，随机分区并不难做到。
我没有看到个别的树木有很好的测试结果（45-50%），但一片森林更有趣）。

Forester 2019.01.27 16:27 #12754

就所考察的预测因素的重要性而言。
xgboost、lightGBM软件包有内置的方法来估计 "木材模型 "的特征重要性。

增长
这个衡量标准显示了每个特征对模型的相对贡献。为了计算这个，我们通过每棵树，看树上的每个节点，哪个特征导致了节点分裂，根据衡量标准（吉尼杂质，信息增益），模型的不确定性减少了多少。
对于每个特征，其贡献在所有的树上相加。
覆盖
显示每个特征的观察值的数量。例如，你有4个特征，3棵树。假设fich 1在树节点1、2和3中分别有10、5和2个观测值。那么这个fich的重要性将是17（10+5+2）。
頻率
显示一个给定的特征在树节点中的出现频率，即计算每棵树中每个特征的分裂树节点的总数。

他们并没有真正正确地划分出重要性。
我有一个在5条上训练的森林，在测试中的结果比100条更好。但是，当按100人进行教学时，前5人并没有被标记为重要的，而是一些遥远的地方。
当训练量为100时，单个树木和森林的误差较低--显然是由于过度训练和重视30-100条。但很明显，按照通常的逻辑，它们并不重要，而是因为在5条的森林能得到更好的结果。

Forester 2019.01.27 16:35 #12755

顺便说一下，我不明白Cover和Frequency之间的区别是什么？更具体地说，什么是Cover中的特征观察？(我的理解是通过频率中的一个芯片来分解）。树木似乎是被特征分割的，而不是被观察的。

Forester 2019.01.27 17:18 #12756

阿列克谢-维亚兹米 金。

有一个R脚本，用遗传算法来创建一棵树，通过熵的提高来选择世代。然后是某种最终的选择。我把所有的树木进行最终选择，并从它们身上拔出叶子，在MT5中分别进行进一步测量。该剧本没有公开发布，所以也没有详细的描述。显然，这就像从森林中选择最好的树，但有一个深度限制，以避免过度训练，好在这个过程在所有核心的最后一个样本上需要约2天，其中不是所有的酒吧，但只有信号进入，如果3年的所有酒吧，那么计算需要1.5个月有。在计算之后，我对树进行了分割，也就是说，我删除了带有最佳群体树的根预测器的那一列，然后重新开始，看起来，即使在40个这样的程序中，有时也会产生非常好的叶子，所以我得出的结论是，最佳数学树并不总是最有效的，一种信息会干扰另一种信息，这种信息后来出现在同一个CatBoost中，当从所有样本中随机选择预测器来建立一个树。

在快速浏览了代码之后，我看到了从rpart包中构建树的遗传选择功能。因此，每棵树都被提出来学习它自己的一组特征。由于遗传学的原因，这样的特征集比完全的蛮力要快。
但这棵树并不神奇，它是rpart提供的。我想这是那里的标准。

Forester 2019.01.27 17:55 #12757

马克西姆-德米特里耶夫斯基。

首先对所有特征进行模型训练，保存误差

然后，一个接一个地随机化每个预测因子，比方说用正态分布，并再次检查所有特征的误差，包括这个随机化的（改变了的）特征，将其与初始特征比较。没有必要 重新训练模型。于是检查每个预测因素。如果预测器是好的，那么整个样本（包括所有其他的原始预测器）的误差与原始的相比会急剧增加。保存错误差异，在此基础上筛选出最佳档案。然后，在最后，只对最好的进行训练，并将模型投入生产。坏的预测者是模型的噪音，不需要他们的1%。好的通常保持5-10个，其余的重要性呈指数级下降（Zipf定律）。

我试着教过过滤器，但不多，我觉得意义不大，最好是一次把所有东西都放到一个模型中去

如果可以的话，关于预测器的选择非常称职（前面已经抛出）。

找到了你关于包络的帖子。
这是一个有趣的变体。我必须要试一试。
虽然我担心，如果我把它应用于一个100条的模型，并试图删除95条而留下前5条，结果将是50%。毕竟，这前5名几乎没有参与拆分（平均只有5%的节点建立在他们身上）。

Maxim Dmitrievsky 2019.01.27 18:15 #12758

elibrarius。
找到了你关于包络的帖子。
有趣的变体。我必须试一试。
虽然我担心，如果我把它应用于100个条形模型，并试图删除95个条形而留下前5个，结果将是50%。毕竟，这前5名几乎没有参与拆分（平均只有5%的节点建立在他们身上）。

我不知道你在用100条做什么，你也许应该适当地应用它，你会好起来的。

Forester 2019.01.27 20:39 #12759

马克西姆-德米特里耶夫斯基。

我不知道你在用100条做什么，你可能需要适当地应用它，它就会发挥作用。

我想把筛选出不重要的预测因子的过程自动化)

Forester 2019.01.27 20:42 #12760

马克西姆-德米特里耶夫斯基。

首先对所有特征进行模型训练，保存误差

然后，一个接一个地随机化每个预测因子，比方说通过正态分布，并再次检查所有特征的误差，包括这个随机化的（改变了的）特征，并与最初的特征进行比较。没有必要 重新训练模型。于是检查每个预测因素。如果预测器是好的，那么整个样本（包括所有其他的原始预测器）的误差与原始的相比会急剧增加。保存错误差异，在此基础上筛选出最佳档案。然后，在最后，只对最好的进行训练，并将模型投入生产。坏的预测者是模型的噪音，不需要他们的1%。好的通常保持5-10个，其余的重要性呈指数级下降（Zipf定律）。

我试着教过过滤器，但不多，我觉得意义不大，最好是一次把所有东西都放到一个模型中去

如果可以的话，关于预测器的选择非常称职（前面已经抛出）。

我对这种方法的理解是不同的。
对于所研究的预测器，我们不应该用正态分布来送入随机值，而只是对这一列的行进行洗牌。

无论如何，文章的结果令人印象深刻。我应该在实践中试试。

交易中的机器学习：理论、模型、实践和算法交易 - 页 1276