交易中的机器学习：理论、模型、实践和算法交易

Aleksey Vyazmikin 2018.04.05 02:18 #8181

马克西姆-德米特里耶夫斯基。

1：决定样本量，你的样本非常小

2.研究简单的（线性）分类/回归模型，它们很可能对你有用，如果误差很大，你可以尝试切换到终端的alglib库中更复杂的（非线性）模型（决策树和森林也可用）。

3）永远不要接受任何建议，特别是关于使用R的建议：）））是时候把他们从这个论坛上驱逐出去了。

4.如果问题在没有机器学习的情况下也能解决，最好不要使用它

1.是的，这只是一个例子，当然，现实中的样本是很大的。

2.谢谢，当然最好从简单的开始--我想这是我在数据挖掘问题上发展的一个新阶段。

3.很高兴知道关于MQL的替代品...

4.就目前而言，我正在寻找按其对贸易的影响程度对特征（模式）进行分类。恐怕我已经开始把我的TS向适合的方向发展，然后我想以市场行为迹象的形式积累想法，以便拒绝我的妄想。

[删除] 2018.04.05 02:24 #8182

阿列克谢-维亚兹米 金。

1.是的，这只是一个例子，当然，现实中的样本是很大的。

2.谢谢，当然最好从简单的开始--我想这是我在数据挖掘问题上的一个新的发展阶段。

3.因此，了解MQL的替代品是很好的......

4.就目前而言，我正在寻找按其对贸易的影响程度对特征（模式）进行分类。因为我担心我的TS已经开始向拟合的方向发展，然后我想以市场行为迹象的形式积累想法，以便拒绝我的幻觉。

http://alglib.sources.ru/dataanalysis/

所有这些都可以在mql中找到（该库是终端的标准配置）。

对于聚类，你可以使用简单的K-means

对于你的表格，你可以尝试逻辑回归（youtube上有很多关于它是什么以及如何使用它的剪辑）（多重logit回归），它只是一个划分类别的基础，比如在你的案例中是0还是1。接下来是多层perseptron，它也是分等级的，但是以一种更复杂的（非线性）方式。

普通的决策树不太可能起作用，最好使用森林，它们由多个这样的树组成，以不同的方式进行分区（例如，由于第1个分区将使用的不是第1个变量，而是第3个），然后所有树的结果将被平均化，得到一个更准确和稳健的估计。但是，如果问题原来基本上是线性的，那么脚手架就不适合了，最好使用逻辑回归或具有1个隐藏层的perseptron。这就是为什么建议从最简单的线性模型开始，如果你对结果感到满意--就不要再麻烦了。

Dr. Trader 2018.04.05 02:26 #8183

阿列克谢-维亚兹米 金。

如果我想看一周中的几天的影响，我是否应该做不同的输入参数来标记日期，还是一个参数标记1到5就足够了？）

Forest创建了一个使用 "多 "或 "少 "操作来比较数值的规则。

在数值为1,2,3,4,5的情况下--例如，如果你需要创建一个只在星期三工作的规则，那么它需要两个分支--"少于星期四 "和 "多于星期二"。
如果它们是有标记的不同参数，那么一次比较就足够了（标记大于零）。
创建一个规则所需的分支越少，模型就越简单，越好。

一般来说，这两件事都要做，一起做。一列数值为1,2,3,4,5。还有另外5个带标签的栏目。

Dr. Trader 2018.04.05 02:53 #8184

阿列克谢-维亚兹米 金。

有没有人做过不同算法的效率比较，好吧，如果答案是已知的，就像我的例子一样，但对于更复杂的任务，有没有人做过比较？

像你这样的数据预测被称为分类，当需要的答案可能只是一对数值，甚至不是数字而是术语（"退出交易"、"翻身 "等）。
神经元和提升技术对它很有帮助，它们可以在这种数据上进行训练，然后用于新数据的预测。

我理解你的目标是从你的数据中提取最有价值的信息，并得到一套可读的规则。那么神经元学就不会起作用，从神经元学中提取规则和知识并不那么容易。

一座森林给出了许多选择，许多树（公式），最后的答案是由投票决定的，每个公式都给出了不同的答案，最终会选择最受欢迎的那个。但这样杂乱无章的规则解释起来太复杂了，会有很多我上面补充的图片，每个人都会给出不同的答案，而结果就是最常打的。

一棵树会给出上面那样的图片，在复杂的情况下，图中有几十/几百个分支。但只要沿着图片中的树枝，就可以很容易地解释和重复。

有很多型号，选择最适合你的应用的型号。

MQL中的Alglib也可以做这些事。但是，这很不方便，每次你有一点点变化，你都要编译一个脚本，运行它，等待结果。

R或Python允许你简单地重新运行之前的一行代码，并在出现错误时对其进行修改。脚本运行时创建的所有对象都保留在内存中，你可以继续使用它们，预测和运行新的代码行。不需要像mql那样，在最轻微的变化后重新启动整个脚本。

Alexander_K2 2018.04.05 13:59 #8185

趁着冷清的时候，我在这里发一些文字，看看是否有人感兴趣。

Алёша 2018.04.05 17:19 #8186

尤里-阿索连科。

而在一个区间内以70%的信心进行预测并没有什么好处。这不是很难做到，但还是没有用。

70%的信心，50%的准确度真的不多，70%的准确度是一个童话，或者是那些使用混合目标的错误，在70%的准确度下，SharpRatio>30，即使对于超HFT来说也是非常棒的。

Алёша 2018.04.05 17:38 #8187

桑桑尼茨-弗门科。

第一百次了。

1.数据挖掘是必须的。必须首先只选择那些对目标变量有影响的预测因素。然后是所有的数据挖掘。

2.有两种模式。

分类，应自动找到模式
应考虑到时间序列的统计特征的GARCH

3.如果可能的话，用交叉验证法训练模型

4.对训练文件之外的模型进行评估

5.在测试器中测试运行。

第一百次，所有的步骤都是强制性的!

在做了所有这些之后，你可以做出假设，即库房不会立即售罄!

我们走吧，伙计们!结束在论坛上的闲逛，带着安静的喜悦去实施R的概要计划。

欢呼三声!

我只是在开玩笑，我和你一样，我想教人们把ZZ作为一个目标，我很天真，不明白你的邪恶计划 :)

СанСаныч Фоменко 2018.04.05 17:54 #8188

阿利奥沙。

没关系，我只是在开玩笑，我像你一样鼓动以ZZ为目标，我只是太天真了，不明白你的阴险计划 :)

在此，我必须再次澄清：我不是在鼓动ZZ--它只是对趋势交易系统非常清楚。

而目标和对目标的预测因素都是极其复杂的，而且成本很高。而且该模型相当容易拿起。有些时候，一种类型断然不适合目标及其预测因素，而另一种类型则适合。一般来说，你应该总是尝试一打或两个模型。

Yuriy Asaulenko 2018.04.05 18:18 #8189

阿利奥沙。

70%的确定性，50%的准确性真的没有什么作用，70%的准确性是一个童话，或者是那些使用混合目标的人的错误，在70%的准确性下，SharpRatio>30，这即使对于超HFT也是非常棒的。

再一次，对于那些不理解的人。70%是现实。在70%的时间间隔内，我们可以很容易地做出合理的预测。

这种预测的无用性问题是不同的。在这70%的合理预测中，只有大约四分之一或更少的预测是现实的进入交易，即只有~17%的区间。然而，鉴于我们事先并不知道预测的合理性，而剩下的30%给了我们很大一部分失败的交易和错过的 "正确 "交易，所以不可能实施70%的可靠预测。

Vizard_ 2018.04.05 18:46 #8190

阿利奥沙。

没关系，我只是在开玩笑，我和你一样把ZZ作为一个目标来推广，我只是太天真了，没有理解你的邪恶计划 :)

阴险的病毒性计划 "ZZ-01 "是几年前在一个
在一个秘密实验室里。阿法只是充当了它的载体。呃，阿廖沙......。

交易中的机器学习：理论、模型、实践和算法交易 - 页 819