交易中的机器学习:理论、模型、实践和算法交易 - 页 819

 
马克西姆-德米特里耶夫斯基

1:决定样本量,你的样本非常小

2.研究简单的(线性)分类/回归模型,它们很可能对你有用,如果误差很大,你可以尝试切换到终端的alglib库中更复杂的(非线性)模型(决策树和森林也可用)。

3)永远不要接受任何建议,特别是关于使用R的建议:)))是时候把他们从这个论坛上驱逐出去了。

4.如果问题在没有机器学习的情况下也能解决,最好不要使用它

1.是的,这只是一个例子,当然,现实中的样本是很大的。

2.谢谢,当然最好从简单的开始--我想这是我在数据挖掘问题上发展的一个新阶段。

3.很高兴知道关于MQL的替代品...

4.就目前而言,我正在寻找按其对贸易的影响程度对特征(模式)进行分类。恐怕我已经开始把我的TS向适合的方向发展,然后我想以市场行为 迹象的形式积累想法,以便拒绝我的妄想。

 
阿列克谢-维亚兹米 金。

1.是的,这只是一个例子,当然,现实中的样本是很大的。

2.谢谢,当然最好从简单的开始--我想这是我在数据挖掘问题上的一个新的发展阶段。

3.因此,了解MQL的替代品是很好的......

4.就目前而言,我正在寻找按其对贸易的影响程度对特征(模式)进行分类。因为我担心我的TS已经开始向拟合的方向发展,然后我想以市场行为 迹象的形式积累想法,以便拒绝我的幻觉。

http://alglib.sources.ru/dataanalysis/

所有这些都可以在mql中找到(该库是终端的标准配置)。

对于聚类,你可以使用简单的K-means

对于你的表格,你可以尝试逻辑回归(youtube上有很多关于它是什么以及如何使用它的剪辑)(多重logit回归),它只是一个划分类别的基础,比如在你的案例中是0还是1。接下来是多层perseptron,它也是分等级的,但是以一种更复杂的(非线性)方式。

普通的决策树不太可能起作用,最好使用森林,它们由多个这样的树组成,以不同的方式进行分区(例如,由于第1个分区将使用的不是第1个变量,而是第3个),然后所有树的结果将被平均化,得到一个更准确和稳健的估计。但是,如果问题原来基本上是线性的,那么脚手架就不适合了,最好使用逻辑回归或具有1个隐藏层的perseptron。这就是为什么建议从最简单的线性模型开始,如果你对结果感到满意--就不要再麻烦了。

 
阿列克谢-维亚兹米 金。

如果我想看一周中的几天 的影响,我是否应该做不同的输入参数来标记日期,还是一个参数标记1到5就足够了?)

Forest创建了一个使用 "多 "或 "少 "操作来比较数值的规则。

在数值为1,2,3,4,5的情况下--例如,如果你需要创建一个只在星期三工作的规则,那么它需要两个分支--"少于星期四 "和 "多于星期二"。
如果它们是有标记的不同参数,那么一次比较就足够了(标记大于零)。
创建一个规则所需的分支越少,模型就越简单,越好。

一般来说,这两件事都要做,一起做。一列数值为1,2,3,4,5。还有另外5个带标签的栏目。

 
阿列克谢-维亚兹米 金。

有没有人做过不同算法的效率比较,好吧,如果答案是已知的,就像我的例子一样,但对于更复杂的任务,有没有人做过比较?

像你这样的数据预测被称为分类,当需要的答案可能只是一对数值,甚至不是数字而是术语("退出交易"、"翻身 "等)。
神经元和提升技术对它很有帮助,它们可以在这种数据上进行训练,然后用于新数据的预测。


我理解你的目标是从你的数据中提取最有价值的信息,并得到一套可读的规则。那么神经元学就不会起作用,从神经元学中提取规则和知识并不那么容易。

一座森林给出了许多选择,许多树(公式),最后的答案是由投票决定的,每个公式都给出了不同的答案,最终会选择最受欢迎的那个。但这样杂乱无章的规则解释起来太复杂了,会有很多我上面补充的图片,每个人都会给出不同的答案,而结果就是最常打的。

一棵树会给出上面那样的图片,在复杂的情况下,图中有几十/几百个分支。但只要沿着图片中的树枝,就可以很容易地解释和重复。

有很多型号,选择最适合你的应用的型号。


MQL中的Alglib也可以做这些事。但是,这很不方便,每次你有一点点变化,你都要编译一个脚本,运行它,等待结果。

R或Python允许你简单地重新运行之前的一行代码,并在出现错误时对其进行修改。脚本运行时创建的所有对象都保留在内存中,你可以继续使用它们,预测和运行新的代码行。不需要像mql那样,在最轻微的变化后重新启动整个脚本。

 
趁着冷清的时候,我在这里发一些文字,看看是否有人感兴趣。
 
尤里-阿索连科

而在一个区间内以70%的信心进行预测并没有什么好处。这不是很难做到,但还是没有用。

70%的信心,50%的准确度真的不多,70%的准确度是一个童话,或者是那些使用混合目标的错误,在70%的准确度下,SharpRatio>30,即使对于超HFT来说也是非常棒的。

 
桑桑尼茨-弗门科

第一百次了。

1.数据挖掘是必须的。必须首先只选择那些对目标变量有影响的预测因素。然后是所有的数据挖掘。

2.有两种模式。

3.如果可能的话,用交叉验证法训练模型

4.对训练文件之外的模型进行评估

5.在测试器中测试运行。


第一百次,所有的步骤都是强制性的!


在做了所有这些之后,你可以做出假设,即库房不会立即售罄!


我们走吧,伙计们!结束在论坛上的闲逛,带着安静的喜悦去实施R的概要计划。


欢呼三声!

我只是在开玩笑,我和你一样,我想教人们把ZZ作为一个目标,我很天真,不明白你的邪恶计划 :)

 
阿利奥沙

没关系,我只是在开玩笑,我像你一样鼓动以ZZ为目标,我只是太天真了,不明白你的阴险计划 :)

在此,我必须再次澄清:我不是在鼓动ZZ--它只是对趋势交易系统非常清楚。

而目标和对目标的预测因素都是极其复杂的,而且成本很高。而且该模型相当容易拿起。有些时候,一种类型断然不适合目标及其预测因素,而另一种类型则适合。一般来说,你应该总是尝试一打或两个模型。

 
阿利奥沙

70%的确定性,50%的准确性真的没有什么作用,70%的准确性是一个童话,或者是那些使用混合目标的人的错误,在70%的准确性下,SharpRatio>30,这即使对于超HFT也是非常棒的。

再一次,对于那些不理解的人。70%是现实。在70%的时间间隔内,我们可以很容易地做出合理的预测。

这种预测的无用性问题是不同的。在这70%的合理预测中,只有大约四分之一或更少的预测是现实的进入交易,即只有~17%的区间。然而,鉴于我们事先并不知道预测的合理性,而剩下的30%给了我们很大一部分失败的交易和错过的 "正确 "交易,所以不可能实施70%的可靠预测。

 
阿利奥沙

没关系,我只是在开玩笑,我和你一样把ZZ作为一个目标来推广,我只是太天真了,没有理解你的邪恶计划 :)

阴险的病毒性计划 "ZZ-01 "是几年前在一个
在一个秘密实验室里。阿法只是充当了它的载体。呃,阿廖沙......。

原因: