交易中的机器学习：理论、模型、实践和算法交易

СанСаныч Фоменко 2016.08.27 15:14 #1281

安德烈-迪克

在这里，我已经准确地说明了我在做什么。

详细来说：在当前的条形图上出现买入信号，如买入，计算未来最少的条形图，并检查交易是否有利可图，如果是，如关闭，如果不是--再向前计算一个条形图并再次检查。这样，我们就达到了最大的条数，并最终关闭了它们。这是一种学习机制。

什么是不清楚的？这不是幻想，这正是我现在所做的。目标功能是以最小的跌幅实现利润最大化。我使用自己的遗传学进行训练。

我们在教什么？有可能简单地实现它，不是吗？

Andrey Dik 2016.08.27 15:17 #1282

桑桑尼茨-弗门科。
1.我们教什么？

2.你可以就这样实施，不是吗？

1.目标功能是以最小的跌幅实现利润最大化。我在遗传学的帮助下进行教学。

2.是的，非常简单。

mytarmailS 2016.08.28 17:35 #1283

有没有人知道如何找出R包是用哪种语言编写的？

СанСаныч Фоменко 2016.08.28 18:00 #1284

mytarmailS:
有谁知道如何查出R包是用哪种语言编写的吗？

文件。从R的帮助中打开。

编写R扩展
R内部

此外，还有一个关于如何使用Cp的详细描述

Alexey Burnakov 2016.09.01 19:52 #1285

先生们，我的一个新任务。

这里有一个.R格式的数据集：https://drive.google.com/open?id=0B_Au3ANgcG7CcjZVRU9fbUZyUkE

这组数据中大约有40,000行，101列。最右边一栏是目标变量。左边是100个输入。

我建议你尝试建立一个回归模型，根据剩下的100列，在前20000个观测值的基础上预测第101列的值。

在剩下的20,000多个观测值中，构建的模型应该显示出 至少0.5的R^2。

然后我揭示了数据的生成方式，并给出了我的解决方案。

线索是时间序列数据。输入是100个样本，提前预测1个。它不是价格或报价或其衍生品。

ǞǞǞ

Alexey Burnakov 2016.09.01 23:07 #1286

我也可以将这些数据以csv格式发布。如果能听到苍老师们对预测因素的意义的看法，那将是很有趣的。

同样，这些数据纯粹是合成的，纯粹是为了好玩。

Dr. Trader 2016.09.02 01:41 #1287

我试图通过vtreat软件包来寻找预测因子的重要性。但该软件包不能搜索预测者之间的关系，它只考虑到预测者和目标之间的直接关系，不太适合这项任务。

treatments <- designTreatmentsN(dat_ready[1:20000,], colnames(dat_ready)[1:100], tail(colnames(dat_ready),1))
treatments$scoreFrame #важность  предикторов определяется через колонку "sig"
treatments$scoreFrame[order(treatments$scoreFrame$sig),] #предикторы  отсортированы по важности

根据vtreat的重要性判断 - lag_diff_51和lag_diff_52是最有用的。我一点一点地从收到的列表中添加其他预测因子，并观察森林训练数据上R^2的增长。最后我停在了这些预测器上--51、52、53、54、55、17、68，很可能它们是用来计算目标的。在训练数据上，他们的R^2>0.9，但在测试和验证上都很糟糕。现在我需要用这些预测器尝试不同的数学运算，选择公式等等，这样在交叉验证时R^2也会增加。我不会再去找它了 :)

后来完成了它。
又做了点实验，从现有的预测器中做了一堆新的预测器，用不同的数学运算。vtreat和forest都非常喜欢这两个组合：sum(51,52)和average(51,52)。但我一直无法得到目标值的公式。而根据这些预测因素训练出来的模型也不能充分地预测什么。

[删除] 2016.09.02 05:46 #1288

100个条目？这很强。

为什么不是一千？

你们完全不知道神经网是什么。

Alexey Burnakov 2016.09.02 10:16 #1289

Dr.Trader:

我试图通过vtreat软件包来寻找预测因子的重要性。但该软件包不能搜索预测者之间的关系，它只考虑到预测者和目标之间的直接关系，不太适合这项任务。

根据vtreat的重要性判断 - lag_diff_51和lag_diff_52是最有用的。我一点一点地从收到的列表中添加其他预测因子，并观察森林训练数据上R^2的增长。最后我停在了这些预测器上--51、52、53、54、55、17、68，很可能它们是用来计算目标的。在训练数据上，他们的R^2>0.9，但在测试和验证上都很糟糕。现在我需要用这些预测器尝试不同的数学运算，选择公式等等，这样在交叉验证时R^2也会增加。我不会再去找它了 :)

后来完成了它。
又做了点实验，从现有的预测器中做了一堆新的预测器，用不同的数学运算。vtreat和forest都非常喜欢这两个组合：sum(51,52)和average(51,52)。但我一直无法得到目标值的公式。而根据这些预测因素训练出来的模型也不能充分地预测什么。

走得很近，但路过。不是所有的东西都被指出来了。输出和输入之间存在着线性关联。但他们并没有什么帮助。

你让森林受到了过度的训练。最好是看一下简历。我以后会告诉你数据的秘密。这应该是很简单的。在输入方面有很多冗余的内容。

Alexey Burnakov 2016.09.02 11:54 #1290

另外，0.9是过度训练。训练集上的R^2大于0.6是一个现实的最大值。

还有一件事--记住关于互动。单一的联系会导致错误的方向。

我自己也在努力解决自己的任务。我已经应用了单层NS。R^2检验不超过0.148，不符合...

交易中的机器学习：理论、模型、实践和算法交易 - 页 129