交易中的机器学习:理论、模型、实践和算法交易 - 页 129

 
安德烈-迪克

在这里,我已经准确地说明了我在做什么。

详细来说:在当前的条形图上出现买入信号,如买入,计算未来最少的条形图,并检查交易是否有利可图,如果是,如关闭,如果不是--再向前计算一个条形图并再次检查。这样,我们就达到了最大的条数,并最终关闭了它们。这是一种学习机制。

什么是不清楚的?这不是幻想,这正是我现在所做的。目标功能是以最小的跌幅实现利润最大化。我使用自己的遗传学进行训练。

我们在教什么?有可能简单地实现它,不是吗?
 

桑桑尼茨-弗门科
1.我们教什么?

2.你可以就这样实施,不是吗?

1.目标功能是以最小的跌幅实现利润最大化我在遗传学的帮助下进行教学。

2.是的,非常简单。

 
有没有人知道如何找出R包是用哪种语言编写的?
 
mytarmailS:
有谁知道如何查出R包是用哪种语言编写的吗?

文件。从R的帮助中打开。

  • 编写R扩展
  • R内部

此外,还有一个关于如何使用Cp的详细描述

 

先生们,我的一个新任务。

这里有一个.R格式的数据集:https://drive.google.com/open?id=0B_Au3ANgcG7CcjZVRU9fbUZyUkE

这组数据中大约有40,000行,101列。最右边一栏是目标变量。左边是100个输入。

我建议你尝试建立一个回归模型,根据剩下的100列,在前20000个观测值的基础上预测第101列的值。

在剩下的20,000多个观测值中,构建的模型应该显示出 至少0.5的R^2

然后我揭示了数据的生成方式,并给出了我的解决方案。

线索是时间序列数据。输入是100个样本,提前预测1个。它不是价格或报价或其衍生品。

ǞǞǞ

 
我也可以将这些数据以csv格式发布。如果能听到苍老师们对预测因素的意义的看法,那将是很有趣的。

同样,这些数据纯粹是合成的,纯粹是为了好玩。
 

我试图通过vtreat软件包来寻找预测因子的重要性。但该软件包不能搜索预测者之间的关系,它只考虑到预测者和目标之间的直接关系,不太适合这项任务。

treatments <- designTreatmentsN(dat_ready[1:20000,], colnames(dat_ready)[1:100], tail(colnames(dat_ready),1))
treatments$scoreFrame #важность  предикторов определяется через колонку "sig"
treatments$scoreFrame[order(treatments$scoreFrame$sig),] #предикторы  отсортированы по важности

根据vtreat的重要性判断 - lag_diff_51和lag_diff_52是最有用的。我一点一点地从收到的列表中添加其他预测因子,并观察森林训练数据上R^2的增长。最后我停在了这些预测器上--51、52、53、54、55、17、68,很可能它们是用来计算目标的。在训练数据上,他们的R^2>0.9,但在测试和验证上都很糟糕。现在我需要用这些预测器尝试不同的数学运算,选择公式等等,这样在交叉验证时R^2也会增加。我不会再去找它了 :)

后来完成了它。
又做了点实验,从现有的预测器中做了一堆新的预测器,用不同的数学运算。vtreat和forest都非常喜欢这两个组合:sum(51,52)和average(51,52)。但我一直无法得到目标值的公式。而根据这些预测因素训练出来的模型也不能充分地预测什么。

 

100个条目?这很强。

为什么不是一千?

你们完全不知道神经网是什么。

 
Dr.Trader:

我试图通过vtreat软件包来寻找预测因子的重要性。但该软件包不能搜索预测者之间的关系,它只考虑到预测者和目标之间的直接关系,不太适合这项任务。

根据vtreat的重要性判断 - lag_diff_51和lag_diff_52是最有用的。我一点一点地从收到的列表中添加其他预测因子,并观察森林训练数据上R^2的增长。最后我停在了这些预测器上--51、52、53、54、55、17、68,很可能它们是用来计算目标的。在训练数据上,他们的R^2>0.9,但在测试和验证上都很糟糕。现在我需要用这些预测器尝试不同的数学运算,选择公式等等,这样在交叉验证时R^2也会增加。我不会再去找它了 :)

后来完成了它。
又做了点实验,从现有的预测器中做了一堆新的预测器,用不同的数学运算。vtreat和forest都非常喜欢这两个组合:sum(51,52)和average(51,52)。但我一直无法得到目标值的公式。而根据这些预测因素训练出来的模型也不能充分地预测什么。

走得很近,但路过。不是所有的东西都被指出来了。输出和输入之间存在着线性关联。但他们并没有什么帮助。

你让森林受到了过度的训练。最好是看一下简历。我以后会告诉你数据的秘密。这应该是很简单的。在输入方面有很多冗余的内容。
 

另外,0.9是过度训练。训练集上的R^2大于0.6是一个现实的最大值。

还有一件事--记住关于互动。单一的联系会导致错误的方向。

我自己也在努力解决自己的任务。我已经应用了单层NS。R^2检验不超过0.148,不符合...