交易中的机器学习：理论、模型、实践和算法交易

Aleksey Nikolayev 2018.11.06 10:01 #11431

圣杯。

我不会说 "完全这样"，公式本身是正确的，但它不应该按交易的回报率计算，而是按每天（每小时等）的回报率计算。我不这么认为，公式本身是正确的，但我们需要比较的不是交易的收益，而是每天（每小时等）的收益，通过同一步骤，对所有策略进行比较，然后我们可以根据这个系数值来比较它们的表现，否则如果这个数字是由交易和它们明显不同的数字计算出来的，那就不重要了，例如一个策略的夏普为0.01，另一个为5，不清楚它们哪个更好或更坏，只有符号（高于或低于零夏普）是重要的。

因此，尽管潘图拉没有真正谈论经典的夏普比率，但他仍然提出了一个关于它的重要问题。虽然我个人不喜欢用夏普比率，但我更喜欢用利润与最大跌幅的比率来衡量策略的表现。

我想说这取决于EA的情况。如果它产生一个明显的交易顺序，即当一个头寸被打开或关闭时，其交易量在打开和关闭之间没有变化--最好按交易来计算。如果持仓量随时间平稳变化，那么识别交易时刻的意义就不大，可以用自己的方法计算。

pantural方法更适合销售 TC和寻找投资者）所以最终我猜他们会改用这种方法)

Maxim Dmitrievsky 2018.11.06 11:10 #11432

阿列克谢-尼古拉耶夫。

我想说的是，这取决于专家顾问。如果它产生了明确的交易序列，即当一个头寸被打开和关闭，并且其交易量在打开和关闭之间没有变化时--最好按交易来计算。如果持仓量随时间平稳变化，那么识别交易时刻的意义就不大，可以用自己的方法计算。

pantural方法更有利于销售 TS和寻找投资者）所以随着时间的推移，我想他们会转而采用这种方法)

在任何情况下，pantural已经没有办法反对了:))

你现在在做什么，只是四处游荡吗？你不想讨论MO领域的一些正常事情吗？:) 我需要一个对公式非常了解的人。这个话题已经变得空洞，没有人可以讨论它。

Aleksey Nikolayev 2018.11.06 11:59 #11433

马克西姆-德米特里耶夫斯基。

你现在在做什么，随便乱逛吗？你不想讨论国防部领域的正常事情吗？:) 我需要一个对公式有良好掌握的人。这个话题已经被清空了，没有人可以讨论它。

原则上，我愿意就任何问题发表自己的意见。但我不能保证在我的发言中对你有意义。）

Aleksey Nikolayev 2018.11.06 12:13 #11434

马克西姆-德米特里耶夫斯基。

我向你抛出了强盗的信息吗？非常有趣的话题，但有很多的公式。

是的，我想是的。但要更新链接，并写出大约感兴趣的内容。

Maxim Dmitrievsky 2018.11.06 12:23 #11435

阿列克谢-尼古拉耶夫。

是的，以前有这种东西，我想。但是更新链接和写什么，本质上是感兴趣的。

在上面的链接中，对非稳态过程的对抗性强盗感兴趣，有组合算法（显然，类似于Mgua）。我自己正在熟悉信息的过程中

稍后再谈这个问题

Aleksey Nikolayev 2018.11.06 12:47 #11436

马克西姆-德米特里耶夫斯基。

在他们的书中，我立即看到了这一点。

学习者所知道的是，真正的环境位于某个称为环境类的集合E中。

你如何看待这个E组的交易？

Maxim Dmitrievsky 2018.11.06 12:53 #11437

阿列克谢-尼古拉耶夫。

在他们的书中，我直接看到了它。

学习者所知道的是，真正的环境位于某个称为环境类的集合E中。

你如何看待这个E组的交易？

好吧，这是一个任意设定的强盗环境，比如说一组指标

例如，一个rsi指标，为简单起见，一组多个价格的增量

Aleksey Nikolayev 2018.11.06 16:02 #11438

马克西姆-德米特里耶夫斯基。

嗯，这是一个任意的强盗环境，就像一组指标一样

例如，一个rsi指标，为简单起见，一组几个价格的增量

然而，我不明白他们的模式与交易有什么关系。从他们对战略（政策）的定义可以看出，他们只看所采取的行动和结果。在环境上（在你看来--一套指标），他们没有或甚至不能看到它。

At应该只取决于历史Ht-1=（A1 , X1 , ... , At-1 , Xt-1）。政策是一种从历史到行动的映射。

此外，他们的环境似乎甚至能够跟踪我们的行为，因此，奖励不仅取决于行动本身，而且还取决于它的整个前史。

一个环境是一个从以行动结束的历史序列到奖励的映射。

Maxim Dmitrievsky 2018.11.06 16:32 #11439

阿列克谢-尼古拉耶夫。

然而，我不明白他们的模式和交易之间的关系。从他们对战略（政策）的定义可以看出，他们只看所采取的行动和结果。他们不看环境（在你看来--一套指标）或甚至看不到环境。

At应该只取决于历史Ht-1=（A1 , X1 , ... , At-1 , Xt-1）。政策是一种从历史到行动的映射。

此外，他们的环境似乎甚至能够跟踪我们的行为，因此，奖励不仅取决于行动本身，而且还取决于它的整个前史。

一个环境是一个从以行动结束的历史序列到奖励的映射。

如果政策是由一些模型（比方说线性）近似的，那么我们只需在新的数据上得到一个解决方案，就可以了，把它代入模型中。

你所描述的是一个寻找最高回报的过程。

非平稳性的主要问题是当它在新数据上停止工作时。那里描述了不稳定的土匪，但我还没有去找他们。诚然，那里没有什么是我不知道的，事实证明:)但需要一些想法{解决如何正确给予奖励的问题

顺便说一下，昨天我正好实现了线性强盗，结果是这样的。

事实上，这个例子仍在我的文章中描述，但它使用的是随机森林而不是线性森林。直线型应减少过度训练

Грааль 2018.11.06 16:52 #11440

马克西姆-德米特里耶夫斯基。

以未来的方式进行教学，以过去的方式进行测试，这是只有在这个论坛上才能看到的事情))

交易中的机器学习：理论、模型、实践和算法交易 - 页 1144