德米特里,感谢你的辛勤工作。一切正常。
我用 Expert Advisor Research 收集了100 个 例子 ,用 Expert Advisor Study 训练模型,用 Test 测试。然后,我再次收集 50 个示例,迭代训练 10 000 次,再次测试。
如此反复,直到模型学会为止。不过,到目前为止,测试在循环后不断给出不同的结果,而且并不总是正面的。我运行了一个周期,进行了 2-3 次测试,结果都不一样。
在哪个周期内结果会变得稳定?还是说这是一项无休止的工作,结果总是不同?
谢谢!
如此反复,直到模型学会为止。不过,到目前为止,测试在循环后不断给出不同的结果,而且并不总是正面的。也就是说,我运行一个循环,进行 2-3 次测试,结果都不一样。
在哪个周期内结果会趋于稳定?还是说这是一项无休止的工作,结果总是不同?
谢谢!
Expert Advisor 采用随机策略训练模型。这意味着,该模型会学习在系统的特定状态下采取特定行动时获得最大回报的概率。在与环境交互的过程中,会根据学习到的概率对行动进行采样。在初始阶段,所有行动的概率都是相同的,模型会随机选择一个行动。在学习过程中,概率会发生变化,行动的选择也会更加有意识。
创建一个单独的聊天室,在那里 "获取 "结果。您可以在这里吹嘘 :-),从而展示德米特里工作的成效...
伙计,没有人在这里等待圣杯!我只是想看看德米特里的成果是否真的有效。不是从德米特里的文章中(他的所有文章都有几乎正面的结果),而是在我的电脑上。我从这篇文章中下载了他的智能交易系统(Expert Advisor),并且已经进行了 63 个周期的训练(数据收集 -> 训练)。结果还是亏损。在所有 63 个周期中,只有几次数据收集,在 50 个新示例中,有 5-6 个是正值,其他都是负值。我怎么才能知道它真的有效呢?
我在上面的帖子里问过德米特里,他什么也没回答。其他文章中也有同样的问题--无论如何训练都没有结果.....。
朋友,如果你得到了一个稳定的结果,那么请写出在得到稳定结果之前你做了多少个循环,比如在这篇文章中?如果要改,改什么才能在你的电脑上看到结果?不是圣杯,但至少可以看到它的工作原理......?
请创建一个单独的聊天室,在那里 "获取 "结果。您可以在这里吹嘘 :-),从而展示德米特里的工作成效......
以下是参数:(基于 Dmitry 和一些研究)
#include "FQF.mqh"
}信息长度不应超过 64000 个字符
新文章 神经网络变得简单(第 57 部分):随机边际扮演者-评论者(SMAC)已发布:
在此,我将研究相当新颖的随机边际扮演者-评论者(SMAC)算法,该算法允许在熵值最大化的框架内构建潜在变量政策。
在构建自动交易系统时,我们开发了制定后续决策的算法。强化学习方法正是为了解决这些问题。强化学习的关键问题之一是如同智能体学习与环境交互那般的探索过程。在这种前后呼应情况下,经常运用最大熵原理,这促使智能体按最大随机度执行动作。然而,在实践中,这种算法只能训练简单的智能体学习单个动作周围的局部变化。这是因为需要计算智能体政策的熵值,并将其用作训练目标的一部分。
同时,提高扮演者政策表现力的一种相对简单的方式是使用潜在变量,其为智能体提供了自己的模型随机性推理过程,手段则是观察、环境和未知奖励。
将潜在变量引入智能体的政策,令其能够涵盖更多样化的场景,且与历史观测兼容。这里应该注意的是,具有潜在变量的政策不允许使用简单的表达式来判定它们的熵。朴素的熵估值可能会导致灾难性的政策优化失败。此外,熵最大化的高方差随机更新无法轻易区分局部随机效应和多模态探索。
在《潜在状态边际化作为改进探索的低成本方法》一文中提出了解决这些潜在可变政策缺陷的方案之一。作者提出了一种《简单而有效的政策优化算法,能够在完全可观察和部分可观察的环境中提供更高效和更强大的探索。
作者:Dmitriy Gizlyk