文章 "神经网络变得轻松(第五十五部分):对比内在控制(CIC)" 12 新评论 MetaQuotes 2024.04.29 12:54 新文章 神经网络变得轻松(第五十五部分):对比内在控制(CIC)已发布: 对比训练是一种无监督训练方法表象。它的目标是训练一个模型,突显数据集中的相似性和差异性。在本文中,我们将谈论使用对比训练方式来探索不同的扮演者技能。 对比内在控制算法在环境中训练智能体时首先使用反馈,并获取状态和动作的轨迹。然后使用对比预测编码(CPC)执行表象训练,其会激励智能体从状态和动作中提取关键特征。表象的表示要考虑到连续状态之间的依赖关系。 内在奖励在判定哪些行为策略应该最大化方面扮演着重要角色。CIC 将状态之间转换的熵最大化,从而促进了智能体行为的多样性。这允许智能体探索和创建行为策略的多样化。 在生成各种技能和策略之后,CIC 算法使用鉴别器实例化技能表象。鉴别器的靶向是确保状态是可预测和稳定的。以这种方式,智能体学会了在可预测的状况下“使用”技能。 内在奖励激励的探索结合使用技能进行可预测动作,为打造多样化和有效的策略创建了一种平衡方式。 结果就是,对比预测编码算法鼓励智能体检测和学习更广范围的行为策略,同时确保稳定的学习。下面是自定义算法观想图。 作者:Dmitriy Gizlyk star-ik 2023.08.26 09:13 #1 您好。我在研究中得不到肯定的结果。画的是一条直线。代码中似乎对结果有限制。 附加的文件: 2023-08-26_14-08-26.png 147 kb Dmitriy Gizlyk 2023.08.26 12:16 #2 star-ik #: 您好。我在研究中得不到肯定的结果。画的是一条直线。代码中似乎对结果有限制。 在哪个阶段?首次运行随机参数?运行预训练后?还是微调? star-ik 2023.08.26 13:17 #3 无论在哪个阶段,我都没有获得成功。 Dmitriy Gizlyk 2023.08.26 13:36 #4 star-ik #: 在各个阶段,我都没有获得成功。 在第一阶段,我们进行前期训练,主要是探索环境和学习演员的技能。这里完全不使用外部奖励。我们训练演员发展多种技能。因此,我们并不期待积极的传递。外部奖励只用于 "微调 "的最后阶段,即我们训练 "计划者 "管理 "行动者 "的技能以完成手头的任务。而结果直接取决于前两个迭代的完整性。 star-ik 2023.08.26 13:47 #5 Finetune 可接受的错误率是多少?文件何时会写入 Tester 文件夹? star-ik 2023.08.26 21:12 #6 我有 "研究",我是个幸运儿。 star-ik 2023.08.29 03:18 #7 又见面了。有一点我不明白。如果被拖曳,设置止盈有什么意义?这样做是行不通的。 Dmitriy Gizlyk 2023.08.29 10:01 #8 star-ik #: 又见面了。有一点我不明白。如果被拖曳,设置止盈有什么意义?它永远不会那样工作。 它首先是一个风险管理工具。它是对大幅波动的一种防御。此外,我们还要训练模型。理论上,止损和止盈不必大于蜡烛图的大小。在训练过程中,我们会寻找最有利可图的策略。 star-ik 2023.08.29 12:17 #9 还有一个问题。在 "研究 "转到正数侧后,我是否可以在这些数据上重复运行其余部分?问题是它会再次回到负值,从而破坏统计数据。 star-ik 2023.09.02 15:59 #10 迪米特里,你已经发表了一篇新文章,可能不会再来这里了。但我还是想问你一个问题。请告诉我,您的 Expert Advisor 是否执行了双向交易?出于某种原因,我只有一个买入。还值得继续折腾吗? 12 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
新文章 神经网络变得轻松(第五十五部分):对比内在控制(CIC)已发布:
对比训练是一种无监督训练方法表象。它的目标是训练一个模型,突显数据集中的相似性和差异性。在本文中,我们将谈论使用对比训练方式来探索不同的扮演者技能。
对比内在控制算法在环境中训练智能体时首先使用反馈,并获取状态和动作的轨迹。然后使用对比预测编码(CPC)执行表象训练,其会激励智能体从状态和动作中提取关键特征。表象的表示要考虑到连续状态之间的依赖关系。
内在奖励在判定哪些行为策略应该最大化方面扮演着重要角色。CIC 将状态之间转换的熵最大化,从而促进了智能体行为的多样性。这允许智能体探索和创建行为策略的多样化。
在生成各种技能和策略之后,CIC 算法使用鉴别器实例化技能表象。鉴别器的靶向是确保状态是可预测和稳定的。以这种方式,智能体学会了在可预测的状况下“使用”技能。
内在奖励激励的探索结合使用技能进行可预测动作,为打造多样化和有效的策略创建了一种平衡方式。
结果就是,对比预测编码算法鼓励智能体检测和学习更广范围的行为策略,同时确保稳定的学习。下面是自定义算法观想图。
作者:Dmitriy Gizlyk