文章 "神经网络变得轻松(第五十五部分):对比内在控制(CIC)"

 

新文章 神经网络变得轻松(第五十五部分):对比内在控制(CIC)已发布:

对比训练是一种无监督训练方法表象。它的目标是训练一个模型,突显数据集中的相似性和差异性。在本文中,我们将谈论使用对比训练方式来探索不同的扮演者技能。

对比内在控制算法在环境中训练智能体时首先使用反馈,并获取状态和动作的轨迹。然后使用对比预测编码(CPC)执行表象训练,其会激励智能体从状态和动作中提取关键特征。表象的表示要考虑到连续状态之间的依赖关系。

内在奖励在判定哪些行为策略应该最大化方面扮演着重要角色。CIC 将状态之间转换的熵最大化,从而促进了智能体行为的多样性。这允许智能体探索和创建行为策略的多样化。

在生成各种技能和策略之后,CIC 算法使用鉴别器实例化技能表象。鉴别器的靶向是确保状态是可预测和稳定的。以这种方式,智能体学会了在可预测的状况下“使用”技能。

内在奖励激励的探索结合使用技能进行可预测动作,为打造多样化和有效的策略创建了一种平衡方式。

结果就是,对比预测编码算法鼓励智能体检测和学习更广范围的行为策略,同时确保稳定的学习。下面是自定义算法观想图。

自定义算法观想图

作者:Dmitriy Gizlyk

 
您好。我在研究中得不到肯定的结果。画的是一条直线。代码中似乎对结果有限制。
附加的文件:
 
star-ik #:
您好。我在研究中得不到肯定的结果。画的是一条直线。代码中似乎对结果有限制。

在哪个阶段?首次运行随机参数?运行预训练后?还是微调?

 
无论在哪个阶段,我都没有获得成功。
 
star-ik #:
在各个阶段,我都没有获得成功。

在第一阶段,我们进行前期训练,主要是探索环境和学习演员的技能。这里完全不使用外部奖励。我们训练演员发展多种技能。因此,我们并不期待积极的传递。外部奖励只用于 "微调 "的最后阶段,即我们训练 "计划者 "管理 "行动者 "的技能以完成手头的任务。而结果直接取决于前两个迭代的完整性。

 
Finetune 可接受的错误率是多少?文件何时会写入 Tester 文件夹?
 
我有 "研究",我是个幸运儿。
 
又见面了。有一点我不明白。如果被拖曳,设置止盈有什么意义?这样做是行不通的。
 
star-ik #:
又见面了。有一点我不明白。如果被拖曳,设置止盈有什么意义?它永远不会那样工作。

它首先是一个风险管理工具。它是对大幅波动的一种防御。此外,我们还要训练模型。理论上,止损和止盈不必大于蜡烛图的大小。在训练过程中,我们会寻找最有利可图的策略。

 
还有一个问题。在 "研究 "转到正数侧后,我是否可以在这些数据上重复运行其余部分?问题是它会再次回到负值,从而破坏统计数据。
 
迪米特里,你已经发表了一篇新文章,可能不会再来这里了。但我还是想问你一个问题。请告诉我,您的 Expert Advisor 是否执行了双向交易?出于某种原因,我只有一个买入。还值得继续折腾吗?