文章 "神经网络变得轻松（第四十六部分）：条件导向目标强化学习（GCRL）"

MetaQuotes 2024.01.23 09:45

在本文中，我们要看看另一种强化学习方式。它被称为条件导向目标强化学习（GCRL）。按这种方式，代理者经过训练，可以在特定场景中达成不同的目标。

在这步操作中，我们决定放弃单独训练变分自动编码器，并将其编码器直接包含在代理者模型当中。应当说，这种方式在某种程度上违反了训练自动编码器的原则。毕竟，使用任何自动编码器的主要思在于不涉及特定任务的情况下进行数据压缩。但现在，我们面临的任务并非训练编码器，依据相同的源数据解决若干个问题。

此外，我们只往编码器输入中供应环境的当前状态。在我们的情况下，这些是有关金融产品价格变动的历史数据，和分析指标的参数。换言之，我们排除了有关帐户状态的信息。我们假设调度器（在本例中为编码器）将基于历史数据形成所采取的技能。这可以是在上涨、下跌或横盘行情中的操作政策。

基于有关帐户状态的信息，我们将为代理者创建一个子任务来搜索入场或离场点。

График тестирования

使用 GCRL 方法的积极方面包括减少持仓所需的时间。在测试期间，最长持仓时间为 21 小时 15 分钟。持仓的平均时间为 5 小时 49 分钟。如您所记，对于未能完成平仓的任务，我们设定了每小时持仓累计盈利 1/10 的罚款。换句话说，在持有10个小时后，罚款超过了该笔持仓的营收。