也可以简单地将图片拖入文本,或使用Ctrl+V 粘贴图片
德米特里,在填充示例数据库和添加新示例时,是否会删除或意外删除最老的示例?或者说,是否有必要建立一个包含全部交易次数的 示例数据库,同时考虑到训练中添加的示例,即以 1000 个轨迹为基础?
如果我没理解错的话,您是用 Test.mqh Expert Advisor 做了 10 次测试(经过 500 000 次迭代训练)。然后您说您又做了 15 次收集-训练-测试(循环)。然后你得到了一个有效的模型。所以我不明白,你是否在循环的每个阶段都运行了 10 次 Test.mqh Expert Advisor?我遇到的问题是,如果我这样做,基础中就会有更多的负面示例,Expert Advisor 最终就会开始负向交易。
假设我收集了 200 个轨迹库。我对它进行了 100,000 次迭代训练。然后 我 从测试中添加了 10 次,Research.mqh 在数据库中添加了 10-15 个新示例。我设置了 MinProfit 边界,例如-3000。
我进行下一次训练(100 000 次迭代)。我再次从Research.mqh 中添加了 10 个测试通过实例和 10-15 个实例,并将 MinProfit 设置为 -2500。
再次进行训练(100000 次迭代)。 MinProfit=-2000.
以此类推。我明白了吗?让我感到困惑的是,测试中经常会出现 -7000 甚至 -9000 的大负值。而且在基础中会有很多。难道网络不是被训练成故意在负值中交易的吗?
如果测试结果比前一次更差,该怎么办?我是否应该将MinProfit 改为负值?如果Research.mqh 在 指定限制(例如,MinProfit =-500)的100 次测试中无法在数据库中找到并添加任何内容,该怎么办?
最老的会被删除。它是根据先进先出原则组织的,即先进先出。
如果我没理解错的话,这里写的是您用 Test.mqh Expert Advisor 做了 10 次测试(经过 500 000 次迭代训练)。然后,您说您又做了 15 次收集-训练-测试(循环)。然后你得到了一个工作模型。所以我不明白,你是否在循环的每个阶段都运行了 10 次 Test.mqh Expert Advisor?我遇到的问题是,如果我这样做,就会在基础中得到更多的负面示例,而智能交易系统最终会开始负向交易。
我在策略测试器中有条件地运行了 10 次,以估算模型结果的散点极限。在随后的优化模式下收集轨迹时,我会选择上量值来选择最佳轨迹。
新文章 神经网络变得轻松(第五十部分):软性扮演者-评价者(模型优化)已发布:
在上一篇文章中,我们实现了软性扮演者-评论者算法,但未能训练出一个可盈利的模型。在此,我们将优化先前创建的模型,以期获得所需的结果。
我们继续研究软性扮演者-评论者算法。在上一篇文章中,我们实现了该算法,但未能训练出一个可盈利的模型。今天,我们将研究可能的解决方案。在“模型拖延症,原因和解决方案”一文中已经提过类似的问题。我建议扩展我们在这一领域的知识,并以我们的软性扮演者-评论者模型为例研究新方式。
在我们转到直接优化我们构建的模型之前,我要提醒您,软性扮演者-评论者是一种在连续动作空间中随机模型的强化学习算法。这种方法的主要特点是在奖励函数中引入了熵分量。
使用随机扮演者策略可令模型更加灵活,并且能够解决复杂环境中的问题,在这些环境中,某些操作可能不确定或无法定义明确的规则。在处理包含大量噪声的数据时,该策略往往更健壮,因为它考虑到概率分量,并且不受明确规则的约束
作者:Dmitriy Gizlyk