文章 "强化学习中的随机决策森林" - 页 8

 
rogivilela:
大家好、
首先,我要对马克西姆-德米特里耶夫斯基的文章表示祝贺。
其次,我想说的是,我一直在关注这个话题,因为这个话题非常有趣。
第三,我想提出一个疑问,因为我不太明白今天在 EA 分类中是如何执行奖励的,有人能描述一下吗?

我的理解是,当 EA 以负值平仓时,矢量的两个指数(3 和 4)会发生变化。
因为我想在操作为正值时增加奖励,并获得一定数量的积分。


谢谢。
谢谢。我使用了谷歌翻译,如果看不懂,请见谅。

这正是我从文章一开始就一直在研究的问题,即如何将账户参数整合到策略中,以及如何根据盈利和亏损更新奖励。但直到现在,我也没能成功实现任何东西。

我注意到,如果我们要在奖励函数 中实现盈利和亏损,就必须完全更改 updateReward() 函数。此外,我们可能还需要彻底改变矩阵的实现。

我有一个通过贝尔曼方程使用 Q-learning 实现盈亏的解决方案,在这个方案中,我们可以为代理实现浮动盈亏,从而更新奖励。但我们需要创建一个新矩阵,并在每根蜡烛上更新整个矩阵。但我不擅长矩阵实现,因此,我只是在等待作者发表下一篇包含新代理的文章。

如果有人对 Q 值学习实施感兴趣并能实施矩阵,那么我可以在这里讨论如何使用 Q 值更新利润和亏损的奖励。

我一直在使用无限制的指标组合和设置来测试 EA,但我发现没有其他方法可以在不更新策略的情况下改善结果。代理正在做的正是它被指定要做的事情,因此,它只是关闭了少量的小利润来增加胜率,但总体而言,账户的利润并没有增长,因为策略并没有单独考虑小的或大的损失。

 

你好,马克西姆-德米特里耶夫斯基

您的下一篇关于 RDF 的文章有什么进展或更新吗?

谢谢

 
更新到第 1940 版后,它不再工作了,计算的返回值是"-nan (ind)"。有人知道发生了什么吗?
 
Igor Vilela:
更新到第 1940 版后,它不再工作了,计算的返回值是"-nan (ind)"。有人知道发生了什么吗?

你好,请试试这个库https://www.mql5.com/zh/code/22915

或尝试重新编译

RL GMDH
RL GMDH
  • www.mql5.com
Данная библиотека имеет расширенный функционал, позволяющий создавать неограниченное количесто "Агентов". Использование библиотеки: Пример заполнения входных значений нормированными ценами закрытия: Обучение происходит в тестере...
 
谢谢你,马克西姆-德米特里耶夫斯基,但我已经掌握了有关此案的所有知识,我想尝试纠正这个错误,因为我已经在用这篇文章中提出的想法进行抢劫。请帮助确定是什么导致了错误。升级到 1940 版时停止工作。
 
Igor Vilela:
谢谢你,马克西姆-德米特里耶夫斯基,但我已经掌握了有关此案的所有知识,我想尝试纠正这个错误,因为我已经在用这篇文章中提出的想法进行抢劫。请帮助确定是什么导致了错误。升级到 1940 版时停止工作了。

尝试从此处下载正确的模糊库,因为 MT5 更新可能会将其更改为默认值。

https://www.mql5.com/ru/forum/63355#comment_5729505

Библиотеки: FuzzyNet - библиотека для работы с нечеткой логикой
Библиотеки: FuzzyNet - библиотека для работы с нечеткой логикой
  • 2015.08.26
  • www.mql5.com
8 новых функций принадлежности.
 
我成功地解决了这个问题,谢谢你 Maxim Dmitrievsky。
我再次将整个 MATH 文件夹复制到新的 metatrader 中,并重新启动了计算机。
 
FxTrader562:

亲爱的马克西姆-德米特里耶夫斯基

请问您是否已经发表了下一篇文章,介绍您之前提到的使用不同代理、不使用模糊逻辑的随机决策森林的实现方法?

非常感谢

您好,FxTrader,新文章已经翻译完毕,现在可以阅读

我不确定翻译质量,这不是我的工作,但我想一切都很好。

 

下午好。我不明白为什么我们需要在 Metatrader 中添加任何有关神经网络训练的内容?

有权重,它们需要使用 Metatrader 中的优化机制进行优化。难道您不认为 Metatrader 开发人员在训练网络/优化参数方面已经取得了很好的进展吗?

买入和卖出是根据指标定义的规则进行的。神经网络汇总这些指标的 "观察数据"(峰值数量、交易前夕的峰值高度等),但不汇总指标值本身,因为这是无稽之谈。您可以在训练过程中检查权重的配置,例如:如果市场在接下来的两天中朝着它应该走的方向发展,则权重配置为+1;如果市场朝着错误的方向发展,则权重配置为-1。最后,每个权重配置都有一个总和。这就是我们如何根据用户的标准优化权重的最佳配置(这是一个优化参数,一切都必须经过深思熟虑,对吧!)。

所述示例的代码有 40-50 行。这就是整个神经网络的训练过程。我又回到了我最初的问题:为什么你认为发明了一些复杂且难以理解的东西,你就离圣杯更近了呢?我创造的黑盒子越是复杂难懂,我就越是受宠若惊,好像我有多聪明似的!

 
Evgeniy Scherbina:

下午好。有一件事我不明白,为什么我们需要在 Metatrader 中添加神经网络训练的内容?

有权重,就需要使用 Metatrader 中的优化机制对其进行优化。难道您不认为 Metatrader 开发人员在训练网络/优化参数方面已经取得了很好的进展吗?

买入和卖出是根据指标定义的规则执行的。神经网络会汇总这些指标的 "观察数据"(峰值数量、交易前夕的峰值高度等),但不会汇总指标值本身,因为这是无稽之谈。您可以在训练过程中检查权重的配置,例如:如果市场在接下来的两天中朝着它应该走的方向发展,则权重配置为+1;如果市场朝着错误的方向发展,则权重配置为-1。最后,每个权重配置都有一个总和。这就是我们如何根据用户的标准优化权重的最佳配置(这是一个优化参数,一切都要考虑清楚!)。

所述示例的代码有 40-50 行。这就是整个神经网络的训练过程。我又回到了我最初的问题:为什么你认为发明了一些复杂且难以理解的东西,你就离圣杯更近了呢?我创造的黑盒子越是复杂难懂,我就越是受宠若惊,好像我有多聪明似的!

等你长大了,你就会明白了。

至少,对于初学者来说,先读读神经网络 中使用了哪些求解器,以及为什么没人用遗传学来训练它们。