文章 "您应当知道的 MQL5 向导技术(第 47 部分):配合时态差异的强化学习" 新评论 MetaQuotes 2025.09.01 08:27 新文章 您应当知道的 MQL5 向导技术(第 47 部分):配合时态差异的强化学习已发布: 时态差异是强化学习中的另一种算法,它基于智顾训练期间预测和实际奖励之间的差异更新 Q-值。它专门驻守更新 Q-值,而不介意它们的状态-动作配对。因此,我们考察如何在向导汇编的智能系统中应用这一点,正如我们在之前文章中所做的那样。 强化学习中的时态间差异(TD)简介,是理解 TD 如何与其它诸如蒙特卡洛(Monte Carlo)、Q-学习和 SARSA、等算法区分开来的门户。本文旨在通过强调 TD 学习的独特能力,来揭示 TD 学习的复杂性,即基于来自局次的部分信息,增量更新估值的能力,而非像蒙特卡洛方法中那样等待局次完成。这种区别令 TD 学习成为一种强大的工具,尤其是处于环境动态、且需及时更新学习政策的情况下。 在上一篇强化学习文章中,我们研究了蒙特卡洛算法,其每局执行单次更新之前,会在多个周期内收集奖励信息。然而,时态差异(TD)就是从部分和不完整的情节中学习,就像我们之前在此处和此处讨论的 Q-学习和 SARSA 算法一样。 作者:Stephen Njuki 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
新文章 您应当知道的 MQL5 向导技术(第 47 部分):配合时态差异的强化学习已发布:
强化学习中的时态间差异(TD)简介,是理解 TD 如何与其它诸如蒙特卡洛(Monte Carlo)、Q-学习和 SARSA、等算法区分开来的门户。本文旨在通过强调 TD 学习的独特能力,来揭示 TD 学习的复杂性,即基于来自局次的部分信息,增量更新估值的能力,而非像蒙特卡洛方法中那样等待局次完成。这种区别令 TD 学习成为一种强大的工具,尤其是处于环境动态、且需及时更新学习政策的情况下。
在上一篇强化学习文章中,我们研究了蒙特卡洛算法,其每局执行单次更新之前,会在多个周期内收集奖励信息。然而,时态差异(TD)就是从部分和不完整的情节中学习,就像我们之前在此处和此处讨论的 Q-学习和 SARSA 算法一样。
作者:Stephen Njuki