文章 "神经网络变得轻松(第二十六部分):强化学习"

 

新文章 神经网络变得轻松(第二十六部分):强化学习已发布:

我们继续研究机器学习方法。 自本文,我们开始另一个大话题,强化学习。 这种方式允许为模型设置某些策略来解决问题。 我们可以预期,强化学习的这种特性将为构建交易策略开辟新的视野。

我们总是环顾四周,通过触摸、以及倾听声音,来评估物体。 如此这般,我们每时每刻都通过我们的感官来评估我们的世界。 在我们的脑海中,我们固化其状态。

类似地,环境生成其状态,由代理者评估。

与我们按照人类的世界观行事类似,代理者根据其政策(策略)执行行动

这种影响导致环境按照一定概率发生变化。 对于每个行动,代理者都会从环境中收到一些奖励奖励可以是正面的,也可以是负面的。 根据奖励,代理者可以评估所采取行动的功用性。

强化学习

作者:Dmitriy Gizlyk