文章 "神经网络变得轻松(第四十部分):在大数据上运用 Go-Explore"

 

新文章 神经网络变得轻松(第四十部分):在大数据上运用 Go-Explore已发布:

本文讨论 Go-Explore 算法覆盖长周期训练的运用,因为随着训练时间的增加,随机动作选择策略也许不会导致可盈利验算。

Go-Explore 算法随着训练周期的增加,浮现出一定的困难。 其中一些包括:

  1. 维度诅咒:随着训练周期的增加,代理者可以访问的状态数量呈指数级增长,这令查找最优策略变得更加困难。

  2. 环境变化:随着训练周期的增加,环境也许会发生变化,而这也许会影响代理者的学习成果。 这会导致以前成功的策略变得无效,甚至不可能。

  3. 选择动作困难:随着训练周期的增加,代理者也许需要考虑任务的更广泛背景,以便做出明智的决定。 这会令选择最佳行的任务复杂化,并且需要更复杂的方法来优化算法。

  4. 训练时间增加:随着训练周期的增加,收集足够数据和训练模型所需时间也会增加。 这会降低代理者训练的效率和速度。

随着训练周期的增加,需要探索的状态空间维度也许会出现增加的问题。 这也许会导致 “维度诅咒” 问题,其中可能状态的数量随着维度的增加呈指数增长。 这令状态空间探索变得困难,并可能导致算法花费太多时间探索不相关的状态。

为了检查训练模型的品质和成效,我们依据训练和测试样本对其进行了测试。 重点注意的是,我们的模型能够自 2023 年 5 月第一周的历史数据中获利,这些数据不包括在训练集之中,而是训练集的直接延续。

测试样本(2023 年 05 月) 测试样本(2023 年 05 月)


作者:Dmitriy Gizlyk