Dmitriy Gizlyk
Dmitriy Gizlyk
4.4 (50)
  • 信息
12+ 年
经验
0
产品
0
演示版
134
工作
0
信号
0
订阅者
任何的MT4和MT5複雜專業寫作計劃。
Dmitriy Gizlyk
已发布文章神经网络变得简单(第 67 部分):按照过去的经验解决新任务
神经网络变得简单(第 67 部分):按照过去的经验解决新任务

在本文中,我们将继续讨论收集数据至训练集之中的方法。显然,学习过程需要与环境不断互动。不过,状况可能会有所不同。

JimReaper
JimReaper 2023.12.09
THIS IS GENIUS WORK Dmitriy! I Love this!
Dmitriy Gizlyk
已发布文章神经网络变得简单(第 66 部分):离线学习中的探索问题
神经网络变得简单(第 66 部分):离线学习中的探索问题

使用准备好的训练数据集中的数据对模型进行离线训练,这种方法虽然有一定的优势,但其不利的一面是,环境信息被大大压缩到训练数据集的大小。这反过来又限制了探索的可能性。在本文中,我们将探讨一种方法,这种方法可以用尽可能多样化的数据来填充训练数据集。

JimReaper
JimReaper 2023.12.05
You are the best! Thank you so much for your research. Beautifully done.!
Dmitriy Gizlyk
已发布文章神经网络变得简单(第 65 部分):距离加权监督学习(DWSL)
神经网络变得简单(第 65 部分):距离加权监督学习(DWSL)

在本文中,我们将领略一个有趣的算法,它是在监督和强化学习方法的交叉点上构建的。

Dmitriy Gizlyk
已发布文章神经网络变得简单(第 64 部分):保守加权行为克隆(CWBC)方法
神经网络变得简单(第 64 部分):保守加权行为克隆(CWBC)方法

据前几篇文章中所执行测试的结果,我们得出的结论是,训练策略的最优性很大程度上取决于所采用的训练集。在本文中,我们将熟悉一种相当简单,但有效的方法来选择轨迹,并据其训练模型。

Dmitriy Gizlyk
已发布文章神经网络变得简单(第 63 部分):决策转换器无监督预训练(PDT)
神经网络变得简单(第 63 部分):决策转换器无监督预训练(PDT)

我们将继续讨论决策转换器方法系列。从上一篇文章中,我们已经注意到,训练这些方法架构下的转换器是一项相当复杂的任务,需要一个大型标记数据集进行训练。在本文中,我们将观看到一种使用未标记轨迹进行初步模型训练的算法。

Dmitriy Gizlyk
已发布文章神经网络变得简单(第 62 部分):在层次化模型中运用决策转换器
神经网络变得简单(第 62 部分):在层次化模型中运用决策转换器

在最近的文章中,我们已看到了运用决策转换器方法的若干选项。该方法不仅可以分析当前状态,还可以分析先前状态的轨迹,以及在其中执行的动作。在本文中,我们将专注于在层次化模型中运用该方法。

Dmitriy Gizlyk
已发布文章神经网络变得简单(第 61 部分):离线强化学习中的乐观情绪问题
神经网络变得简单(第 61 部分):离线强化学习中的乐观情绪问题

在离线学习期间,我们基于训练样本数据优化了智能体的政策。成品政策令智能体对其动作充满信心。然而,这种乐观情绪并不总是正当的,并且可能会在模型操作期间导致风险增加。今天,我们要寻找降低这些风险的方法之一。

Dmitriy Gizlyk
已发布文章神经网络变得简单(第 60 部分):在线决策转换器(ODT)
神经网络变得简单(第 60 部分):在线决策转换器(ODT)

最近两篇文章专门介绍了决策转换器方法,其在期望奖励的自回归模型境况下针对动作序列进行建模。在本文中,我们将研究该方法的另一种优化算法。

Dmitriy Gizlyk
已发布文章神经网络变得简单(第 59 部分):控制二分法(DoC)
神经网络变得简单(第 59 部分):控制二分法(DoC)

在上一篇文章中,我们领略了决策变换器。但是,外汇市场复杂的随机环境不允许我们充分发挥所提议方法的潜能。在本文中,我将讲述一种算法,旨在提高在随机环境中的性能。

Dmitriy Gizlyk
已发布文章神经网络变得简单(第 58 部分):决策转换器(DT)
神经网络变得简单(第 58 部分):决策转换器(DT)

我们继续探索强化学习方法。在本文中,我将专注于一种略有不同的算法,其参考智能体政策构造一连串动作的范式。

Yao Wei Lai
Yao Wei Lai 2023.10.11
I greatly admire your article series "Neural Networks Make It Easy", but after reading it for a long time, I still don't understand how to generate models. Could you please send me the models used in each article? I would like to replicate your test to further learn relevant knowledge. Thank you!
Dmitriy Gizlyk
已发布文章神经网络变得简单(第 57 部分):随机边际扮演者-评论者(SMAC)
神经网络变得简单(第 57 部分):随机边际扮演者-评论者(SMAC)

在此,我将研究相当新颖的随机边际扮演者-评论者(SMAC)算法,该算法允许在熵值最大化的框架内构建潜在变量政策。

Dmitriy Gizlyk
已发布文章神经网络变得简单(第 56 部分):利用核范数推动研究
神经网络变得简单(第 56 部分):利用核范数推动研究

强化学习中的环境研究是一个紧迫的问题。我们之前已视察过一些方式。在本文中,我们将讲述另一种基于最大化核范数的方法。它允许智能体识别拥有高度新颖性和多样性的环境状态。

Dmitriy Gizlyk
已发布文章神经网络变得轻松(第五十五部分):对比内在控制(CIC)
神经网络变得轻松(第五十五部分):对比内在控制(CIC)

对比训练是一种无监督训练方法表象。它的目标是训练一个模型,突显数据集中的相似性和差异性。在本文中,我们将谈论使用对比训练方式来探索不同的扮演者技能。

Dmitriy Gizlyk
已发布文章神经网络变得轻松(第五十四部分):利用随机编码器(RE3)进行高效研究
神经网络变得轻松(第五十四部分):利用随机编码器(RE3)进行高效研究

无论何时我们研究强化学习方法时,我们都会面对有效探索环境的问题。解决这个问题通常会导致算法更复杂性,以及训练额外模型。在本文中,我们将看看解决此问题的替代方法。

Dmitriy Gizlyk
已发布文章神经网络变得轻松(第五十三部分):奖励分解
神经网络变得轻松(第五十三部分):奖励分解

我们已经不止一次地讨论过正确选择奖励函数的重要性,我们通过为单独动作添加奖励或惩罚来刺激代理者的预期行为。但是关于由代理者解密我们的信号的问题仍旧悬而未决。在本文中,我们将探讨将单独信号传输至已训练代理者时的奖励分解。

Dmitriy Gizlyk
已发布文章神经网络变得轻松(第五十二部分):研究乐观情绪和分布校正
神经网络变得轻松(第五十二部分):研究乐观情绪和分布校正

由于模型是基于经验复现缓冲区进行训练,故当前的扮演者政策会越来越远离存储的样本,这会降低整个模型的训练效率。在本文中,我们将查看一些能在强化学习算法中提升样本使用效率的算法。

Dmitriy Gizlyk
已发布文章神经网络变得轻松(第五十一部分):行为-指引的扮演者-评论者(BAC)
神经网络变得轻松(第五十一部分):行为-指引的扮演者-评论者(BAC)

最后两篇文章研究了软性扮演者-评论者算法,该算法将熵正则化整合到奖励函数当中。这种方式在环境探索和模型开发之间取得平衡,但它仅适用于随机模型。本文提出了一种替代方式,能适用于随机模型和确定性模型两者。

Dmitriy Gizlyk
已发布文章神经网络变得轻松(第五十部分):软性扮演者-评价者(模型优化)
神经网络变得轻松(第五十部分):软性扮演者-评价者(模型优化)

在上一篇文章中,我们实现了软性扮演者-评论者算法,但未能训练出一个可盈利的模型。在此,我们将优化先前创建的模型,以期获得所需的结果。

Dmitriy Gizlyk
已发布文章神经网络变得轻松(第四十九部分):软性扮演者-评价者
神经网络变得轻松(第四十九部分):软性扮演者-评价者

我们继续讨论解决连续动作空间问题的强化学习算法。在本文中,我将讲演软性扮演者-评论者(SAC)算法。SAC 的主要优点是拥有查找最佳策略的能力,不仅令预期回报最大化,而且拥有最大化的动作熵(多样性)。

JimReaper
JimReaper 2023.07.14
Enjoy!
Shah Yahya
Shah Yahya 2023.07.21
Thanks so much Dmitry! Really appreciate this.
Dmitriy Gizlyk
已发布文章神经网络变得轻松(第四十八部分):降低 Q-函数高估的方法
神经网络变得轻松(第四十八部分):降低 Q-函数高估的方法

在上一篇文章中,我们概述了 DDPG 方法,它允许在连续动作空间中训练模型。然而,与其它 Q-学习方法一样,DDPG 容易高估 Q-函数的数值。这个问题往往会造成训练代理者时选择次优策略。在本文中,我们将研究一些克服上述问题的方式。