Dmitriy Gizlyk
Dmitriy Gizlyk
4.4 (50)
  • 信息
12+ 年
经验
0
产品
0
演示版
134
工作
0
信号
0
订阅者
X
任何的MT4和MT5複雜專業寫作計劃。
Dmitriy Gizlyk
已发布文章神经网络变得简单(第 57 部分):随机边际扮演者-评论者(SMAC)
神经网络变得简单(第 57 部分):随机边际扮演者-评论者(SMAC)

在此,我将研究相当新颖的随机边际扮演者-评论者(SMAC)算法,该算法允许在熵值最大化的框架内构建潜在变量政策。

Dmitriy Gizlyk
已发布文章神经网络变得简单(第 56 部分):利用核范数推动研究
神经网络变得简单(第 56 部分):利用核范数推动研究

强化学习中的环境研究是一个紧迫的问题。我们之前已视察过一些方式。在本文中,我们将讲述另一种基于最大化核范数的方法。它允许智能体识别拥有高度新颖性和多样性的环境状态。

Dmitriy Gizlyk
已发布文章神经网络变得轻松(第五十五部分):对比内在控制(CIC)
神经网络变得轻松(第五十五部分):对比内在控制(CIC)

对比训练是一种无监督训练方法表象。它的目标是训练一个模型,突显数据集中的相似性和差异性。在本文中,我们将谈论使用对比训练方式来探索不同的扮演者技能。

Dmitriy Gizlyk
已发布文章神经网络变得轻松(第五十四部分):利用随机编码器(RE3)进行高效研究
神经网络变得轻松(第五十四部分):利用随机编码器(RE3)进行高效研究

无论何时我们研究强化学习方法时,我们都会面对有效探索环境的问题。解决这个问题通常会导致算法更复杂性,以及训练额外模型。在本文中,我们将看看解决此问题的替代方法。

· 7 1020
Dmitriy Gizlyk
已发布文章神经网络变得轻松(第五十三部分):奖励分解
神经网络变得轻松(第五十三部分):奖励分解

我们已经不止一次地讨论过正确选择奖励函数的重要性,我们通过为单独动作添加奖励或惩罚来刺激代理者的预期行为。但是关于由代理者解密我们的信号的问题仍旧悬而未决。在本文中,我们将探讨将单独信号传输至已训练代理者时的奖励分解。

Dmitriy Gizlyk
已发布文章神经网络变得轻松(第五十二部分):研究乐观情绪和分布校正
神经网络变得轻松(第五十二部分):研究乐观情绪和分布校正

由于模型是基于经验复现缓冲区进行训练,故当前的扮演者政策会越来越远离存储的样本,这会降低整个模型的训练效率。在本文中,我们将查看一些能在强化学习算法中提升样本使用效率的算法。

· 5 1029
Dmitriy Gizlyk
已发布文章神经网络变得轻松(第五十一部分):行为-指引的扮演者-评论者(BAC)
神经网络变得轻松(第五十一部分):行为-指引的扮演者-评论者(BAC)

最后两篇文章研究了软性扮演者-评论者算法,该算法将熵正则化整合到奖励函数当中。这种方式在环境探索和模型开发之间取得平衡,但它仅适用于随机模型。本文提出了一种替代方式,能适用于随机模型和确定性模型两者。

Dmitriy Gizlyk
已发布文章神经网络变得轻松(第五十部分):软性扮演者-评价者(模型优化)
神经网络变得轻松(第五十部分):软性扮演者-评价者(模型优化)

在上一篇文章中,我们实现了软性扮演者-评论者算法,但未能训练出一个可盈利的模型。在此,我们将优化先前创建的模型,以期获得所需的结果。

Dmitriy Gizlyk
已发布文章神经网络变得轻松(第四十九部分):软性扮演者-评价者
神经网络变得轻松(第四十九部分):软性扮演者-评价者

我们继续讨论解决连续动作空间问题的强化学习算法。在本文中,我将讲演软性扮演者-评论者(SAC)算法。SAC 的主要优点是拥有查找最佳策略的能力,不仅令预期回报最大化,而且拥有最大化的动作熵(多样性)。

JimReaper
JimReaper 2023.07.14
Enjoy!
Shah Yahya
Shah Yahya 2023.07.21
Thanks so much Dmitry! Really appreciate this.
Dmitriy Gizlyk
已发布文章神经网络变得轻松(第四十八部分):降低 Q-函数高估的方法
神经网络变得轻松(第四十八部分):降低 Q-函数高估的方法

在上一篇文章中,我们概述了 DDPG 方法,它允许在连续动作空间中训练模型。然而,与其它 Q-学习方法一样,DDPG 容易高估 Q-函数的数值。这个问题往往会造成训练代理者时选择次优策略。在本文中,我们将研究一些克服上述问题的方式。

Dmitriy Gizlyk
已发布文章神经网络变得轻松(第四十七部分):连续动作空间
神经网络变得轻松(第四十七部分):连续动作空间

在本文中,我们扩展了代理者的任务范围。训练过程将包括一些资金和风险管理等方面,这是任何交易策略不可或缺的部分。

Tanaka Black
Tanaka Black 2023.06.29
hie Dimitriy, i have a job for you please check your message inbox
Dmitriy Gizlyk
已发布文章神经网络变得轻松(第四十六部分):条件导向目标强化学习(GCRL)
神经网络变得轻松(第四十六部分):条件导向目标强化学习(GCRL)

在本文中,我们要看看另一种强化学习方式。 它被称为条件导向目标强化学习(GCRL)。 按这种方式,代理者经过训练,可以在特定场景中达成不同的目标。

· 4 1315
Dmitriy Gizlyk
已发布文章神经网络变得轻松(第四十五部分):训练状态探索技能
神经网络变得轻松(第四十五部分):训练状态探索技能

在没有明确奖励函数的情况下,实用的训练技能就是分层强化学习的主要挑战之一。 以前,我们已领略了解决此问题的两种算法。 但环境研究的完整性问题仍然悬而未决。 本文演示了一种不同的技能训练方式,其可取决于系统的当前状态直接使用。

· 4 2598
Dmitriy Gizlyk
已发布文章神经网络变得轻松(第四十四部分):动态学习技能
神经网络变得轻松(第四十四部分):动态学习技能

在上一篇文章中,我们讲解了 DIAYN 方法,它提供了学习各种技能的算法。 获得的技能可用在各种任务。 但这些技能可能非常难以预测,而这可能令它们难以运用。 在本文中,我们要研究一种针对学习可预测技能的算法。

· 3 1583
Dmitriy Gizlyk
已发布文章神经网络变得轻松(第四十三部分):无需奖励函数精通技能
神经网络变得轻松(第四十三部分):无需奖励函数精通技能

强化学习的问题在于需要定义奖励函数。 它可能很复杂,或难以形式化。 为了定解这个问题,我们正在探索一些基于行动和基于环境的方式,无需明确的奖励函数即可学习技能。

· 3 1460
Dmitriy Gizlyk
已发布文章神经网络变得轻松(第四十二部分):模型拖延症、原因和解决方案
神经网络变得轻松(第四十二部分):模型拖延症、原因和解决方案

在强化学习的背景下,模型拖延症可能由多种原因引起。 本文研究了模型拖延症的一些可能原因,以及克服它们的方法。

Dmitriy Gizlyk
已发布文章Neural networks made easy (Part 41): Hierarchical models
Neural networks made easy (Part 41): Hierarchical models

The article describes hierarchical training models that offer an effective approach to solving complex machine learning problems. Hierarchical models consist of several levels, each of which is responsible for different aspects of the task.

1
Dmitriy Gizlyk
已发布文章神经网络变得轻松(第四十部分):在大数据上运用 Go-Explore
神经网络变得轻松(第四十部分):在大数据上运用 Go-Explore

本文讨论 Go-Explore 算法覆盖长周期训练的运用,因为随着训练时间的增加,随机动作选择策略也许不会导致可盈利验算。

· 1 1270
Dmitriy Gizlyk
已发布文章神经网络变得轻松(第三十九部分):Go-Explore,一种不同的探索方式
神经网络变得轻松(第三十九部分):Go-Explore,一种不同的探索方式

我们继续在强化学习模型中研究环境。 在本文中,我们将见识到另一种算法 — Go-Explore,它允许您在模型训练阶段有效地探索环境。

· 1 1401
Dmitriy Gizlyk
已发布文章神经网络变得轻松(第三十八部分):凭借分歧进行自我监督探索
神经网络变得轻松(第三十八部分):凭借分歧进行自我监督探索

强化学习中的一个关键问题是环境探索。 之前,我们已经见识到基于内在好奇心的研究方法。 今天我提议看看另一种算法:凭借分歧进行探索。

· 1 1412