Dmitriy Gizlyk
Dmitriy Gizlyk
4.4 (49)
  • 信息
10+ 年
经验
0
产品
0
演示版
134
工作
0
信号
0
订阅者
任何的MT4和MT5複雜專業寫作計劃。
Dmitriy Gizlyk
已发布文章神经网络变得轻松(第四十六部分):条件导向目标强化学习(GCRL)
神经网络变得轻松(第四十六部分):条件导向目标强化学习(GCRL)

在本文中,我们要看看另一种强化学习方式。 它被称为条件导向目标强化学习(GCRL)。 按这种方式,代理者经过训练,可以在特定场景中达成不同的目标。

Dmitriy Gizlyk
已发布文章神经网络变得轻松(第四十五部分):训练状态探索技能
神经网络变得轻松(第四十五部分):训练状态探索技能

在没有明确奖励函数的情况下,实用的训练技能就是分层强化学习的主要挑战之一。 以前,我们已领略了解决此问题的两种算法。 但环境研究的完整性问题仍然悬而未决。 本文演示了一种不同的技能训练方式,其可取决于系统的当前状态直接使用。

· 4 2155
Dmitriy Gizlyk
已发布文章神经网络变得轻松(第四十四部分):动态学习技能
神经网络变得轻松(第四十四部分):动态学习技能

在上一篇文章中,我们讲解了 DIAYN 方法,它提供了学习各种技能的算法。 获得的技能可用在各种任务。 但这些技能可能非常难以预测,而这可能令它们难以运用。 在本文中,我们要研究一种针对学习可预测技能的算法。

· 3 1217
Dmitriy Gizlyk
已发布文章神经网络变得轻松(第四十三部分):无需奖励函数精通技能
神经网络变得轻松(第四十三部分):无需奖励函数精通技能

强化学习的问题在于需要定义奖励函数。 它可能很复杂,或难以形式化。 为了定解这个问题,我们正在探索一些基于行动和基于环境的方式,无需明确的奖励函数即可学习技能。

· 3 1072
Dmitriy Gizlyk
已发布文章神经网络变得轻松(第四十二部分):模型拖延症、原因和解决方案
神经网络变得轻松(第四十二部分):模型拖延症、原因和解决方案

在强化学习的背景下,模型拖延症可能由多种原因引起。 本文研究了模型拖延症的一些可能原因,以及克服它们的方法。

Dmitriy Gizlyk
已发布文章Neural networks made easy (Part 41): Hierarchical models
Neural networks made easy (Part 41): Hierarchical models

The article describes hierarchical training models that offer an effective approach to solving complex machine learning problems. Hierarchical models consist of several levels, each of which is responsible for different aspects of the task.

1
Dmitriy Gizlyk
已发布文章神经网络变得轻松(第四十部分):在大数据上运用 Go-Explore
神经网络变得轻松(第四十部分):在大数据上运用 Go-Explore

本文讨论 Go-Explore 算法覆盖长周期训练的运用,因为随着训练时间的增加,随机动作选择策略也许不会导致可盈利验算。

Dmitriy Gizlyk
已发布文章神经网络变得轻松(第三十九部分):Go-Explore,一种不同的探索方式
神经网络变得轻松(第三十九部分):Go-Explore,一种不同的探索方式

我们继续在强化学习模型中研究环境。 在本文中,我们将见识到另一种算法 — Go-Explore,它允许您在模型训练阶段有效地探索环境。

Dmitriy Gizlyk
已发布文章神经网络变得轻松(第三十八部分):凭借分歧进行自我监督探索
神经网络变得轻松(第三十八部分):凭借分歧进行自我监督探索

强化学习中的一个关键问题是环境探索。 之前,我们已经见识到基于内在好奇心的研究方法。 今天我提议看看另一种算法:凭借分歧进行探索。

Dmitriy Gizlyk
已发布文章神经网络变得轻松(第三十七部分):分散关注度
神经网络变得轻松(第三十七部分):分散关注度

在上一篇文章中,我们讨论了在其架构中使用关注度机制的关系模型。 这些模型的具体特征之一是计算资源的密集功用。 在本文中,我们将研究于自我关注度模块内减少计算操作数量的机制之一。 这将提高模型的常规性能。

Dmitriy Gizlyk
已发布文章神经网络变得轻松(第三十六部分):关系强化学习
神经网络变得轻松(第三十六部分):关系强化学习

在上一篇文章中讨论的强化学习模型中,我们用到了卷积网络的各种变体,这些变体能够识别原始数据中的各种对象。 卷积网络的主要优点是能够识别对象,无关它们的位置。 与此同时,当物体存在各种变形和噪声时,卷积网络并不能始终表现良好。 这些是关系模型可以解决的问题。

Dmitriy Gizlyk
已发布文章神经网络变得轻松(第三十五部分):内在好奇心模块
神经网络变得轻松(第三十五部分):内在好奇心模块

我们继续研究强化学习算法。 到目前为止,我们所研究的所有算法都需要创建一个奖励政策,从而令代理者能够每次从一个系统状态过渡到另一个系统状态的转换中估算其每个动作。 然而,这种方式人为因素相当大。 在实践中,动作和奖励之间存在一些时间滞后。 在本文中,我们将领略一种模型训练算法,该算法可以操控从动作到奖励的各种时间延迟。

· 2 1292
Dmitriy Gizlyk
已发布文章神经网络变得轻松(第三十四部分):全部参数化的分位数函数
神经网络变得轻松(第三十四部分):全部参数化的分位数函数

我们继续研究分布式 Q-学习算法。 在之前的文章中,我们研究了分布式和分位数 Q-学习算法。 在第一种算法当中,我们训练了给定数值范围的概率。 在第二种算法中,我们用给定的概率训练了范围。 在这两个发行版中,我们采用了一个先验分布知识,并训练了另一个。 在本文中,我们将研究一种算法,其允许模型针对两种分布进行训练。

· 2 1041
Dmitriy Gizlyk
已发布文章神经网络变得轻松(第三十三部分):分布式 Q-学习中的分位数回归
神经网络变得轻松(第三十三部分):分布式 Q-学习中的分位数回归

我们继续研究分布式 Q-学习。 今天我们将从另一个角度来看待这种方式。 我们将研究使用分位数回归来解决价格预测任务的可能性。

· 3 1089
Dmitriy Gizlyk
已发布文章神经网络变得轻松(第三十二部分):分布式 Q-学习
神经网络变得轻松(第三十二部分):分布式 Q-学习

我们在本系列的早期文章中领略了 Q-学习方法。 此方法均化每次操作的奖励。 2017 年出现了两篇论文,在研究奖励分配函数时展现出了极大的成功。 我们来研究运用这种技术解决我们问题的可能性。

· 2 1268
Abdulrahman F
Abdulrahman F 2023.01.20
Mm am hmm mm
Dmitriy Gizlyk
已发布文章神经网络变得轻松(第三十一部分):进化算法
神经网络变得轻松(第三十一部分):进化算法

在上一篇文章中,我们开始探索非梯度优化方法。 我们领略了遗传算法。 今天,我们将继续这个话题,并将研究另一类进化算法。

· 4 1193
Dmitriy Gizlyk
已发布文章神经网络变得轻松(第三十部分):遗传算法
神经网络变得轻松(第三十部分):遗传算法

今天我想给大家介绍一种略有不同的学习方法。 我们可以说它是从达尔文的进化论中借鉴而来的。 它可能比前面所讨论方法的可控性更低,但它允许训练不可微分的模型。

· 5 1056
Dmitriy Gizlyk
已发布文章神经网络变得轻松(第二十九部分):优势扮演者-评价者算法
神经网络变得轻松(第二十九部分):优势扮演者-评价者算法

在本系列的前几篇文章中,我们见识到两种增强的学习算法。 它们中的每一个都有自己的优点和缺点。 正如在这种情况下经常发生的那样,接下来的思路是将这两种方法合并到一个算法,使用两者间的最佳者。 这将弥补它们每种的短处。 本文将讨论其中一种方法。

Darius Sadauskas
Darius Sadauskas 2022.09.21
Hello, what I'm doing wrong ? I get error on compiling : 'vae' - undeclared identifier on NeuroNet.mqh line: 4130
xuebutayan
xuebutayan 2023.02.03
666
Dmitriy Gizlyk
已发布文章神经网络变得轻松(第二十八部分):政策梯度算法
神经网络变得轻松(第二十八部分):政策梯度算法

我们继续研究强化学习方法。 在上一篇文章中,我们领略了深度 Q-学习方法。 按这种方法,已训练模型依据在特定情况下采取的行动来预测即将到来的奖励。 然后,根据政策和预期奖励执行动作。 但并不总是能够近似 Q-函数。 有时它的近似不会产生预期的结果。 在这种情况下,近似方法不应用于功用函数,而是应用于动作的直接政策(策略)。 其中一种方法是政策梯度。

Dmitriy Gizlyk
已发布文章神经网络变得轻松(第二十七部分):深度 Q-学习(DQN)
神经网络变得轻松(第二十七部分):深度 Q-学习(DQN)

我们继续研究强化学习。 在本文中,我们将与深度 Q-学习方法打交道。 DeepMind 团队曾运用这种方法创建了一个模型,在玩 Atari 电脑游戏时其表现优于人类。 我认为评估该技术来解决交易问题的可能性将会很有益处。

· 7 1516
mi ya
mi ya 2022.09.05
I really appreciate you for your publishing articles series of machine learning on MQL5.