Dmitriy Gizlyk
Dmitriy Gizlyk
  • 情報
10+ 年
経験
0
製品
0
デモバージョン
134
ジョブ
0
シグナル
0
購読者
Professional writing programs of any complexity for MT4, MT5, C#.
Dmitriy Gizlyk
パブリッシュされた記事Нейросети — это просто (Часть 71): Прогнозирование будущих состояний с учетом поставленных целей (GCPC)
Нейросети — это просто (Часть 71): Прогнозирование будущих состояний с учетом поставленных целей (GCPC)

В предыдущих работах мы познакомились с методом Decision Transformer и несколькими производными от него алгоритмами. Мы экспериментировали с различными методами постановки цели. В процессе экспериментов мы работали с различными способами постановки целей, однако изучение моделью уже пройденной траектории всегда оставалось вне нашего внимания. В данной статье я хочу познакомить Вас с методом, который заполняет этот пробел.

3
Dmitriy Gizlyk
パブリッシュされた記事Нейросети — это просто (Часть 70): Улучшение политики с использованием операторов в закрытой форме (CFPI)
Нейросети — это просто (Часть 70): Улучшение политики с использованием операторов в закрытой форме (CFPI)

В этой статье мы предлагаем познакомиться с алгоритмом, который использует операторы улучшения политики в закрытой форме для оптимизации действий Агента в офлайн режиме.

2
Dmitriy Gizlyk
パブリッシュされた記事Neural networks made easy (Part 69): Density-based support constraint for the behavioral policy (SPOT)
Neural networks made easy (Part 69): Density-based support constraint for the behavioral policy (SPOT)

In offline learning, we use a fixed dataset, which limits the coverage of environmental diversity. During the learning process, our Agent can generate actions beyond this dataset. If there is no feedback from the environment, how can we be sure that the assessments of such actions are correct? Maintaining the Agent's policy within the training dataset becomes an important aspect to ensure the reliability of training. This is what we will talk about in this article.

2
JimReaper
JimReaper 2023.12.22
Hi Dmitriy, seems like the article is incomplete.
Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第68回):オフライン選好誘導方策最適化
ニューラルネットワークが簡単に(第68回):オフライン選好誘導方策最適化

最初の記事で強化学習を扱って以来、何らかの形で、環境の探索と報酬関数の決定という2つの問題に触れてきました。最近の記事は、オフライン学習における探索の問題に費やされています。今回は、作者が報酬関数を完全に排除したアルゴリズムを紹介したいと思います。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第67回):過去の経験を活かした新しい課題の解決
ニューラルネットワークが簡単に(第67回):過去の経験を活かした新しい課題の解決

この記事では、訓練セットにデータを収集する方法について引き続き説明します。明らかに、学習プロセスには環境との絶え間ない相互作用が必要です。しかし、状況はさまざまです。

JimReaper
JimReaper 2023.12.09
THIS IS GENIUS WORK Dmitriy! I Love this!
Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第66回):オフライン学習における探索問題
ニューラルネットワークが簡単に(第66回):オフライン学習における探索問題

モデルは、用意された訓練データセットのデータを使用してオフラインで訓練されます。一定の利点がある反面、環境に関する情報が訓練データセットのサイズに大きく圧縮されてしまうというマイナス面もあります。それが逆に、探求の可能性を狭めています。この記事では、可能な限り多様なデータで訓練データセットを埋めることができる方法について考えます。

JimReaper
JimReaper 2023.12.05
You are the best! Thank you so much for your research. Beautifully done.!
Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第65回):Distance Weighted Supervised Learning (DWSL)
ニューラルネットワークが簡単に(第65回):Distance Weighted Supervised Learning (DWSL)

この記事では、教師あり学習法と強化学習法の交差点で構築された興味深いアルゴリズムに触れます。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第64回):ConserWeightive Behavioral Cloning (CWBC)法
ニューラルネットワークが簡単に(第64回):ConserWeightive Behavioral Cloning (CWBC)法

以前の記事でおこなったテストの結果、訓練された戦略の最適性は、使用する訓練セットに大きく依存するという結論に達しました。この記事では、モデルを訓練するための軌道を選択するための、シンプルかつ効果的な手法を紹介します。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第63回):Unsupervised Pretraining for Decision Transformer (PDT)
ニューラルネットワークが簡単に(第63回):Unsupervised Pretraining for Decision Transformer (PDT)

引き続き、Decision Transformer法のファミリーについて説明します。前回の記事から、これらの手法のアーキテクチャの基礎となるTransformerの訓練はかなり複雑なタスクであり、訓練のために大規模なラベル付きデータセットが必要であることにすでに気づきました。この記事では、ラベル付けされていない軌跡をモデルの予備訓練に使用するアルゴリズムについて見ていきます。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第62回):階層モデルにおけるDecision Transformerの使用
ニューラルネットワークが簡単に(第62回):階層モデルにおけるDecision Transformerの使用

最近の記事で、Decision Transformerを使用するためのいくつかの選択肢を見てきました。この方法では、現在の状態だけでなく、以前の状態の軌跡や、その中でおこなわれた行動も分析することができます。この記事では、階層モデルにおけるこの方法の使用に焦点を当てます。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第61回):オフライン強化学習における楽観論の問題
ニューラルネットワークが簡単に(第61回):オフライン強化学習における楽観論の問題

オフライン訓練では、訓練サンプルデータに基づいてエージェントの方策を最適化します。その結果、エージェントは自分の行動に自信を持つことができます。しかし、そのような楽観論は必ずしも正当化されるとは限らず、模型の操作中にリスクを増大させる可能性があります。今日は、こうしたリスクを軽減するための方法の1つを紹介しましょう。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第60回):Online Decision Transformer (ODT)
ニューラルネットワークが簡単に(第60回):Online Decision Transformer (ODT)

最後の2つの記事は、望ましい報酬の自己回帰モデルの文脈で行動シーケンスをモデル化するDecision Transformer法に費やされました。この記事では、この方法の別の最適化アルゴリズムについて見ていきます。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第59回):コントロールの二分法(DoC)
ニューラルネットワークが簡単に(第59回):コントロールの二分法(DoC)

前回の記事では、Decision Transformerを紹介しました。しかし、外国為替市場の複雑な確率的環境は、提示した手法の可能性を完全に実現することを許しませんでした。今回は、確率的環境におけるアルゴリズムの性能向上を目的としたアルゴリズムを紹介します。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第58回):Decision Transformer (DT)
ニューラルネットワークが簡単に(第58回):Decision Transformer (DT)

強化学習の手法を引き続き検討します。この記事では、一連の行動を構築するパラダイムでエージェントの方策を考慮する、少し異なるアルゴリズムに焦点を当てます。

Yao Wei Lai
Yao Wei Lai 2023.10.11
I greatly admire your article series "Neural Networks Make It Easy", but after reading it for a long time, I still don't understand how to generate models. Could you please send me the models used in each article? I would like to replicate your test to further learn relevant knowledge. Thank you!
Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第57回):Stochastic Marginal Actor-Critic (SMAC)
ニューラルネットワークが簡単に(第57回):Stochastic Marginal Actor-Critic (SMAC)

今回は、かなり新しいStochastic Marginal Actor-Critic (SMAC)アルゴリズムを検討します。このアルゴリズムは、エントロピー最大化の枠組みの中で潜在変数方策を構築することができます。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第56回):核型ノルムを研究の推進力に
ニューラルネットワークが簡単に(第56回):核型ノルムを研究の推進力に

強化学習における環境の研究は喫緊の課題です。いくつかのアプローチについてすでに見てきました。この記事では、核型ノルムの最大化に基づくもう一つの方法について見てみましょう。これにより、エージェントは新規性と多様性の高い環境状態を特定することができます。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第55回):対照的内発制御(Contrastive intrinsic control、CIC)
ニューラルネットワークが簡単に(第55回):対照的内発制御(Contrastive intrinsic control、CIC)

対照訓練は、教師なしで表現を訓練する方法です。その目標は、データセットの類似点と相違点を強調するためにモデルを訓練することです。この記事では、対照訓練アプローチを使用してさまざまなActorスキルを探究する方法について説明します。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第54回):ランダムエンコーダを使った効率的な研究(RE3)
ニューラルネットワークが簡単に(第54回):ランダムエンコーダを使った効率的な研究(RE3)

強化学習手法を検討するときは常に、環境を効率的に探索するという問題に直面します。この問題を解決すると、多くの場合、アルゴリズムが複雑になり、追加モデルの訓練が必要になります。この記事では、この問題を解決するための別のアプローチを見ていきます。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第53回):報酬の分解
ニューラルネットワークが簡単に(第53回):報酬の分解

報酬関数を正しく選択することの重要性については、すでに何度かお話ししました。報酬関数は、個々の行動に報酬またはペナルティを追加することでエージェントの望ましい行動を刺激するために使用されます。しかし、エージェントによる信号の解読については未解決のままです。この記事では、訓練されたエージェントに個々のシグナルを送信するという観点からの報酬分解について説明します。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第52回):楽観論と分布補正の研究
ニューラルネットワークが簡単に(第52回):楽観論と分布補正の研究

経験再現バッファに基づいてモデルが訓練されるにつれて、現在のActor方策は保存されている例からどんどん離れていき、モデル全体としての訓練効率が低下します。今回は、強化学習アルゴリズムにおけるサンプルの利用効率を向上させるアルゴリズムについて見ていきます。