Dmitriy Gizlyk

4.4 (49)

情報

11+ 年経験	0 製品	0 デモバージョン
134 ジョブ	0 シグナル	0 購読者

Skype

Twitter

Professional programming of any complexity for MT4, MT5, C#.

友達 2030

Dmitriy Gizlyk 2023.07.28

パブリッシュされた記事ニューラルネットワークが簡単に（第51回）：Behavior-Guided Actor-Critic (BAC)

最後の2つの記事では、エントロピー正則化を報酬関数に組み込んだSoft Actor-Criticアルゴリズムについて検討しました。このアプローチは環境探索とモデル活用のバランスをとりますが、適用できるのは確率モデルのみです。今回の記事では、確率モデルと確定モデルの両方に適用できる代替アプローチを提案します。

· 3 145

Dmitriy Gizlyk 2023.07.21

パブリッシュされた記事ニューラルネットワークが簡単に（第50回）：Soft Actor-Critic（モデルの最適化）

前回の記事では、Soft Actor-Criticアルゴリズムを実装しましたが、有益なモデルを訓練することはできませんでした。今回は、先に作成したモデルを最適化し、望ましい結果を得ます。

· 4 152

Dmitriy Gizlyk 2023.07.11

パブリッシュされた記事ニューラルネットワークが簡単に（第49回）：Soft Actor-Critic

連続行動空間の問題を解決するための強化学習アルゴリズムについての議論を続けます。この記事では、Soft Actor-Critic (SAC)アルゴリズムについて説明します。SACの主な利点は、期待される報酬を最大化するだけでなく、行動のエントロピー（多様性）を最大化する最適な方策を見つけられることです。

· 4 297

JimReaper 2023.07.14

Enjoy!

Shah Yahya 2023.07.21

Thanks so much Dmitry! Really appreciate this.

Dmitriy Gizlyk 2023.07.03

パブリッシュされた記事ニューラルネットワークが簡単に（第48回）：Q関数値の過大評価を減らす方法

前回は、連続的な行動空間でモデルを学習できるDDPG法を紹介しました。しかし、他のQ学習法と同様、DDPGはQ関数値を過大評価しやすくなります。この問題によって、しばしば最適でない戦略でエージェントを訓練することになります。この記事では、前述の問題を克服するためのいくつかのアプローチを見ていきます。

· 4 755

Dmitriy Gizlyk 2023.06.26

パブリッシュされた記事ニューラルネットワークが簡単に（第47回）：連続行動空間

この記事では、エージェントのタスクの範囲を拡大します。訓練の過程には、どのような取引戦略にも不可欠な資金管理とリスク管理の側面も含まれます。

· 3 353

Tanaka Black 2023.06.29

hie Dimitriy, i have a job for you please check your message inbox

Dmitriy Gizlyk 2023.06.21

パブリッシュされた記事ニューラルネットワークが簡単に（第46回）：目標条件付き強化学習(GCRL)

今回は、もうひとつの強化学習アプローチを見てみましょう。これはGCRL（goal-conditioned reinforcement learning、目標条件付き強化学習）と呼ばれます。このアプローチでは、エージェントは特定のシナリオでさまざまな目標を達成するように訓練されます。

· 4 424

Dmitriy Gizlyk 2023.06.13

パブリッシュされた記事ニューラルネットワークが簡単に（第45回）：状態探索スキルの訓練

明示的な報酬関数なしに有用なスキルを訓練することは、階層的強化学習における主な課題の1つです。前回までに、この問題を解くための2つのアルゴリズムを紹介しましたが、環境調査の完全性についての疑問は残されています。この記事では、スキル訓練に対する異なるアプローチを示します。その使用は、システムの現在の状態に直接依存します。

· 4 255

Dmitriy Gizlyk 2023.06.07

パブリッシュされた記事ニューラルネットワークが簡単に（第44回）：ダイナミクスを意識したスキルの習得

前回は、様々なスキルを学習するアルゴリズムを提供するDIAYN法を紹介しました。習得したスキルはさまざまな仕事に活用できます。しかし、そのようなスキルは予測不可能なこともあり、使いこなすのは難しくなります。この記事では、予測可能なスキルを学習するアルゴリズムについて見ていきます。

· 3 274

Dmitriy Gizlyk 2023.05.29

パブリッシュされた記事ニューラルネットワークが簡単に（第43回）：報酬関数なしでスキルを習得する

強化学習の問題は、報酬関数を定義する必要性にあります。それは複雑であったり、形式化するのが難しかったりします。この問題に対処するため、明確な報酬関数を持たずにスキルを学習する、活動ベースや環境ベースのアプローチが研究されています。

· 3 574

Dmitriy Gizlyk 2023.05.19

パブリッシュされた記事ニューラルネットワークが簡単に (第42回）：先延ばしのモデル、理由と解決策

強化学習の文脈では、モデルの先延ばしにはいくつかの理由があります。この記事では、モデルの先延ばしの原因として考えられることと、それを克服するための方法について考察しています。

323

Dmitriy Gizlyk 2023.05.12

パブリッシュされた記事ニューラルネットワークが簡単に（第41回）：階層モデル

この記事では、複雑な機械学習問題を解決するための効果的なアプローチを提供する階層的訓練モデルについて説明します。階層モデルはいくつかのレベルで構成され、それぞれがタスクの異なる側面を担当します。

· 1 282

Dmitriy Gizlyk 2023.05.05

パブリッシュされた記事ニューラルネットワークが簡単に（第40回）：大量のデータでGo-Exploreを使用する

この記事では、長い訓練期間に対するGo-Exploreアルゴリズムの使用について説明します。訓練時間が長くなるにつれて、ランダムな行動選択戦略が有益なパスにつながらない可能性があるためです。

· 1 292

Dmitriy Gizlyk 2023.04.28

パブリッシュされた記事ニューラルネットワークが簡単に（第39回）：Go-Explore、探検への異なるアプローチ

強化学習モデルにおける環境の研究を続けます。この記事では、モデルの訓練段階で効果的に環境を探索することができる、もうひとつのアルゴリズム「Go-Explore」を見ていきます。

· 1 320

Dmitriy Gizlyk 2023.04.19

パブリッシュされた記事ニューラルネットワークが簡単に（第38回）：不一致による自己監視型探索

強化学習における重要な問題のひとつは、環境探索です。前回までに、「内因性好奇心」に基づく研究方法について見てきました。今日は別のアルゴリズムを見てみましょう。不一致による探求です。

· 1 408

Dmitriy Gizlyk 2023.04.05

パブリッシュされた記事ニューラルネットワークが簡単に（第37回）：スパースアテンション(Sparse Attention)

前回は、アテンションメカニズムをアーキテクチャーに用いたリレーショナルモデルについて説明しました。これらのモデルの特徴の1つは、コンピューティングリソースを集中的に利用することです。今回は、セルフアテンションブロック内部の演算回数を減らす仕組みの1つについて考えてみたいと思います。これにより、モデルの一般的なパフォーマンスが向上します。

· 1 549

Dmitriy Gizlyk 2023.03.01

パブリッシュされた記事ニューラルネットワークが簡単に（第36回）：関係強化学習

前回の記事で説明した強化学習モデルでは、元のデータ内のさまざまなオブジェクトを識別できる畳み込みネットワークのさまざまなバリアントを使用しました。畳み込みネットワークの主な利点は、場所に関係なくオブジェクトを識別できることです。同時に、畳み込みネットワークは、オブジェクトやノイズのさまざまな変形がある場合、常にうまく機能するとは限りません。これらは、関係モデルが解決できる問題です。

745

Dmitriy Gizlyk 2022.12.06

パブリッシュされた記事ニューラルネットワークが簡単に（第35回）：ICM（Intrinsic Curiosity Module、内発的好奇心モジュール）

強化学習アルゴリズムの研究を続けます。これまで検討してきたすべてのアルゴリズムでは、あるシステム状態から別の状態への遷移ごとに、エージェントがそれぞれの行動を評価できるようにするための報酬方策を作成する必要がありました。しかし、この方法はかなり人工的なものです。実際には、行動と報酬の間には、ある程度の時間差があります。今回は、行動から報酬までの様々な時間の遅れを扱うことができるモデル訓練アルゴリズムに触れてみましょう。

· 2 363

Dmitriy Gizlyk 2022.11.29

パブリッシュされた記事ニューラルネットワークが簡単に（第34部）：FQF（Fully Parameterized Quantile Function、完全にパラメータ化された分位数関数）

分散型Q学習アルゴリズムの研究を続けます。以前の記事では、分散型の分位数Q学習アルゴリズムについて検討しました。最初のアルゴリズムでは、与えられた範囲の値の確率を訓練しました。2番目のアルゴリズムでは、特定の確率で範囲を訓練しました。それらの両方で、1つの分布のアプリオリな知識を使用し、別の分布を訓練しました。この記事では、モデルが両方の分布で訓練できるようにするアルゴリズムを検討します。

· 2 290

Dmitriy Gizlyk 2022.11.17

パブリッシュされた記事ニューラルネットワークが簡単に（第33部）：分散型Q学習における分位点回帰

分散型Q学習の研究を続けます。今日は、この方法を反対側から見てみましょう。価格予測問題を解決するために、分位点回帰を利用する可能性を検討します。

· 3 458

Dmitriy Gizlyk 2022.11.08

パブリッシュされた記事ニューラルネットワークが簡単に（第32部）：分散型Q学習

この連載で前回Q学習法を紹介しました。この手法は、各行動の報酬を平均化するものです。2017年には、報酬分布関数を研究する際に、より大きな成果を示す2つの研究が発表されました。そのような技術を使って、私たちの問題を解決する可能性を考えてみましょう。

· 2 466

Abdulrahman F 2023.01.20

Mm am hmm mm

1 2 3 4 5 6 7 8 9 10 11 12