Dmitriy Gizlyk
Dmitriy Gizlyk
  • 情報
10+ 年
経験
0
製品
0
デモバージョン
134
ジョブ
0
シグナル
0
購読者
Professional writing programs of any complexity for MT4, MT5, C#.
Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第48回):Q関数値の過大評価を減らす方法
ニューラルネットワークが簡単に(第48回):Q関数値の過大評価を減らす方法

前回は、連続的な行動空間でモデルを学習できるDDPG法を紹介しました。しかし、他のQ学習法と同様、DDPGはQ関数値を過大評価しやすくなります。この問題によって、しばしば最適でない戦略でエージェントを訓練することになります。この記事では、前述の問題を克服するためのいくつかのアプローチを見ていきます。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第47回):連続行動空間
ニューラルネットワークが簡単に(第47回):連続行動空間

この記事では、エージェントのタスクの範囲を拡大します。訓練の過程には、どのような取引戦略にも不可欠な資金管理とリスク管理の側面も含まれます。

Tanaka Black
Tanaka Black 2023.06.29
hie Dimitriy, i have a job for you please check your message inbox
Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第46回):目標条件付き強化学習(GCRL)
ニューラルネットワークが簡単に(第46回):目標条件付き強化学習(GCRL)

今回は、もうひとつの強化学習アプローチを見てみましょう。これはGCRL(goal-conditioned reinforcement learning、目標条件付き強化学習)と呼ばれます。このアプローチでは、エージェントは特定のシナリオでさまざまな目標を達成するように訓練されます。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第45回):状態探索スキルの訓練
ニューラルネットワークが簡単に(第45回):状態探索スキルの訓練

明示的な報酬関数なしに有用なスキルを訓練することは、階層的強化学習における主な課題の1つです。前回までに、この問題を解くための2つのアルゴリズムを紹介しましたが、環境調査の完全性についての疑問は残されています。この記事では、スキル訓練に対する異なるアプローチを示します。その使用は、システムの現在の状態に直接依存します。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第44回):ダイナミクスを意識したスキルの習得
ニューラルネットワークが簡単に(第44回):ダイナミクスを意識したスキルの習得

前回は、様々なスキルを学習するアルゴリズムを提供するDIAYN法を紹介しました。習得したスキルはさまざまな仕事に活用できます。しかし、そのようなスキルは予測不可能なこともあり、使いこなすのは難しくなります。この記事では、予測可能なスキルを学習するアルゴリズムについて見ていきます。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第43回):報酬関数なしでスキルを習得する
ニューラルネットワークが簡単に(第43回):報酬関数なしでスキルを習得する

強化学習の問題は、報酬関数を定義する必要性にあります。それは複雑であったり、形式化するのが難しかったりします。この問題に対処するため、明確な報酬関数を持たずにスキルを学習する、活動ベースや環境ベースのアプローチが研究されています。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に (第42回):先延ばしのモデル、理由と解決策
ニューラルネットワークが簡単に (第42回):先延ばしのモデル、理由と解決策

強化学習の文脈では、モデルの先延ばしにはいくつかの理由があります。この記事では、モデルの先延ばしの原因として考えられることと、それを克服するための方法について考察しています。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第41回):階層モデル
ニューラルネットワークが簡単に(第41回):階層モデル

この記事では、複雑な機械学習問題を解決するための効果的なアプローチを提供する階層的訓練モデルについて説明します。階層モデルはいくつかのレベルで構成され、それぞれがタスクの異なる側面を担当します。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第40回):大量のデータでGo-Exploreを使用する
ニューラルネットワークが簡単に(第40回):大量のデータでGo-Exploreを使用する

この記事では、長い訓練期間に対するGo-Exploreアルゴリズムの使用について説明します。訓練時間が長くなるにつれて、ランダムな行動選択戦略が有益なパスにつながらない可能性があるためです。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第39回):Go-Explore、探検への異なるアプローチ
ニューラルネットワークが簡単に(第39回):Go-Explore、探検への異なるアプローチ

強化学習モデルにおける環境の研究を続けます。この記事では、モデルの訓練段階で効果的に環境を探索することができる、もうひとつのアルゴリズム「Go-Explore」を見ていきます。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第38回):不一致による自己監視型探索
ニューラルネットワークが簡単に(第38回):不一致による自己監視型探索

強化学習における重要な問題のひとつは、環境探索です。前回までに、「内因性好奇心」に基づく研究方法について見てきました。今日は別のアルゴリズムを見てみましょう。不一致による探求です。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第37回):スパースアテンション(Sparse Attention)
ニューラルネットワークが簡単に(第37回):スパースアテンション(Sparse Attention)

前回は、アテンションメカニズムをアーキテクチャーに用いたリレーショナルモデルについて説明しました。これらのモデルの特徴の1つは、コンピューティングリソースを集中的に利用することです。今回は、セルフアテンションブロック内部の演算回数を減らす仕組みの1つについて考えてみたいと思います。これにより、モデルの一般的なパフォーマンスが向上します。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第36回):関係強化学習
ニューラルネットワークが簡単に(第36回):関係強化学習

前回の記事で説明した強化学習モデルでは、元のデータ内のさまざまなオブジェクトを識別できる畳み込みネットワークのさまざまなバリアントを使用しました。畳み込みネットワークの主な利点は、場所に関係なくオブジェクトを識別できることです。同時に、畳み込みネットワークは、オブジェクトやノイズのさまざまな変形がある場合、常にうまく機能するとは限りません。これらは、関係モデルが解決できる問題です。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第35回):ICM(Intrinsic Curiosity Module、内発的好奇心モジュール)
ニューラルネットワークが簡単に(第35回):ICM(Intrinsic Curiosity Module、内発的好奇心モジュール)

強化学習アルゴリズムの研究を続けます。これまで検討してきたすべてのアルゴリズムでは、あるシステム状態から別の状態への遷移ごとに、エージェントがそれぞれの行動を評価できるようにするための報酬方策を作成する必要がありました。しかし、この方法はかなり人工的なものです。実際には、行動と報酬の間には、ある程度の時間差があります。今回は、行動から報酬までの様々な時間の遅れを扱うことができるモデル訓練アルゴリズムに触れてみましょう。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第34部):FQF(Fully Parameterized Quantile Function、完全にパラメータ化された分位数関数)
ニューラルネットワークが簡単に(第34部):FQF(Fully Parameterized Quantile Function、完全にパラメータ化された分位数関数)

分散型Q学習アルゴリズムの研究を続けます。以前の記事では、分散型の分位数Q学習アルゴリズムについて検討しました。最初のアルゴリズムでは、与えられた範囲の値の確率を訓練しました。2番目のアルゴリズムでは、特定の確率で範囲を訓練しました。それらの両方で、1つの分布のアプリオリな知識を使用し、別の分布を訓練しました。この記事では、モデルが両方の分布で訓練できるようにするアルゴリズムを検討します。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第33部):分散型Q学習における分位点回帰
ニューラルネットワークが簡単に(第33部):分散型Q学習における分位点回帰

分散型Q学習の研究を続けます。今日は、この方法を反対側から見てみましょう。価格予測問題を解決するために、分位点回帰を利用する可能性を検討します。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第32部):分散型Q学習
ニューラルネットワークが簡単に(第32部):分散型Q学習

この連載で前回Q学習法を紹介しました。この手法は、各行動の報酬を平均化するものです。2017年には、報酬分布関数を研究する際に、より大きな成果を示す2つの研究が発表されました。そのような技術を使って、私たちの問題を解決する可能性を考えてみましょう。

Abdulrahman F
Abdulrahman F 2023.01.20
Mm am hmm mm
Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第31部):進化的アルゴリズム
ニューラルネットワークが簡単に(第31部):進化的アルゴリズム

前回の記事では、非勾配最適化手法の調査を開始しました。遺伝的アルゴリズムについて学びました。今日は、このトピックを継続し、進化的アルゴリズムの別のクラスを検討します。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第30部):遺伝的アルゴリズム
ニューラルネットワークが簡単に(第30部):遺伝的アルゴリズム

今日はちょっと変わった学習法を紹介したいと思います。ダーウィンの進化論からの借用と言えます。先に述べた手法よりも制御性は劣るでしょうが、非差別的なモデルの訓練が可能です。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第29部):Advantage Actor-Criticアルゴリズム
ニューラルネットワークが簡単に(第29部):Advantage Actor-Criticアルゴリズム

本連載のこれまでの記事で、2つの強化学習アルゴリズムを見てきました。それぞれに長所と短所があります。このような場合ではよくあることですが、次に、2つの方法の良いところを組み合わせてアルゴリズムにすることが考え出されます。そうすれば、それぞれの欠点が補われることになります。今回は、そのような手法の1つを紹介します。

Darius Sadauskas
Darius Sadauskas 2022.09.21
Hello, what I'm doing wrong ? I get error on compiling : 'vae' - undeclared identifier on NeuroNet.mqh line: 4130
xuebutayan
xuebutayan 2023.02.03
666