Dmitriy Gizlyk
Dmitriy Gizlyk
  • 情報
10+ 年
経験
0
製品
0
デモバージョン
134
ジョブ
0
シグナル
0
購読者
Professional writing programs of any complexity for MT4, MT5, C#.
Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第46回):目標条件付き強化学習(GCRL)
ニューラルネットワークが簡単に(第46回):目標条件付き強化学習(GCRL)

今回は、もうひとつの強化学習アプローチを見てみましょう。これはGCRL(goal-conditioned reinforcement learning、目標条件付き強化学習)と呼ばれます。このアプローチでは、エージェントは特定のシナリオでさまざまな目標を達成するように訓練されます。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第45回):状態探索スキルの訓練
ニューラルネットワークが簡単に(第45回):状態探索スキルの訓練

明示的な報酬関数なしに有用なスキルを訓練することは、階層的強化学習における主な課題の1つです。前回までに、この問題を解くための2つのアルゴリズムを紹介しましたが、環境調査の完全性についての疑問は残されています。この記事では、スキル訓練に対する異なるアプローチを示します。その使用は、システムの現在の状態に直接依存します。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第44回):ダイナミクスを意識したスキルの習得
ニューラルネットワークが簡単に(第44回):ダイナミクスを意識したスキルの習得

前回は、様々なスキルを学習するアルゴリズムを提供するDIAYN法を紹介しました。習得したスキルはさまざまな仕事に活用できます。しかし、そのようなスキルは予測不可能なこともあり、使いこなすのは難しくなります。この記事では、予測可能なスキルを学習するアルゴリズムについて見ていきます。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第43回):報酬関数なしでスキルを習得する
ニューラルネットワークが簡単に(第43回):報酬関数なしでスキルを習得する

強化学習の問題は、報酬関数を定義する必要性にあります。それは複雑であったり、形式化するのが難しかったりします。この問題に対処するため、明確な報酬関数を持たずにスキルを学習する、活動ベースや環境ベースのアプローチが研究されています。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に (第42回):先延ばしのモデル、理由と解決策
ニューラルネットワークが簡単に (第42回):先延ばしのモデル、理由と解決策

強化学習の文脈では、モデルの先延ばしにはいくつかの理由があります。この記事では、モデルの先延ばしの原因として考えられることと、それを克服するための方法について考察しています。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第41回):階層モデル
ニューラルネットワークが簡単に(第41回):階層モデル

この記事では、複雑な機械学習問題を解決するための効果的なアプローチを提供する階層的訓練モデルについて説明します。階層モデルはいくつかのレベルで構成され、それぞれがタスクの異なる側面を担当します。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第40回):大量のデータでGo-Exploreを使用する
ニューラルネットワークが簡単に(第40回):大量のデータでGo-Exploreを使用する

この記事では、長い訓練期間に対するGo-Exploreアルゴリズムの使用について説明します。訓練時間が長くなるにつれて、ランダムな行動選択戦略が有益なパスにつながらない可能性があるためです。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第39回):Go-Explore、探検への異なるアプローチ
ニューラルネットワークが簡単に(第39回):Go-Explore、探検への異なるアプローチ

強化学習モデルにおける環境の研究を続けます。この記事では、モデルの訓練段階で効果的に環境を探索することができる、もうひとつのアルゴリズム「Go-Explore」を見ていきます。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第38回):不一致による自己監視型探索
ニューラルネットワークが簡単に(第38回):不一致による自己監視型探索

強化学習における重要な問題のひとつは、環境探索です。前回までに、「内因性好奇心」に基づく研究方法について見てきました。今日は別のアルゴリズムを見てみましょう。不一致による探求です。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第37回):スパースアテンション(Sparse Attention)
ニューラルネットワークが簡単に(第37回):スパースアテンション(Sparse Attention)

前回は、アテンションメカニズムをアーキテクチャーに用いたリレーショナルモデルについて説明しました。これらのモデルの特徴の1つは、コンピューティングリソースを集中的に利用することです。今回は、セルフアテンションブロック内部の演算回数を減らす仕組みの1つについて考えてみたいと思います。これにより、モデルの一般的なパフォーマンスが向上します。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第36回):関係強化学習
ニューラルネットワークが簡単に(第36回):関係強化学習

前回の記事で説明した強化学習モデルでは、元のデータ内のさまざまなオブジェクトを識別できる畳み込みネットワークのさまざまなバリアントを使用しました。畳み込みネットワークの主な利点は、場所に関係なくオブジェクトを識別できることです。同時に、畳み込みネットワークは、オブジェクトやノイズのさまざまな変形がある場合、常にうまく機能するとは限りません。これらは、関係モデルが解決できる問題です。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第35回):ICM(Intrinsic Curiosity Module、内発的好奇心モジュール)
ニューラルネットワークが簡単に(第35回):ICM(Intrinsic Curiosity Module、内発的好奇心モジュール)

強化学習アルゴリズムの研究を続けます。これまで検討してきたすべてのアルゴリズムでは、あるシステム状態から別の状態への遷移ごとに、エージェントがそれぞれの行動を評価できるようにするための報酬方策を作成する必要がありました。しかし、この方法はかなり人工的なものです。実際には、行動と報酬の間には、ある程度の時間差があります。今回は、行動から報酬までの様々な時間の遅れを扱うことができるモデル訓練アルゴリズムに触れてみましょう。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第34部):FQF(Fully Parameterized Quantile Function、完全にパラメータ化された分位数関数)
ニューラルネットワークが簡単に(第34部):FQF(Fully Parameterized Quantile Function、完全にパラメータ化された分位数関数)

分散型Q学習アルゴリズムの研究を続けます。以前の記事では、分散型の分位数Q学習アルゴリズムについて検討しました。最初のアルゴリズムでは、与えられた範囲の値の確率を訓練しました。2番目のアルゴリズムでは、特定の確率で範囲を訓練しました。それらの両方で、1つの分布のアプリオリな知識を使用し、別の分布を訓練しました。この記事では、モデルが両方の分布で訓練できるようにするアルゴリズムを検討します。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第33部):分散型Q学習における分位点回帰
ニューラルネットワークが簡単に(第33部):分散型Q学習における分位点回帰

分散型Q学習の研究を続けます。今日は、この方法を反対側から見てみましょう。価格予測問題を解決するために、分位点回帰を利用する可能性を検討します。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第32部):分散型Q学習
ニューラルネットワークが簡単に(第32部):分散型Q学習

この連載で前回Q学習法を紹介しました。この手法は、各行動の報酬を平均化するものです。2017年には、報酬分布関数を研究する際に、より大きな成果を示す2つの研究が発表されました。そのような技術を使って、私たちの問題を解決する可能性を考えてみましょう。

Abdulrahman F
Abdulrahman F 2023.01.20
Mm am hmm mm
Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第31部):進化的アルゴリズム
ニューラルネットワークが簡単に(第31部):進化的アルゴリズム

前回の記事では、非勾配最適化手法の調査を開始しました。遺伝的アルゴリズムについて学びました。今日は、このトピックを継続し、進化的アルゴリズムの別のクラスを検討します。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第30部):遺伝的アルゴリズム
ニューラルネットワークが簡単に(第30部):遺伝的アルゴリズム

今日はちょっと変わった学習法を紹介したいと思います。ダーウィンの進化論からの借用と言えます。先に述べた手法よりも制御性は劣るでしょうが、非差別的なモデルの訓練が可能です。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第29部):Advantage Actor-Criticアルゴリズム
ニューラルネットワークが簡単に(第29部):Advantage Actor-Criticアルゴリズム

本連載のこれまでの記事で、2つの強化学習アルゴリズムを見てきました。それぞれに長所と短所があります。このような場合ではよくあることですが、次に、2つの方法の良いところを組み合わせてアルゴリズムにすることが考え出されます。そうすれば、それぞれの欠点が補われることになります。今回は、そのような手法の1つを紹介します。

Darius Sadauskas
Darius Sadauskas 2022.09.21
Hello, what I'm doing wrong ? I get error on compiling : 'vae' - undeclared identifier on NeuroNet.mqh line: 4130
xuebutayan
xuebutayan 2023.02.03
666
Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第28部):方策勾配アルゴリズム
ニューラルネットワークが簡単に(第28部):方策勾配アルゴリズム

強化学習法の研究を続けます。前回は、Deep Q-Learning手法に触れました。この手法では、特定の状況下でとった行動に応じて、これから得られる報酬を予測するようにモデルを訓練します。そして、方策と期待される報酬に応じた行動がとられます。ただし、Q関数を近似的に求めることは必ずしも可能ではありません。その近似が望ましい結果を生み出さないこともあります。このような場合、効用関数ではなく、行動の直接的な方針(戦略)に対して、近似的な手法が適用されます。その1つが方策勾配です。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第27部):DQN (Deep Q-Learning)
ニューラルネットワークが簡単に(第27部):DQN (Deep Q-Learning)

強化学習の研究を続けます。今回は、「Deep Q-Learning」という手法に触れてみましょう。この手法を用いることで、DeepMindチームはアタリ社のコンピューターゲームのプレイで人間を凌駕するモデルを作成することができました。取引上の問題を解決するための技術の可能性を評価するのに役立つと思います。

mi ya
mi ya 2022.09.05
I really appreciate you for your publishing articles series of machine learning on MQL5.