記事「ニューラルネットワークが簡単に（第61回）：オフライン強化学習における楽観論の問題」についてのディスカッション

MetaQuotes 2024.04.02 17:38

新しい記事「ニューラルネットワークが簡単に（第61回）：オフライン強化学習における楽観論の問題」はパブリッシュされました:

オフライン訓練では、訓練サンプルデータに基づいてエージェントの方策を最適化します。その結果、エージェントは自分の行動に自信を持つことができます。しかし、そのような楽観論は必ずしも正当化されるとは限らず、模型の操作中にリスクを増大させる可能性があります。今日は、こうしたリスクを軽減するための方法の1つを紹介しましょう。

近年、オフライン強化学習法が普及しており、様々な複雑さの問題を解決する上で多くの可能性が期待されています。しかし、研究者が直面する主な問題の1つは、学習中に生じうる楽観論です。エージェントは訓練セットのデータに基づいて戦略を最適化し、その行動に対する確信を得ますが、訓練セットは、環境のさまざまな状態や遷移をカバーしきれないことが多いです。確率的な環境では、そのような自信はまったく正当化されないことが判明しました。このような場合、エージェントの楽観的な戦略は、リスクを増大させ、望ましくない結果を招く可能性があります。

この問題を解決するために、自律走行分野の研究に注目する価値があります。この分野のアルゴリズムが、リスクの低減（ユーザーの安全性の向上）とオンライン訓練の最小化を目的としていることは明らかです。そのような手法の1つが、「Addressing Optimism Bias in Sequence Modeling for Reinforcement Learning」（2022年7月）で紹介されたSeparated Latent Trajectory Transformer （SPLT-Transformer）です。

作者: Dmitriy Gizlyk

Vladimir Pastushak 2023.11.02 22:10 #1

ニューラルネットワーク - それはシンプルだ（第61回）

第61回、結果は金額で見える？

Denis Kirichenko 2023.11.03 07:53 #2

Vladimir Pastushak #:

ニューラルネットワーク - それはシンプルだ（第61回）

61の部分、結果を金額で見ることができるだろうか？

簡単だ。200ドル×61＝12,200ドル。

Rashid Umarov 2023.11.03 11:44 #3

この著者は、純粋に理論的な論文を取り上げ、それがどのように可能かを一般的な言葉で説明している：

a) それをトレードに応用する、

b) ストラテジー・テスターでプログラムしてテストする。

元記事を見て、ドミトリーがどのような仕事をしたのか自分の目で確かめてください -https://arxiv.org/abs/2207.10295。

Addressing Optimism Bias in Sequence Modeling for Reinforcement Learning

arxiv.org

Impressive results in natural language processing (NLP) based on the Transformer neural network architecture have inspired researchers to explore viewing offline reinforcement learning (RL) as a generic sequence modeling problem. Recent works based on this paradigm have achieved state-of-the-art results in several of the mostly deterministic offline Atari and D4RL benchmarks. However, because these methods jointly model the states and actions as a single sequencing problem, they struggle to disentangle the effects of the policy and world dynamics on the return. Thus, in adversarial or stochastic environments, these methods lead to overly optimistic behavior that can be dangerous in safety-critical systems like autonomous driving. In this work, we propose a method that addresses this optimism bias by explicitly disentangling the policy and world models, which allows us at test time to search for policies that are robust to multiple possible futures in the environment. We...

新しいコメント