記事「ニューラルネットワークが簡単に（第68回）：オフライン選好誘導方策最適化」についてのディスカッション

MetaQuotes 2024.05.17 10:58

新しい記事「ニューラルネットワークが簡単に（第68回）：オフライン選好誘導方策最適化」はパブリッシュされました:

最初の記事で強化学習を扱って以来、何らかの形で、環境の探索と報酬関数の決定という2つの問題に触れてきました。最近の記事は、オフライン学習における探索の問題に費やされています。今回は、作者が報酬関数を完全に排除したアルゴリズムを紹介したいと思います。

オフライン選好誘導学習(OPPO)の文脈では、一般的なアプローチは2つのステップから構成されます。通常、教師あり学習を使用して報酬関数モデルを最適化し、次に学習された報酬関数を使用して再定義された遷移上で任意のオフラインRLアルゴリズムを使用して方策を学習します。しかし、報酬関数を個別に訓練することは、最適な行動をとる方法を直接的に方策に指示することにはならないかもしれません。選好ラベルは学習課題を定義するため、報酬を最大化することよりも、最も好まれた軌道を学習することが目標となります。複雑な問題の場合、スカラー報酬は方策の最適化において情報のボトルネックを作り出し、その結果エージェントの行動が最適化されなくなります。さらに、オフラインでの方策最適化は、不正確な報酬関数の脆弱性を悪用する可能性があります。その結果、望ましくない行動につながります。

この2段階のアプローチに代わるものとして、オフライン選好誘導方策最適化法(OPPO)の作者は、オフライン選好誘導データセットから直接方策を学習することを目指しています。彼らは、報酬関数を別途訓練する必要なく、オフラインの選好をモデル化し、最適な決定方策を同時に学習するワンステップアルゴリズムを提案しています。これは2つの目標を使用することで達成されます。

オフラインが「ない」場合の情報収集
選好モデリング

作者: Dmitriy Gizlyk

新しいコメント