記事「ニューラルネットワークが簡単に(第95回):Transformerモデルにおけるメモリ消費の削減」についてのディスカッション

 

新しい記事「ニューラルネットワークが簡単に(第95回):Transformerモデルにおけるメモリ消費の削減」はパブリッシュされました:

Transformerアーキテクチャに基づくモデルは高い効率を示しますが、その使用は、訓練段階と運転中の両方で高いリソースコストによって複雑になります。この記事では、このようなモデルのメモリ使用量を削減するアルゴリズムを紹介します。

MLKV法は、MQAGQAのアルゴリズムを論理的に継承したものです。この手法では、KVキャッシュサイズは、単一の自己アテンション層内のアテンションヘッド群によって共有されるKVヘッドの削減により削減されます。完全に予想されるステップは、自己アテンション層間でKeyValueのエンティティを共有することです。このステップは、アルゴリズムTransformerにおけるFeedForwardブロックの役割に関する最近の研究によって正当化されるかもしれません。指定されたブロックは、異なるレベルの情報を処理するKey-Valueメモリをシミュレートしていると仮定されます。しかし、私たちにとって最も興味深いのは、連続する層のグループが似たようなことを計算するという観察です。より正確には、下位レベルは表面的なパターンを扱い、上位レベルはより意味的な詳細を扱います。したがって、必要な計算をFeedForwardブロックに残したまま、アテンションを層のグループに委ねることができると結論づけることができます。直感的には、KVヘッドは同じようなターゲットを持つ層間で共有できます。

これらのアイデアを発展させ、MLKV法の著者はマルチレベルのKey交換を提供しています。MLKVは、同じ自己アテンション層のQueryアテンションヘッドの間でKVヘッドを共有するだけでなく、他の層のアテンションヘッドの間でも共有します。これにより、TransformerのKVヘッドの総数を減らすことができ、KVキャッシュをさらに小さくすることができます。

作者: Dmitriy Gizlyk

削除済み  
また、ネットワークがランダムな信号を生成するのではなく、何かを学習したことをどうやって知るのですか?
 
Maxim Dmitrievsky #:
また、ネットワークがランダムなシグナルを生成しているのではなく、何かを学習していることにどうやって気づくのだろうか?

アクターの確率的政策は、行動のランダム性をある程度想定している。しかし、学習する過程で、ランダムな値のばらつきの範囲は強く狭められていく。ポイントは、確率的な政策を編成する際に、各行動に対して、平均値と値の広がりの分散という2つのパラメータを学習させるということである。ポリシーを訓練するとき、平均値は最適になり、分散は0になる傾向があります。

エージェントの行動がどの程度ランダムであるかを理解するために、同じポリシーでいくつかのテスト実行を行います。エージェントがランダムなアクションを生成する場合、すべてのパスの結果は大きく異なります。訓練されたポリシーの場合、結果の違いは重要ではありません。

削除済み  
Dmitriy Gizlyk #:

アクターの確率的政策は、行動のランダム性をある程度想定している。しかし、訓練の過程で、ランダムな値の散らばりの範囲は強く狭められる。要は、確率的な方針を編成する際には、各行動に対して、平均値と値の散らばりの分散という2つのパラメータを学習する。ポリシーを訓練するとき、平均値は最適値に、分散は0になる傾向がある。

エージェントのアクションがどの程度ランダムであるかを理解するために、同じポリシーでいくつかのテスト実行を行います。エージェントがランダムなアクションを生成する場合、すべてのパスの結果は大きく異なります。訓練されたポリシーの場合、結果の違いは重要ではありません。

わかった、ありがとう。