記事についてのディスカッション

 

新しい記事「ニューラルネットワークが簡単に(第8回) アテンションメカニズム」はパブリッシュされました:

以前の記事では、ニューラルネットワークを整理するための様々な選択肢を既に検証しました. また、画像処理アルゴリズムから借りた畳み込みネットワークについても検討しました. 今回の記事では、言語モデルの開発に弾みをつけた「アテンション・メカニズム」を考えることを提案します.

ローソク足のシンボルチャートを分析する際には、トレンドや傾向を定義し、その取引レンジを決定します. それは、全体像からいくつかのオブジェクトを選択し、それらに注意を集中させることを意味します. 我々はオブジェクトが未来の価格行動に影響を与えることを理解しています. このようなアプローチを実装するため、2014年に開発者は、インプットシーケンスと出力シーケンス[ 8 ]の要素間の依存関係を分析して強調する最初のアルゴリズムを提案しました. 提案されたアルゴリズムは「一般化されたアテンションメカニズム」と呼ばれています. 当初、長文翻訳における長期記憶の問題を解決するために、リカレントネットワークを用いた機械翻訳モデルでの利用が提案されました. このアプローチは、以前に検討されたLSTMブロック[4]に基づくリカレントニューラルネットワークの結果を大幅に改善したものです.

リカレントネットワークを用いた古典的な機械翻訳モデルは、エンコーダとデコーダの2つのブロックで構成されています. 第1のブロックは、ソース言語のインプットシーケンスをコンテキストベクトルにエンコードし、第2のブロックは、結果として得られたコンテキストをターゲット言語の単語シーケンスにデコードします. インプットシーケンスの長さが長くなると、文末文の文脈に対する最初の単語の影響力が低下します. その結果、翻訳の質が低下します. LSTMブロックを使用することで、モデルの能力はわずかに向上しましたが、しかし制限されたままでした. 


一般的なアテンションメカニズムの支持者は、インプットシーケンスのすべてのリカレントブロックの隠れた状態を蓄積するために、追加のレイヤーを使用することを提案しています. さらに、シーケンス復号化の間、メカニズムは、インプットシーケンスの各要素が出力シーケンスの現在のワードに及ぼす影響を評価し、文脈の最も関連性の高い部分を復号化器に提案しています.

作者: Dmitriy Gizlyk