記事についてのディスカッション

 

新しい記事「ニューラルネットワークが簡単に(第8回) アテンションメカニズム」はパブリッシュされました:

以前の記事では、ニューラルネットワークを整理するための様々な選択肢を既に検証しました. また、画像処理アルゴリズムから借りた畳み込みネットワークについても検討しました. 今回の記事では、言語モデルの開発に弾みをつけた「アテンション・メカニズム」を考えることを提案します.

ローソク足のシンボルチャートを分析する際には、トレンドや傾向を定義し、その取引レンジを決定します. それは、全体像からいくつかのオブジェクトを選択し、それらに注意を集中させることを意味します. 我々はオブジェクトが未来の価格行動に影響を与えることを理解しています. このようなアプローチを実装するため、2014年に開発者は、インプットシーケンスと出力シーケンス[ 8 ]の要素間の依存関係を分析して強調する最初のアルゴリズムを提案しました. 提案されたアルゴリズムは「一般化されたアテンションメカニズム」と呼ばれています. 当初、長文翻訳における長期記憶の問題を解決するために、リカレントネットワークを用いた機械翻訳モデルでの利用が提案されました. このアプローチは、以前に検討されたLSTMブロック[4]に基づくリカレントニューラルネットワークの結果を大幅に改善したものです.

リカレントネットワークを用いた古典的な機械翻訳モデルは、エンコーダとデコーダの2つのブロックで構成されています. 第1のブロックは、ソース言語のインプットシーケンスをコンテキストベクトルにエンコードし、第2のブロックは、結果として得られたコンテキストをターゲット言語の単語シーケンスにデコードします. インプットシーケンスの長さが長くなると、文末文の文脈に対する最初の単語の影響力が低下します. その結果、翻訳の質が低下します. LSTMブロックを使用することで、モデルの能力はわずかに向上しましたが、しかし制限されたままでした. 


一般的なアテンションメカニズムの支持者は、インプットシーケンスのすべてのリカレントブロックの隠れた状態を蓄積するために、追加のレイヤーを使用することを提案しています. さらに、シーケンス復号化の間、メカニズムは、インプットシーケンスの各要素が出力シーケンスの現在のワードに及ぼす影響を評価し、文脈の最も関連性の高い部分を復号化器に提案しています.

作者: Dmitriy Gizlyk

 
トランスフォーマーをカーネルで 噛むのは、この記事の著者のクールなスキルである。
 
トレーニングの結果は保存されない。このため、記事の値はゼロに近い。
 
Maxim Dmitrievsky:
カーネルで トランスフォーマーを燃やすのはハイレベリングだと私は思う。
嫉妬か?P.2.
 
それでも、テスト 結果は前回の記事よりも悪い。この点について、筆者のコメントが欲しい。
 
Maxim Dmitrievsky:
カーネルで トランスフォーマーを燃やすのは、この記事の著者のクールなスキルである。

まったく同感だ。最初の記事では、5Sについて漠然とした疑問が生じたが、カーネルにねじ込んだ後は、著者を執拗に褒めたくなった)))))


Andriy Konovalov:
それでもテスト結果は 前回の記事より悪い。この点について著者のコメントが欲しい。

この記事に反映されていることは、著者がこの記事で伝えることができたこと、おそらく伝えたかったことの5%にも満たない。この5%だけを見て、他の作業で実験してみなければ、ほとんど役に立たない。

少なくとも、広範で多角的なテストが必要だ。

 
Aleksey Mavrin:

この記事に反映されているのは、著者がこの記事で伝えることができたこと、おそらく伝えたかったことの5%にも満たない。この5%しか見ず、他の作業で実験してみなければ、ほとんど役に立たない。

少なくとも、広範で多角的なテストが必要だ。

それが、もう0.5%の情報で筆者を挑発しようとしていることだ。以前の記事の最後に、著者は自分の結果を以前の記事と比較している。

私にとって特に興味深いのは、注意メカニズムを 利用して売買シグナルを予測しようとする試みである。結局のところ、このアプローチがテキスト生成に最も効果的であると認識されているのであれば(そしてGPTは 本当に驚異的な働きをする)、他のタイプのシーケンス、つまり数値的な一連の相場を扱うときにも効果的であると期待できる。

そしてSelf-Attentionの マルチスレッド実装については、もちろん作者に感謝と敬意を表したい。

 

いくつかの概念的な質問は興味深い:
この自己アテンション システムは、単純な完全連結層とどう違うのか?その主な利点は何だろうか?このトピックに関する講義をかなり読みましたが、私には理解できません。
 
私はこの論文の著者ではないが、あなたの質問に対する私の答えは以下の通りである:

Ключевое отличие механизма Self-attention от простого полносвязного слоя заключается в способности Self-attention динамически выделять различные части входных данных. В отличие от полносвязного слоя, который обрабатывает все входы одинаково, Self-attention присваивает различные веса разным частям входных данных, фокусируясь на более релевантных частях для выполнения задачи.

この動的な重み付けは、このメカニズムの主な利点である、入力シーケンスの要素間の関係に対するモデルの感度を高め、文脈理解を必要とするタスクのパフォーマンスを向上させる。

 
Rashid Umarov #:
私はこの記事の著者ではありませんが、ご質問に対する回答は以下の通りです:
この機械翻訳も見たことがあるが、やはりやや間違っている。
人間の言葉で言い直すと、意味は次のようになる:「SAのメカニズムは完全連結ニューラルネットワークの発展型であり、PNNとの決定的な違いは、PNNが分析する素要素は1つのニューロンの出力であるのに対し、SAが分析する素要素はコンテキストのあるベクトルである」ということでしょうか?それとも他に重要な違いがあるのでしょうか?
 
DeadMorose777 #:
この機械翻訳も見たことがあるが、やはりやや間違っている。 人間の言葉に言い換えると、意味は次のようになる:「SAのメカニズムは完全連結ニューラルネットワークを発展させたものであり、PNNとの決定的な違いは、PNNが分析する素要素は1つのニューロンの出力であるのに対し、SAが分析する素要素はコンテキストのあるベクトルである」ということでしょうか?それとも他に重要な違いがあるのでしょうか?

ベクトルはリカレントネットワークのもので、文字列がテキストを翻訳するために供給されるからだ。しかし、SAにはエンコーダーがあり、元のベクトルを、元のベクトルに関するできるだけ多くの情報を持つ、より短い長さのベクトルに変換する。そして、これらのベクトルはデコードされ、学習の反復ごとに互いに重ね合わされる。つまり、これは一種の情報圧縮(文脈選択)であり、アルゴリズムの意見では最も重要なものはすべて残り、この主要なものにより多くの重みが与えられる。

実際のところ、これは単なるアーキテクチャであり、そこに神聖な意味を求めてはいけない。なぜなら、通常のNNやLSTMよりも時系列であまりうまく機能しないからだ。