記事についてのディスカッション

DeadMorose777 2024.02.17 17:23 #11

Maxim Dmitrievsky #:

ベクトルは再帰ネットワークのもので、テキストを翻訳するために文字のシーケンスが入力されるからだ。しかし、SAにはエンコーダーがあり、元のベクトルを、元のベクトルに関する情報をできるだけ多く含むより短いベクトルに変換する。そして、これらのベクトルをデコードし、学習の反復ごとに重ね合わせる。つまり、一種の情報圧縮（文脈選択）であり、アルゴリズムの意見では最も重要なものはすべて残り、この主要なものにより多くの重みが与えられる。

実際のところ、これは単なるアーキテクチャであり、そこに神聖な意味を求めてはいけない。なぜなら、通常のNNやLSTMよりも時系列であまりうまく機能しないからだ。

ベクトルとは単なる連続した数字の集合である。この用語はリカレントNN、あるいは機械学習一般に縛られるものではない。この用語は、数の順序が必要とされるあらゆる数学的問題で絶対に使うことができる：学校の算数の問題でさえも。
何か変わったものを設計する必要がある場合、聖なる意味を探すことが最も重要である。そして、市場分析の問題は、モデルそのものにあるのではなく、これらの（市場の）時系列があまりにもノイズが多く、どのようなモデルを使っても、埋め込まれているのと同じだけの情報を引き出してしまうという事実にある。そして残念なことに、それだけでは不十分なのである。引き出す」情報量を増やすには、最初の情報量を増やす必要がある。そして、情報量が増えるときにこそ、EOの最も重要な特徴である拡張性と適応性が前面に出てくるのである。

削除済み 2024.02.17 17:29 #12

DeadMorose777 #:
ベクトルとは、単に数字の連続集合のことである。この用語は、リカレントHH、あるいは機械学習一般に縛られるものではない。この用語は、数の順序が必要とされるあらゆる数学的問題で絶対的に適用できる：学校の算数の問題でさえも。聖なる意味を探すことは、何か変わったものを設計する必要がある場合に最も重要なことである。そして、市場分析の問題は、モデルそのものにあるのではなく、これらの（市場の）時系列があまりにもノイズが多く、どのようなモデルを使っても、埋め込まれているのと同じだけの情報を引き出してしまうという事実にある。そして残念なことに、それだけでは不十分なのである。引き出す」情報量を増やすには、最初の情報量を増やす必要がある。そして、情報量が増えるときこそ、EOの最も重要な特徴である拡張性と適応性が前面に出てくるのである。

この用語は、シーケンスを扱うリカレント・ネットワークに付けられる。lstmのようなゲートの代わりに、アテンション・メカニズムという形の加算器を使うだけである。MO理論をずっと吸っていれば、だいたい同じようなことは自力で思いつくだろう。

問題はモデルにはない - 100％同意。しかし、それでもTC構築のどんなアルゴリズムも、NSアーキテクチャーという形で何らかの形で形式化することができる。

Dmitriy Gizlyk 2024.02.18 17:58 #13

DeadMorose777 ・システムは、単純な完全連結層とどう違うのか？その主な利点は何だろうか？このトピックに関する講義をかなり読みましたが、私には理解できません。

ここには大きな「イデオロギー」の違いがある。簡単に言えば、フルリンクレイヤーはソースデータ全体を一つの全体として分析する。そして、パラメータの1つの些細な変更でさえも、モデルによって根本的に新しいものとして評価される。従って、ソースデータに対するいかなる操作（圧縮／伸張、回転、ノイズの追加）も、モデルの再トレーニングを必要とする。

アテンション・メカニズムは、お気づきのように、ベクトル（データのブロック）で動作します。この場合、エンベッディングと呼ぶ方が正しいのですが、エンベッディングとは、分析されたソース・データの配列の中の別のオブジェクトを符号化した表現です。Self-Attentionでは、各エンベッディングは3つのエンティティ（クエリ、キー、値）に変換されます。要するに、各エンティティはオブジェクトのN次元空間への投影である。各エンティティには異なる行列が学習されるため、投影は異なる空間に行われる。QueryとKeyは、元のデータのコンテキストで、あるエンティティの別のエンティティへの影響を評価するために使用されます。オブジェクトAのQueryとオブジェクトBのKeyの点積は、オブジェクトBに対するオブジェクトAの依存性の大きさを示します。また、1つのオブジェクトのQueryとKeyは異なるベクトルであるため、オブジェクトAのBに対する影響係数は、オブジェクトBのAに対する影響係数とは異なります。依存（影響）係数はScore行列を形成するために使用され、この行列はQueryオブジェクトの観点からSoftMax関数によって正規化される。正規化された行列は、Value エンティティ行列と乗算されます。演算結果は、元のデータに追加されます。これは、個々のエンティティにシーケンスコンテキストが追加されると評価できます。ここで、各エンティティは、コンテキストの個々の表現を取得することに注意します。

次に、シーケンス内のすべてのオブジェクトの表現が同等の外観を持つように、データが正規化される。

通常、いくつかの連続した自己保持層が使用される。したがって、ブロックの入力と出力のデータ内容は、内容は大きく異なるが、サイズは似ている。

Transformerは言語モデルのために提案された。そして、原文を逐語的に翻訳するだけでなく、対象となるターゲット言語の文脈で単語を並べ替えることも学習した最初のモデルである。

さらにTransformerモデルは、文脈を意識したデータ解析により、文脈から外れたデータ（オブジェクト）を無視することができる。

DeadMorose777 2024.02.21 15:47 #14

Dmitriy Gizlyk #:

ここには大きな「思想」の違いがある。簡単に言えば、フルリンクレイヤーは入力データ全体を全体として分析する。そして、パラメーターの1つの些細な変更でさえ、モデルによって根本的に新しいものとして評価される。従って、ソースデータに対するいかなる操作（圧縮／伸張、回転、ノイズの追加）も、モデルの再トレーニングを必要とする。

アテンション・メカニズムは、お気づきのように、ベクトル（データのブロック）で動作します。この場合、エンベッディングと呼ぶ方が正しいのですが、エンベッディングとは、分析されたソース・データの配列の中の別のオブジェクトを符号化した表現です。Self-Attentionでは、各エンベッディングは3つのエンティティ（クエリ、キー、値）に変換されます。要するに、各エンティティはオブジェクトのN次元空間への投影である。各エンティティには異なる行列が学習されるため、投影は異なる空間に行われる。QueryとKeyは、元のデータのコンテキストで、あるエンティティの別のエンティティへの影響を評価するために使用されます。オブジェクトAのQueryとオブジェクトBのKeyの点積は、オブジェクトBに対するオブジェクトAの依存性の大きさを示します。また、1つのオブジェクトのQueryとKeyは異なるベクトルであるため、オブジェクトAのBに対する影響係数は、オブジェクトBのAに対する影響係数とは異なります。依存（影響）係数はScore行列を形成するために使用され、この行列はQueryオブジェクトの観点からSoftMax関数によって正規化される。正規化された行列は、Value エンティティ行列と乗算されます。演算結果は、元のデータに追加されます。これは、個々のエンティティにシーケンスコンテキストが追加されると評価できます。ここで、各オブジェクトは、コンテキストの個々の表現を取得することに注意する必要があります。

次に、シーケンス内のすべてのオブジェクトの表現が同等の外観を持つように、データが正規化されます。

通常、いくつかの連続した自己アテンション・レイヤが使用される。従って、ブロックの入力と出力のデータ内容は、内容は大きく異なるが、サイズは似ている。

Transformerは言語モデルのために提案された。そして、原文を逐語的に翻訳するだけでなく、対象となるターゲット言語の文脈で単語を並べ替えることも学習した最初のモデルである。

さらにTransformerモデルは、文脈を意識したデータ解析により、文脈から外れたデータ（オブジェクト）を無視することができる。

ありがとうございました！あなたの記事は、このような複雑で複雑なトピックを理解するのにとても役立ちました。

あなたの知識の深さには本当に驚かされます。

記事についてのディスカッション - ページ 2