機械学習とニューラルネットワーク - ページ 27

 

講義 15. 行列 A(t) t に応じて、導関数 = dA/dt



15. 行列 A(t) t に応じて、導関数 = dA/dt

このビデオでは、行列とその逆行列の変化、固有値と特異値の経時変化など、行列に関連するさまざまなトピックを取り上げます。講演者は、これらの変化を計算するための重要な公式を説明し、線形代数における微積分を理解することの重要性を強調します。さらに、この講義では、正規化の重要性について説明し、対称行列とランク 1 行列の両方の固有値のインターレース定理について説明します。最後に、ビデオはカバーされたトピックのレビューと、将来の講義でそれらを拡張する約束で締めくくられます.

  • 00:00:00 このセクションでは、スピーカーは行列が変化したときの行列、固有値、および特異値の変化について説明します。逆行列の変化、逆行列の導関数、および行列が変化したときの固有値と特異値の変化の式を理解することに重点が置かれています。話者は、固有値と特異値の変化の正確な公式は存在しない可能性があると説明しています。
    可能な限り、不等式を導出して、変化がどれほど大きくなるかを理解することができます。この講義では、時間 (T) に依存する行列 A と逆行列 A の設定についても説明します。

  • 00:05:00 このセクションでは、スピーカーは行列の逆行列に関する前のセクションの議論を補完する微積分の同一性について議論します。この式は、逆行列の導関数は、逆行列の負の 1 倍に、行列の導関数と行列の逆関数を掛けたものに等しいと述べています。話し手は、逆行列の微分を「逆行列の変化」と呼び、式の両辺をデルタ T で割ることによって、どのように導関数を求めるかを説明します。式の理解。講演者はまた、大学数学における微積分の強調について意見を表明し、それが線形代数を覆い隠していると述べています。

  • 00:10:00 このセクションでは、デルタ T がゼロになるとき、時間 t に対する dA/dt として行列 A の導関数の公式を説明します。デルタ a をデルタ T で割った比率には意味があり、デルタ T がゼロに近づくと、式は逆になります。 1 対 1 の場合の X に対する 1 の導関数は、X の 2 乗に対する 1 にすぎません。これは、デルタ a がフルサイズで低ランクの場合の式と同じです。次に、講義の焦点は、ラムダの固有値と、行列が変化したときに固有値がどのように変化するかに移ります。1 つの小さな変化と 1 つの変化のフルサイズの順序の 2 つの可能性があります。講義は、固有値と固有ベクトルを取り巻く事実で終わります。

  • 00:15:00 このセクションでは、パラメータに依存する行列の固有ベクトルと固有値の概念について説明します。行列 A を詳細に調べます。固有ベクトル X は左側にあり、固有値は AX と同じです。対照的に、対称行列 A の固有ベクトル Y は、A または AT の転置と同じ方法で使用されます。正規化の重要性、特に Y 転置時間 X が 1 に等しいことが強調されています。次に、著者は数式の導関数を取得し、この新しいコンテキストに適合するように方程式をねじ曲げる方法について説明します。

  • 00:20:00 このセクションでは、スピーカーは行列の導関数を使用して、時間の変化に伴う固有値と固有ベクトルの導関数を見つける方法を説明します。積則を使用して、時間に依存する 3 つの項の積の導関数の式を導き出します。項を並べ替えて対角化公式を適用することにより、固有値の導関数の簡単な公式にたどり着きます。講演者は、これは古典的なテクニックですが、必ずしも広く知られているわけではなく、コースで教えられているわけでもないことに注意してください。

  • 00:25:00 このセクションでは、行列の変化率と左右の固有ベクトルを使用して固有値の導関数を求める公式について説明します。これらは式を単純化して、2 つの項が互いに打ち消し合い、残りの項が導関数の正しい答えであることを示します。彼らは、この相殺を証明するために、1 の導関数がゼロであるという事実を使用します。講演者はまた、この式は固有ベクトルの導関数を含まず、より高レベルの導関数を見つけるためにも使用できると述べています。

  • 00:30:00 このセクションでは、対称行列へのランク 1 の変更後の固有値の変更について話します。彼は、変化は微分ではなく真のベクトルであるため、新しい固有値の正確な式は存在しないことに注意しています。ただし、彼は、固有値が降順であり、ランク 1 の変化が正の半正定値であるなど、いくつかの既知の事実を共有しています。彼はまた、聴衆に uu 転置行列の固有ベクトルを検討するように求め、それが完全な n x n 行列の列×行であることを説明します。彼は、この計算から得られる数値はゼロより大きいと述べて結論付けています。

  • 00:35:00 このセクションでは、スピーカーは対称行列と、それにランク 1 の行列を追加するとどうなるかについて説明します。彼らは、これにより正の半正定行列が得られ、新しい固有値 (ラムダ) が元の固有値 (ガンマ) よりも大きいと結論付けています。ただし、サイズの違いは重要ではなく、固有値が互いに通過しないことを保証する「インターレース」と呼ばれる定理があります。具体的には、ラムダ 1 はガンマ 1 よりも大きいが、ラムダ 2 はガンマ 1 よりも小さい。これは、正のランク 1 の行列が対称行列に追加されるときに固有値の順序を保証する便利な定理です。

  • 00:40:00 このセクションでは、教授は、対称行列とランク 1 の変化から生じるランク 2 行列の固有値について説明します。彼は、変更行列のランクは 2 であり、2 つの非ゼロ固有値を示し、その正の半定値の性質は、それを元の行列に追加することによって固有値が増加することを意味すると説明しています。しかし、正の半正定行列を追加する場合、固有値は元の固有値よりも高くなることはできないという定理を彼は明らかにしています。彼はこれをアルファ値に適用し、それらをラムダと比較し、最終的にアルファ 2 値はラムダ 1 を超えることができず、アルファ 3 値は不明のままであると結論付けました。

  • 00:45:00 このセクションでは、講師が対称行列の例を使用して固有値のインターレースについて説明します。この行列の縮小版にも固有値があり、元の行列の固有値と組み合わされています。ただし、講師は、ランクが変更された場合の固有値のインターレースについて懸念を提起します。新しい固有ベクトルが大きな数で乗算されると、固有値が上に移動する可能性があり、これはインターレース定理と矛盾するようです。講師はこれを次の講義で答える質問として残します。

  • 00:50:00 このセクションでは、講師が固有値と固有ベクトルについて説明し、固有値ラムダ 2 + 20 を持つ特定の固有ベクトルが前のステートメントを無効にしない理由について説明します。講義は、カバーされたトピックの復習と、次のクラスで議論を続けるためのメモで締めくくられます。
15. Matrices A(t) Depending on t, Derivative = dA/dt
15. Matrices A(t) Depending on t, Derivative = dA/dt
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

講義 16. 逆導関数と特異値の導関数


16. 逆微分と特異値の導関数

このビデオでは、行列の逆値と特異値の導関数、インターレース、行列の核ノルムなど、さまざまなトピックを取り上げています。講演者は、SVD を使用して特異値の導関数の式を提示し、行列が時間の経過とともにどのように変化するかを理解しながら、対称行列の固有値の変化の境界を確立します。バイアルの不等式は、行列のラムダ値を推定する方法として導入され、基底追跡は行列補完問題で使用されます。講演者はまた、マトリックスの核ノルムが、まったくノルムではないノルムに由来するという考えについて議論し、次の講義で議論されるなげなわと圧縮センシングの概念を紹介します。

  • 00:00:00 このセクションでは、逆行列の微分、固有値の微分、特異値の微分など、さまざまなトピックについて講師が説明します。インストラクターは、彼が最近発見した特異値の導関数の公式を共有し、逆行列の導関数の公式は元の行列の単純な導関数ではないことに言及しています。彼はまた、研究室の宿題について話し、プロジェクトに関するアドバイスを求め、応用線形代数に関するタウンゼント教授からの今後の講義について言及します。インストラクターは、二乗行列の導関数を体系的に見つける方法と、一般的に想定されている式が正しくない理由を説明します。

  • 00:05:00 このセクションでは、スピーカーは固有値の導関数に似た特異値の導関数について説明します。特異値の導関数の式は、da/dt に a の特異ベクトルを掛けた値の転置によって与えられます。この式は、V の a 倍が U のシグマに等しいという SVD に依存しています。これらの事実を使用して式を操作することにより、特異値の導関数の式を導き出すことができます。この式は、行列が時間とともにどのように変化するかを理解するのに役立ち、物理学や工学などのさまざまな分野に適用できます。

  • 00:10:00 このセクションでは、スピーカーは逆値と特異値の導関数について説明します。彼らは、行列の SVD に関して特異値の式を説明することから始め、次に方程式の導関数を取ります。話者は積則を使用し、結果の方程式を単純化して、探している答えを与える項を見つけます。次に、他の 2 つの項がゼロになることを示し、選択した項が正しいことを証明します。最後に、内積と数値を使用して、U 転置による U の導関数がゼロに等しいことを示します。

  • 00:15:00 このセクションでは、スピーカーは特異値の導関数と対称行列の固有値について説明します。特異値または固有値の変化の正確な式を計算することはできませんが、固有値の正の変化によって固有値が減少しないことを認識することで、境界を確立できます。古い値と新しい値のインターレースは、2 番目の固有値が最初の古い固有値を超えず、最初の新しい固有値が最初の古い固有値を下回らないという事実によって示され、これらの概念は SVD を理解するのに役立ちます。

  • 00:20:00 ビデオのこのセクションでは、スピーカーは、行列の固有値に対する 2 番目の固有ベクトルを誇張する効果に関するパズルの質問を投げかけます。彼は、2 番目の固有値がシータとして表される特定の量だけ増加すると、最終的には 1 番目の固有値を超える可能性があり、これが潜在的な問題を引き起こす可能性があると指摘しています。しかし、彼は自分の思考過程を説明し、これは実際には問題ではないことを示しています。なぜなら、最初の固有値は変化しないままで、2 番目の固有値は押し上げられますが、最終的にはラムダ 1 とシータの和に収束するからです。

  • 00:25:00 このセクションでは、スピーカーはインターレースとバイアルの不等式について説明します。バイアルの不等式は、行列のラムダ値を推定する方法です。ラムダ値は、最大から最小に並べられた固有値です。不等式はすべての対称行列に当てはまり、2 つの対称行列の合計の最大固有値は、各行列の最大固有値の合計以下であることを示します。このインターレース プロパティは、ランク 1 の摂動だけでなく、他のランクの摂動にも当てはまります。スピーカーは、S に正の行列 T を追加する例を使用し、これが Vial の不等式とどのように関係するかを説明します。

  • 00:30:00 このセクションでは、スピーカーは Vile の不等式と、それがインターレースとどのように関係しているかについて説明します。 Vile の不等式は、固有値がどれだけ増加できるかについて制限を与えます。この事実は、インターレース現象を理解するために重要です。スピーカーは、Vile の不等式とグラフを含む別の方法を含む、インターレースを証明する 2 つの方法があると述べています。このセクションでは、ビデオの次の部分で説明する圧縮センシングについても紹介します。

  • 00:35:00 このセクションでは、行列の核ノルムの概念が導入されています。これは、行列の特異値の合計です。これは、ベクトルの L1 ノルムと考えることができます。これには、L1 ノルムに似た特別な特性があり、核ノルムを制約付きで最小化すると疎な解が得られます。このプロパティは、行列の欠損データを埋める必要がある行列補完問題で役立ちます。核ノルムを最小化する数値は、欠損データを埋めるのに適しています。非ゼロの数を表すベクトルのゼロ ノルムはノルムではありませんが、L1 ノルムである最も近いノルムに移動できます。このノルムは、ベクトルの成分の絶対値の合計です。ある条件の下でこのノルムを最小化することは、基底追跡と呼ばれ、行列補完問題で使用されます。

  • 00:40:00 このセクションでは、スピーカーは、マトリックスの核ノルムが完全なノルムではないノルムに由来するという考えについて説明します。彼は、行列のランクはこのノルムと同等ですが、行列のサイズが 2 倍になるとスケーリングできないため、ノルムにはならない、と説明しています。スピーカーは、勾配降下の深層学習アルゴリズムが核ノルムの最小問題の解を見つけるという推測を説明し、次の講義でさらに議論されるラッソと圧縮センシングの概念を紹介します。
16. Derivatives of Inverse and Singular Values
16. Derivatives of Inverse and Singular Values
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

講義 17: 特異値の急激な減少



講義 17: 特異値の急激な減少

講義では、行列とそのランクに焦点を当て、計算数学では急速に減少する特異値がどのように普及しているかに焦点を当てます。講師は低ランクの行列を調べ、特異値のシーケンスに多くのゼロがあることを示します。これにより、完全なランクの形式よりも低ランクの形式で行列を友人に送信する方が効率的になります。また、行列の数値ランクも導入します。これは、行列の特異値の許容範囲を定義する余地をいくらか与えることによって定義されます。多項式で十分に近似できる滑らかな関数をサンプリングすることにより、数値ランクが低くなり、結果として行列 X の低ランク近似が得られます。講義には、ガウス行列とヴァンデルモンド行列の例も含まれており、それらがどのように導くことができるかを説明しています。ランクの低い行列について説明し、特異値の境界におけるゾロタレフ数の有用性について説明します。

  • 00:00:00 このセクションでは、計算数学の世界で低ランク行列が非常に一般的である理由を教授が説明しています。彼は、特異値の重要性について説明しています。特異値は、行列のランクと、それが低ランクの行列によってどれだけうまく近似できるかについて教えてくれます。彼は続けて、行列 X が K 個の非ゼロ特異値を持つ場合、行列 X は K 個のランク 1 行列の和に分解できると説明しています。さらに、X の列空間と行空間はどちらも次元 K を持ちます。特異値シーケンスは行列に固有のものであり、低ランクの行列をさまざまな数学的問題に出現させる X のプロパティを特定することに焦点が当てられています。

  • 00:05:00 このセクションでは、講師が低ランク行列と、特異値のシーケンスに多くのゼロがある方法について説明します。ロー ランク マトリックスは、フル ランク フォームよりもロー ランク フォームでフレンドにマトリックスを送信する方が効率的なマトリックスです。この講義では、さまざまなフラグを使用して、低ランク行列の概念を示します。極端に低いランクは、行と列の座標と高度に一致しています。ランクが上がるにつれて、配置がぼやけ、マトリックスが低ランクであるかどうかがわかりにくくなります。ランクの高い行列をランクの低い形式で送信するのは効率的ではありません。

  • 00:10:00 このセクションでは、講師が三角旗行列を調べて、対角線パターンが低ランク圧縮に適していない理由を理解します。すべてが 1 の行列は、ギルのお気に入りの行列を逆にした場合に似た性質を持っています。この行列の特異値を調べることにより、講師は、三角形のパターンが低ランクの圧縮に適していないことを示しています。ただし、丸ケースと日の丸パターンは低ランク圧縮に便利です。

  • 00:15:00 このセクションでは、講師がサークルのランク、特に日の丸について説明します。旗を丸、真ん中の1位の駒、四角に分解し、それぞれの駒の順位を足して順位を決める。講師は、ランク 1 のピースが 1 に制限されていることを示し、次に対称性を使用して、円の半径に依存する正方形のピースのランクを決定します。講師は、三角法でいくつかの計算を行うことにより、ランクが約 1/2 であると結論付け、日の丸を低ランクの形式で表すことが効率的になります。ただし、計算数学のほとんどの行列は、有限ランクではなく数値ランクであり、ランクに似ていますが、ある程度の近似が可能です。

  • 00:20:00 このセクションでは、行列の数値ランクについて学習します。これは、行列の特異値の許容範囲を定義する余地をいくらか与えることによって定義されます。 K がイプシロンを超える最初の特異値である場合、数値ランクは K であり、許容範囲を示します。ランクは、イプシロンを超える最後の特異値と同じであり、イプシロンを下回る最初の特異値です。数値的に低ランクの行列は、低ランクの行列であるだけでなく、特異値が急速に減少するフル ランクの行列でもあります。これにより、実際には妥当な許容レベルを許容しながら、低ランク近似を使用して行列を圧縮できます。ヒルベルト行列は、数値ランクが低いフル ランク行列の例です。

  • 00:25:00 このセクションでは、講師は行列の数値ランクが低くなる可能性があるが、一般的に必ずしもランクが低いとは限らないことについて説明します。ヴァンデルモンド行列は、この典型的な例として使用されます。この行列は、実数点での多項式補間で発生し、多くの場合、数値的に低いランクであるため、反転が困難になります。ただし、特に逆数を見つけようとする場合は、数値の低いランクが常に望ましいとは限りません。低階数の行列が多いのは世界が滑らかで、行列が数値的に低階だからだと講師は説明します。 2 つの変数の多項式がサンプリングされる例が示され、結果の行列が数学的に低いランクであり、イプシロンがゼロに等しいことが示されます。

  • 00:30:00 このセクションでは、スピーカーは、関数をサンプリングし、その関数を多項式で近似することにより、行列 X の低ランク近似を取得する方法について説明します。 x と y の両方で次数 M を持つ 2 つの変数の多項式を書き下してサンプリングできる場合、結果の x は低ランクになり、イプシロンはゼロに等しくなり、最大でも M の 2 乗ランクになります。多項式で適切に近似できる平滑関数をサンプリングすることにより、数値ランクが低くなり、結果として行列 X の低ランク近似が得られます。ただし、この方法の背後にある推論は、ヒルベルト行列ではうまく機能しません。フルランクです。

  • 00:35:00 このセクションでは、講師が行列のランクを制限する適切な理由を見つける方法について説明します。多くの人が、行列のランクを正確に予測できる多項式を考え出そうとしましたが、その方法は満足のいくものではありませんでした。講師は、シルベスター方程式と呼ばれる特定の式を満たす行列であるシルベスター行列の考え方を紹介します。式を満たす A、B、および C を見つけることによって、行列が数値的に低いランクであることを示すことができます。講師は、ヒルベルト行列を使用した例と、シルベスター方程式を満たすために左と右に 1/2 を掛ける特定の方法を提供します。

  • 00:40:00 このセクションでは、ガウス行列とヴァンデルモンド行列の例を示し、順列と乗算がどのように低ランクの行列につながるかを説明しました。講義では、X がセメスター方程式を満たす場合、フロベニウス ノルムと呼ばれるガウス行列とヴァンデルモンド行列の式に似た式を満たす任意の行列の特異値に境界を見つけることができると説明しています。 Fuller and bound は、行列のこの数値的な低ランクを示すために使用され、特定の方程式を満たすことと実際のこれらの低ランク行列の出現との関係を示すために例が示されています。

  • 00:45:00 このセクションでは、講師はゾロタレフ数によって制限される特異値の抽象的な問題がどのように役立つかについて説明します。これが役立つ主な理由は、集合 E と F が分離されていることです。これが、ゾロタレフ数が k で非常に急速に小さくなる理由です。講師はヒルベルト行列を例として使用して、ゾロタレフ数が数値ランクに境界を与える方法を示し、計算数学に低ランク行列が非常に多い理由を示します。講師は、ゾロタレフ問題に取り組んだ 2 人の主要人物を取り巻く非公式の呪いについても言及しています。どちらも 31 歳で亡くなったため、ペンシルの名前の横に疑問符が付いています。
Lecture 17: Rapidly Decreasing Singular Values
Lecture 17: Rapidly Decreasing Singular Values
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Alex TownsendView the complete course: https://oc...
 

講義 18: SVD、LU、QR、サドル ポイントのカウント パラメータ



講義 18: SVD、LU、QR、サドル ポイントのカウント パラメータ

この講義では、スピーカーは、L&U、Q&R、および固有ベクトル行列などのさまざまな行列因数分解を確認し、これらの各行列の自由パラメーターの数を数えます。また、Qs 対 SVD の計算についても説明し、ランク R 行列の SVD のパラメーターの数を数えます。講師は、行列の鞍点の概念と、最適化手法とラグランジュ乗数を使用してそれらを見つける方法についても説明します。最後に、講師は対称行列の固有値の符号と、レイリー商が行列の最大値と対応する固有ベクトルを決定するのにどのように役立つかについて説明します。

  • 00:00:00 このセクションでは、スピーカーは、L&U、Q&R、固有ベクトル行列などの行列の大きな因数分解を確認し、これらの各行列の自由パラメーターの数を数えます。スピーカーは、L&U または Q&R の自由パラメーターの数が元の行列のパラメーターの数と一致する必要があること、および固有値行列と固有ベクトル行列の自由パラメーターの合計が N の 2 乗になることに注意します。講演者は、この演習は教科書にはあまり見られないが、線形代数を理解するための重要な復習であると述べています。

  • 00:05:00 このセクションでは、スピーカーは、SVD、LU、QR、極分解など、さまざまな行列因数分解における自由パラメーターの数について説明します。スピーカーは、N x n の直交行列 Q の自由パラメーターの数は、正規化と直交条件により、最初の列では N-1 であり、後続の列では N-2 であることに注意します。また、対称行列 S の自由パラメーターの数についても説明しています。これは、1/2 N × N から 1 を引いたものに対角要素の数を加えたものです。次に、L × U、Q × R、Q × S など、さまざまな因数分解でこれらのカウントがどのように加算されるかを示します。最後に、対称行列の直交倍になる別の因数分解として、極分解について言及しています。

  • 00:10:00 このセクションでは、講師が Qs と SVD の計算について説明し、SVD のパラメーターをカウントします。長方形行列が持つことができる最大のランクは M で、SVD の M 行 N 列の行列になります。講師は、それが MN 個のパラメーターを持つ元の行列の合計になることを期待しています。 S のカウントは M に等しく、V のカウントは N に等しくなります。M 行 M 列の直交行列の場合、U のカウントは 1/2 (M^2 + M) に等しくなります。

  • 00:15:00 このセクションでは、スピーカーはランク R 行列の行列の特異値分解 (SVD) で重要なパラメーターをカウントする方法を説明します。行列の重要な部分は、ゼロ以外の特異値に対応する V の M 列だけです。パラメーターの数を数えるために、スピーカーは、M 列までの V の各直交列で必要なパラメーターの異なる数を説明する公式を使用します。この式では、各列の NM に 1 を加算し、その数を M の 2 乗 + M + 1 の半分から減算します。式の結果は、ランク R 行列の SVD のパラメーターの最終カウントです。

  • 00:20:00 このセクションでは、スピーカーはランク R の行列とそれらが持つパラメーターの数について説明します。ランク R の行列は部分空間ではありません。これは、異なる行列が同じランクを持つことができ、異なる部分を持つ曲面のようになるためです。話し手は、ランク R の行列には R 個のパラメーターがあると信じています。次に、ランク R 行列のパラメーターの数を見つけます。パラメータの数は、Sigma は R、V は (R + 1) / 2、U は (M - 1) + (M - 2) + ... + (M - R) です。

  • 00:25:00 レクチャーのこのセクションでは、インストラクターが行列の鞍点の概念について説明します。これは、最大値と最小値とは異なります。サドル ポイントは、ラグランジュ乗数を使用して線形制約に従う二次コスト関数を最適化するときに発生します。インストラクターはラムダを紹介し、X とラムダの両方に依存する関数を形成するためにラグランジュでどのように使用されるかを示します。次に、この関数を最適化して、発生する可能性のある鞍点を見つけることができます。インストラクターはまた、正定値または負定値ではない行列で発生する鞍点の別のソースについても言及しています。

  • 00:30:00 このセクションでは、スピーカーは関数の鞍点を見つける方法について説明し、ブロック行列で表される重要なクラスの問題でそれらがどのように発生するかを示します。関数には最大値ではなく、鞍点があります。この問題に対する Lagron の貢献は、X とラムダに関する導関数を取り、それぞれ n と m の方程式を生成することです。最終的に、ブロック行列で表される行列は正定値ではないことを示し、この情報を使用して鞍点を決定できます。

  • 00:35:00 このセクションでは、講師は、マトリックスの行列式がその固有値の符号を決定するのにどのように役立つかについて説明します。簡単な例を使用して、行列式が負の場合、両方の符号の固有値が存在する必要があることを示しています。次に、これを最適化で使用される KKT 行列に関連付け、それらは一般に不定ですが、それらには正定値ブロックが関連付けられていると主張します。彼は、この正定ブロックでブロック消去を使用すると、すべての n ピボットが正になり、KKT 行列が正と負の両方の固有値を持つという結論につながることを示しています。

  • 00:40:00 このセクションでは、講師がサドル ポイントと、それらが制約とどのように関係しているかについて説明します。彼は、ピボットの符号に基づいて、対称行列の固有値の符号を決定する方法を説明しています。講師はまた、レイリー商を定義し、それが対称行列の最大値と対応する固有ベクトルを決定するのにどのように役立つかを確認します。講義は、レイリー商にどのような値を代入しても最大値よりも小さくなるという説明で終わります。

  • 00:45:00 このセクションでは、スピーカーはレイリー商における鞍点の概念について説明します。最小値と最大値の間の中間のラムダを処理するのは困難です。ただし、最大値と最小値では、商の値は簡単に測定できます。任意のベクトルが任意の次元で選択されている場合、最大値と最小値の間にある X の R を計算できます。講演者によると、サドル ポイントの詳細については次回のレクチャーで説明しますが、その前に、オーバーフィッティングとディープ ラーニングについて説明する 3 つ目のラボがあり、休憩後に予定されています。
Lecture 18: Counting Parameters in SVD, LU, QR, Saddle Points
Lecture 18: Counting Parameters in SVD, LU, QR, Saddle Points
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

講義 19. サドル ポイントの続き、Maxmin の原理



19. サドルポイントの続き、マックスミンの原理

このビデオでは、スピーカーは、鞍点と、2 次元空間でレイリー商を使用して最小値と最大値を見つける方法について引き続き説明します。最大値と最小値をすばやく見つけるために、鞍点を最小値の最大値として記述するインターレース定理について説明します。講演者はまた、高次多項式でデータをフィッティングする際のオーバーフィッティングに対して警告し、鞍点と単純なニューラル ネットワークを含むクラスの 2 つの自由形式のラボについて説明します。統計の平均と分散、サンプルの分散と共分散の概念が説明されています。講演者は、完全に依存する出力の共分散行列は可逆ではないことに注意し、複数の人が 1 つの家に住んでいる場合の世論調査のシナリオでは、ある程度の共分散が予想されますが、完全に独立しているわけではありません。

  • 00:00:00 このセクションでは、スピーカーは、深層学習におけるコスト合計関数の最小値を見つけることに関連して、鞍点を理解することの重要性について説明します。これらは、レイリー商と単純な行列 S の例を提供し、鞍点、関数の最大値と最小値、および鞍点の存在の主な事実を示しています。講演者は、ラボ 3、プロジェクト、および基本的な統計、特に共分散行列について話し合う計画についても言及しています。

  • 00:05:00 このセクションでは、スピーカーはサドル ポイントと、すべてを 1 つの変数にロードし、導関数を計算してゼロに等しい場所を見つけることによって、最小値と最大値を見つける方法について説明します。最小値を見つける方法を示し、行列の固有ベクトルと固有値が鞍点の位置と値を見つけるのに役立つことを示しています。講演者は、二次導関数と対称行列を計算する方法についても話します。彼らは、鞍点の値を計算することの重要性を強調し、コードを使用してプロセスに注意することを提案しています。

  • 00:10:00 このセクションでは、スピーカーは鞍点の考え方と、最大値と最小値にすばやく戻るためにそれらを最小値の最大値として記述する方法について説明します。彼は、これがインターレース定理につながると説明し、レイリー商の最小値を見つけるために 2 次元部分空間で最小値を取る例を示します。すべての部分空間でその最小値の最大値を取得することで、鞍点の値であるラムダを取得できます。

  • 00:15:00 このセクションでは、スピーカーはレイリー商を使用して 2 次元空間で最大値と最小値を見つける方法を説明します。彼は、可能なすべての 2D 空間で最大値を取り、この特定の V の選択が 3 の答えを与えることを示すことによって、最大値が 3 であることを示しています。次にスピーカーは、他の部分空間の最小値がどのように 3 未満になるかを説明します。これは、最小値の最大値も 3 であることを意味します。鞍点の概念についても説明し、スピーカーは、これらの点が特定の領域の最高点で発生することが多く、最小値の最大値または最大値の最小値である可能性があることに注意してください。ビデオの最後には、プロジェクトについてのディスカッションと、視聴者からの質問への招待が含まれます。

  • 00:20:00 このセクションでは、スピーカーは 5 次の多項式を使用して 6 点を適合させるオーバーフィッティングのモデルを説明します。講演者は、5 次多項式がデータ ポイントに正確に適合することを指摘しますが、滑らかでも適切でもないため、欠陥のあるモデルでもあります。この例は、オーバーフィッティングに対する警告として機能します。オーバーフィッティングは、モデルが複雑すぎてトレーニング データに適合しすぎる場合に発生します。

  • 00:25:00 このセクションでは、スピーカーはデータを高度な多項式でフィッティングする問題について説明します。直線をフィッティングするとアンダーフィッティングになる可能性がありますが、高次の多項式をフィッティングするとオーバーフィッティングにつながる可能性があります。これは、データ内のノイズを考慮せずに、指定されたすべてのデータ ポイントに完全に適合するためです。完全適合の考え方は、完全適合から生じる巨大な係数ベクトルのために大きな逆行列を持つ Vandermonde 行列に関連しています。行列には広範囲の特異値があり、小さな値が通常のサイズの値と並んで発生します。そのため、データに適合する多項式の正しい次数を見つけて、適合不足と過剰適合のバランスをとるのは難しい場合があります。

  • 00:30:00 このセクションでは、講演者は、彼のクラスのオープンエンド ラボの 2 つの例について説明します。1 つはサドル ポイントに関するもので、もう 1 つは単純なニューラル ネットワークに関するものです。鞍点の例では、スピーカーはデータのプロットと表を提出して評価範囲を評価し、K を増加させることの安全性とリスクについて結論を出すことを提案します。ニューラル ネットワークの例に関して、スピーカーは基本的な分類問題の概要を説明し、学生に線形代数を使用しながら、適切と思われるモデルを作成します。スピーカーはまた、このコースがその一例である計算論的思考のコースに関する MIT の計画について、近日中に行われる教員会議について言及しています。最後に、スピーカーは学生に、大まかなプロジェクトのアイデアとグループの好みを電子メールで送信するように勧めます。

  • 00:35:00 このセクションでは、教授がクラスのプロジェクトのアイデアについて話し合い、その範囲を明確にします。彼は、プロジェクトが大きすぎず、おそらく 3 つの宿題に相当すると述べていますが、些細なことでもありません。彼は生徒たちにプロジェクトに関する質問と意見を求め、畳み込みニューラル ネットワークなどのトピックを含める可能性を示唆しています。教授はまた、一部の学生がメディア ラボでミーティングを開始し、それが成功したことにも言及しています。彼は、春休みの後、人々が再びそのような会合に興味を持つかどうか尋ねます。

  • 00:40:00 このセクションでは、スピーカーは統計における平均と分散の概念、それらが実際の出力と期待される出力にどのように関係しているか、サンプルの平均と期待される平均の違いを紹介します。サンプル平均は実験の実際の出力から計算され、期待平均はそれらの結果の確率から計算されます。サンプル分散と期待分散を区別して、分散についても説明します。スピーカーは、サンプル数または可能性の数が増えるにつれて、平均と分散の期待値が実際の値に近づくと説明します。

  • 00:45:00 このセクションでは、サンプル分散の概念について説明します。これは、n 個のサンプルのセットの平均からの平均二乗距離を測定します。統計では、n マイナス 1 の除算は、この距離がゼロではなくサンプル平均から計算されることを意味し、n が大きい場合、n と n マイナス 1 の差は重要ではありません。一方、共分散は、複数の実験が実行されるときの行列操作を含むより深いアイデアであり、2 つの別々のイベントの結合確率が計算されます。

  • 00:50:00 このセクションでは、スピーカーは、共分散出力の 2 つの極値、独立した出力と完全に依存する出力について説明します。独立した出力の共分散は 0 ですが、完全に依存する出力の共分散は最大になり、一方の出力が他方の出力によって完全に決定されます。話者は、接着されたコインを弾く例を使用して、この概念を説明します。従属出力の共分散行列は可逆ではなく、対称正定値、または接着された場合の半正定値ではありません。スピーカーは、複数の人が 1 つの家に住んでいる世論調査のシナリオでは、ある程度の共分散が予想されますが、完全に独立しているわけではないと述べています。
19. Saddle Points Continued, Maxmin Principle
19. Saddle Points Continued, Maxmin Principle
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

講義 20. 定義と不等式



20. 定義と不等式

ビデオのこのセクションでは、講演者は、期待値、分散、共分散行列など、確率論のさまざまな概念について説明します。マルコフの不等式とチェビシェフの不等式も、確率を推定するための基本的なツールとして導入されました。次にスピーカーは、マルコフの不等式とチェビシェフの不等式の間の関係を説明し、それらがどのように同じ結果につながるかを示します。確率論の基本的なツールである共分散と共分散行列の概念も導入されました。このビデオでは、同時確率とテンソルの考え方についても説明し、コインをくっつけるとどのように依存関係が追加され、確率が変化するかを説明しています。最後に、スピーカーは共分散行列のプロパティについて説明し、それが常に正の半正定行列であり、ランク 1 の正の半正定行列の組み合わせであることを強調します。

  • 00:00:00 このセクションでは、講師が期待値、分散、共分散行列について説明します。 「e」で表される期待値は、確率に基づくすべての可能な結果の加重平均として定義されます。一方、分散は、平均値と各データ ポイントの間の距離の 2 乗の期待値です。共分散行列も同様に表現できます。講師は次に、分散を計算するより効率的な方法を得るために、平方を書き出して異なる方法で組み合わせることにより、分散の 2 番目の式を調べます。

  • 00:05:00 このセクションでは、スピーカーは方程式を単純化して x の 2 乗の期待値を求める代数プロセスについて説明します。彼は、x の 2 乗の期待値から x の期待値を引いて M の 2 乗を引いた値が、x の 2 乗の確率の合計に等しいことを示しています。次にスピーカーは、マルコフ不等式を紹介します。これは、確率と期待を含む統計的不等式です。彼は、マルコフは偉大なロシアの数学者であり、マルコフ連鎖と過程については本書の後半で取り上げることになると述べています。

  • 00:10:00 このセクションでは、スピーカーはマルコフの不等式を説明します。これは、X が特定の数値以上である確率を推定するのに役立ちます。この不等式は、X が a 以上である確率が、X を a で割った平均値以下であることを示しています。話者は、平均が 1 で a の値が 3 の例を挙げ、X が 3 以上である確率が 1/3 以下であることを示します。ただし、スピーカーは、この不等式は非負のイベントにのみ適用され、負から正の無限大までの範囲の出力を持つイベントには使用できないことに注意してください。

  • 00:15:00 ビデオのこのセクションでは、スピーカーは特別なケースを使用して 3 以上である確率を実証することについて話します。彼らは平均の定義を使用して特定の方程式を書き出し、次に仮定を立てます。マルコフ不等式を満たすための X1 から X5 の値について。彼らは、確率が 1 になり、すべてが 0 以上であるという事実を述べています。次に、話し手は式を操作して、3 以上である確率が 1/ 以下であることを示します。 3 方程式から特定の値を減算することによって。彼らは、方程式がマルコフの不等式を満たすことを示して結論付けています。

  • 00:20:00 このセクションでは、スピーカーは確率におけるマルコフとチェビシェフの不等式について説明します。マルコフの不等式は、変数が特定の値以上である確率を推定することを含み、変数がすべてゼロ以上である場合にのみ適用されます。一方、チェビシェフの不等式は、変数が平均から一定の距離にある確率を扱い、入力に関する仮定を行いません。これら 2 つの不等式は、確率論で確率を推定するための基本的なツールです。

  • 00:25:00 このセクションでは、スピーカーはマルコフの不等式とチェビシェフの不等式の関係を説明します。彼は、X から M の 2 乗を引いた新しい変数 Y を導入し、その平均を計算する方法を説明します。次にスピーカーは、マルコフの不等式を Y に適用し、チェビシェフの不等式を X に適用して、どのように同じ結果が得られるかを示します。最後に、共分散と共分散行列の概念を紹介します。

  • 00:30:00 このセクションでは、スピーカーは共分散と共分散行列の概念を紹介します。共分散行列は、M x M の行列で、M は一度に行われる実験の数です。この概念を説明するために、話者はコインごとに 1 つの出力 (X) で 2 つのコインを弾く例を使用します。 2 つのコインが別々に裏返された場合、出力間に相関関係はありませんが、それらが接着された場合、出力は相関し、結合確率は 2x2 行列に入れられます。

  • 00:35:00 このセクションでは、スピーカーは、独立したコインを含む実験セットアップの共同確率と行列の概念について説明します。彼らは、独立した公正なコインを使用した 3 つの実験がある場合、またはコインが接着されている場合に、3 方向構造またはテンソルのアイデアを探ります。テンソルの結果のエントリは、さまざまな結果の確率を計算するために使用できる同時確率になります。話者は、接着剤を使わない実験の単純なケースのエントリは 8 分の 1 ですが、コインを接着すると依存性が追加され、確率が変わることに注意します。

  • 00:40:00 ビデオのこのセクションでは、スピーカーが 3 枚のコインを投げる同時確率と、それを 3 方向行列で表す方法について説明します。彼は、テンソルと共分散行列の概念に言及し、後者を 2 つの実験 X と Y の結合結果の分散として定義し、すべての可能な結果の合計として表されます。講演者はまた、シンボル P IJ と、それがさまざまな構成でコインを接着したり、接着を解除したりすることにどのように関係しているかを説明します。

  • 00:45:00 ビデオのこのセクションでは、スピーカーは 2 つのイベント (X と Y) の同時確率と、異なる値のペアに対してこの確率を計算する方法について説明します。スピーカーは、特定の年齢と身長の確率の計算など、結合確率の使用方法の例を提供します。スピーカーは、各イベントの個々の確率である限界確率も定義し、行列の行または列に沿って確率を合計する方法を説明します。次に、スピーカーは共分散行列を定義し、そのエントリを計算する方法を説明します。

  • 00:50:00 このセクションでは、スピーカーは共分散行列とそのプロパティについて話します。彼は、X 実験の分散はすべての P IJ の合計から導き出されるのに対し、Y 実験の分散はシグマ Y の 2 乗値によって与えられると説明しています。 X と Y の間の共分散は、P IJ に X の平均からの距離と Y の平均からの距離を掛けた合計です。独立したコインの場合、共分散はゼロになりますが、接着されたコインの場合、シグマ X の 2 乗 シグマ Y の 2 乗と同じになります。行列の行列式は、接着されたコインの場合はゼロです。これは、共分散の 2 乗が Sigma X の 2 乗 Sigma Y の 2 乗と同じであることを示しています。共分散行列は常に正の半正定であり、ランク 1 の正の半正定の組み合わせであるため、正の半正定または正定です。
20. Definitions and Inequalities
20. Definitions and Inequalities
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

講義 21: 関数を段階的に最小化する



講義 21: 関数を段階的に最小化する

このビデオ講義では、関数を最小化するために使用される基本的なアルゴリズムとその収束率、特にニュートン法と最急降下法について説明します。また、関数に 1 つの最小値があることを保証する凸性の重要性を強調し、凸集合と凸関数の概念を紹介します。講師は、関数の凸性をテストする方法を説明します。これにより、グローバル最小値ではなく、鞍点またはローカル最小値があるかどうかが決まります。ビデオは、完全に二次的ではないニュートンの方法の安価なバージョンであるレーベンバーグ マルカートの議論で締めくくられています。

  • 00:00:00 このセクションでは、講師が最適化の基本について説明します。これは、深層学習に入る基本的なアルゴリズムです。講義はテイラー級数の説明から始まり、関数が複数の変数からなる場合にテイラー級数を拡張する方法を示します。次に講師は、各 X 変数に関する F の偏導関数である F の勾配を紹介します。最後に 2 次項について説明し、2 次導関数とそれらがより多くの変数でどのように変化するかについて説明して、講義を終了します。

  • 00:05:00 講義のこのセクションでは、関数の二次導関数の行列であるヘッセ行列の概念を紹介します。ヘッセ行列は対称であり、その計算は n の小さい値から適度に大きい値まで実行可能です。ヤコビ行列であるベクトル関数の並列図があり、エントリはさまざまな変数に関する関数の導関数です。これらは、最適化問題で方程式を解くために使用される多変数計算の事実です。

  • 00:10:00 このセクションでは、講師が n 個の未知数の連立方程式を解くためのニュートン法について説明します。これには、特定の関数の最小化が含まれます。ニュートン法は、n 個の未知数で n 個の方程式を解くための最良の方法です。F は 0 に等しく、1 の F はゼロに等しく、合計で n 個の方程式があるとして表すことができます。講師は、ニュートン法を使用して x の 2 乗マイナス 9 が 0 に等しい方程式を解く方法を示します。これは関数として記述でき、その方法を段階的に適用する方法を実演します。

  • 00:15:00 このセクションでは、講師がニュートン法を使用して関数を最小化する方法と、関数が収束する速度を決定する方法について説明します。まず、X sub K + 1 を決定する式を単純化することから始め、X sub K がちょうど 3 の場合、X sub K + 1 も 3 になることを示します。次に、誤差がゼロに近づく速度に注目し、両方から 3 を引きます。式を単純化すると、ステップ K + 1 での誤差がすべてのステップで 2 乗されることがわかります。これは、ニュートン法が十分近くで実行された場合に優れている理由を証明しています。

  • 00:20:00 このセクションでは、講師が最適化にニュートン法を使用する方法と、数千または数十万もの変数を持つ非常に複雑な損失関数に適用する方法について説明します。講義では、最急降下法とニュートン法という 2 つの方法について説明します。最急降下法では、F の勾配の方向に移動しますが、ステップ サイズは自由に決定できます。一方、ニュートン法は F の 2 次導関数を考慮し、より高速な収束を可能にしますが、望ましくない解に収束したり、特定の開始点で爆発したりする可能性もあります。これは、特定の開始点が望ましい解決策につながり、他の開始点が望ましくない解決策または無限につながるという引力領域の概念につながります。

  • 00:25:00 このセクションでは、講師が関数を段階的に最小化する 2 つの方法について説明します。最急降下法とニュートン法です。どちらも、n 次元空間で方向を繰り返し選択し、その方向に沿って特定の距離を移動することを伴いますが、最急降下法は関数の勾配を使用して方向を選択しますが、ニュートンの方法はヘッシアンまたは二次導関数を使用します。講義では、正確な直線探索の概念と、これらの方法で適切な学習率を選択することの重要性についても説明します。

  • 00:30:00 このセクションでは、講師が関数を最小化するために使用される基本的なアルゴリズムとその収束率について説明します。講師は、ニュートン法は 2 次収束率を持ち、十分近くで開始すると超高速になると説明しています。対照的に、最急降下アルゴリズムの収束率は線形であるため、効率が低下します。講師は、これらの問題を解決するための出発点は、関数に最小値が 1 つあることを保証する凸性であるべきだと強調しています。講師は、凸集合と関数を定義し、凸集合内の点の関数を最小化する際のそれらの重要性を説明します。講義は、完全に二次的ではないニュートンの方法の安価なバージョンであるレーベンバーグ マルカートの議論で締めくくられます。

  • 00:35:00 ビデオのこのセクションでは、スピーカーは関数を最小化する方法について説明します。関数の制約は、凸集合によって定義されます。つまり、集合内の 2 点間に引かれた線は集合内にとどまる必要があります。話者は、2 つの重なり合った三角形の例を挙げていますが、それらを組み合わせても凸集合を形成しません。

  • 00:40:00 このセクションでは、凸集合と凸関数の概念を紹介します。 2 つの凸集合の交点は常に凸であり、空の集合は凸集合と見なされることに注意してください。ビデオの注記は、関数を最小化する際にこれらの概念を理解することの重要性を強調しています。プロトタイプの問題には、凸面図で関数を見つけることが含まれるためです。ビデオはまた、凸関数の定義を凸集合の定義に結びつけ、凸関数のグラフはボウルに似ているが、その表面上の点は凸集合ではないことを指摘しています。ただし、グラフ上の点の集合は凸集合です。

  • 00:45:00 講義のこのセクションでは、スピーカーは凸関数のテストについて説明します。彼は、最小関数と最大関数を作成するために 2 つの凸関数を使用できると説明しています。最小関数にはねじれがあるため、凸関数ではありませんが、最大関数は凸関数になります。話者はまた、このテストは最大 1500 個の関数に拡張でき、1500 個の関数すべてが凸型である場合、それらの最大値も凸型になると述べています。

  • 00:50:00 このセクションでは、スピーカーは関数の凸性をテストする方法を説明します。微積分で変数が 1 つしかない関数の場合、凸関数は、2 次導関数が正かゼロかを調べることで証明できます。複数の変数を持つベクトル関数を扱う場合、対称行列 F が関数に追加されます。ここでの凸性の検定は、ヘッセ行列の正の半正定値になります。これは、二次導関数が行列になるためです。凸の問題には、鞍点や局所的な最小値がなく、全体的な最小値しかないため、望ましいものになっています。
Lecture 21: Minimizing a Function Step by Step
Lecture 21: Minimizing a Function Step by Step
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

講義 22. 勾配降下: 下り坂を最小に



22. 勾配降下: 最小限までの下り坂

ビデオ「Gradient Descent: Downhill to a Minimum」では、関数を最小化することを目標とする最適化と深層学習における勾配降下法の重要性について講演者が説明しています。スピーカーは、勾配とヘッシアンを紹介し、二次関数を使用して最急降下のステップを示します。講演者はまた、勾配とヘッセ行列を解釈する方法、および凸性の測定におけるそれらの役割についても説明します。講演者は、収束速度を制御する上での条件数の重要性を強調しながら、適切な学習率の選択について詳しく説明します。このビデオでは、ヘビー ボール法など、勾配降下法の概念を理解するのに役立つ実用的な例と式も提供しています。

  • 00:00:00 このセクションでは、スピーカーは、ニューラル ネットワーク、深層学習、機械学習、および最適化全般における中心的なアルゴリズムとしての勾配降下法について説明します。目標は、関数を最小化することです。変数が多すぎて 2 次導関数を取得できない場合は、関数の 1 次導関数に焦点が当てられます。講演者は、勾配とヘッセ行列の考え方、および凸性の役割を紹介してから、2 つの未知数を持つ純粋な 2 次関数の重要な例に飛び込みます。例を通して、話者は最急降下のステップと、最小点である答えにどれだけ早く収束するかを示します。スピーカーは、収束速度における条件数の重要性と、関数の勾配を解釈して計算する方法についても説明します。

  • 00:05:00 このセクションでは、スピーカーは、サーフェスの勾配とヘッシアンを解釈する方法を説明します。勾配が一定で、ヘッセ行列にゼロの 2 次導関数のみが含まれる曲面の例を使用して、話者は曲面を視覚化し、勾配とヘッセ行列を最も急な上昇または下降とレベル セットの観点から解釈する方法を説明します。話者は、二次導関数のヘッセ行列が、表面の形状と、それがさまざまな方向にどれだけ速く変化するかを教えてくれることを強調しています。

  • 00:10:00 このセクションでは、関数の凸性を測定するためのツールとしてヘッシアンの概念を紹介します。関数のヘッセ行列は、曲面が凸であるかどうかを示します。正の半正定または正定のヘッセ行列は、凸性を示します。線形関数は凸ですが厳密には凸ではありませんが、厳密に凸の関数は上に曲がります。厳密な凸関数の例、つまり 1/2 x 転置 x が与えられています。これは、勾配が sx の 2 乗の半分のときに最小値を持ちます。

  • 00:15:00 このセクションでは、スピーカーは勾配降下法を使用して二次関数の最小値を見つける概念について説明します。勾配がゼロの点で最小値に達し、この点は引数として示されます。話者は、これは関数の実際の最小値とは異なり、最小値自体ではなく、最小値に到達する点を見つけることに重点が置かれることが多いことを強調します。この特定の例では、線形項がないため、最小値はゼロです。

  • 00:20:00 このセクションでは、スピーカーは二次関数の最小値を見つけるという基本的な最小化の問題について説明します。関数はゼロを通過し、特定のポイントで底を打ち、そのポイントを差し込むことで、その最低レベルを決定できます。話者は注目に値する凸関数について言及し、凸性が実際に物事を機能させるものであることに注意します。この関数は行列の関数であり、N 乗変数を含みます。

  • 00:25:00 このセクションでは、スピーカーは、マトリックスの行列式を取り、その後に負の符号で対数を取ることによって得られる凸関数について説明します。結果の関数は凸関数であり、与えられた行列に対して、偏導関数はその行列の逆関数のエントリとして機能します。次に、スピーカーは、行列の行列式の導関数をそのエントリに関して掘り下げ、勾配降下アルゴリズムでこれらの導関数を計算することの重要性を強調します。

  • 00:30:00 このセクションでは、スピーカーは、行列式とその基本的な性質を説明します。これは、行 1 で線形であると述べています。また、行列式の余因子展開の式についても説明し、勾配がX のエントリを逆にします。次に、スピーカーは勾配降下法を導入し、ステップ サイズと X での s の勾配を含む式を提供します。意思決定のために残された唯一の入力は、ステップ サイズです。

  • 00:35:00 このセクションでは、インストラクターが勾配降下法で適切な学習率を選択することの重要性について説明します。学習率が大きすぎると、関数が振動し、最適化が難しくなります。一方、学習率が小さすぎると、アルゴリズムが収束するまでに時間がかかりすぎます。最適な学習率を選択する 1 つの方法は、正確な直線探索を使用することですが、これは大規模な問題では時間がかかる可能性があります。代わりに、人々は通常、適切な学習率を推定し、必要に応じてバックトラッキング ライン検索によって調整します。インストラクターは、収束速度を制御する上での条件数の重要性を強調し、正確なライン検索が関数をどれだけ削減するかという質問をします。

  • 00:40:00 このセクションでは、スピーカーは勾配降下法をよりよく理解するための例について説明します。正確な答えがわかっている特定の関数が導入され、比較を行うことができます。この関数の表面上の点から始めて、話者は勾配降下式を適用し、この特定の関数の反復を計算します。次にスピーカーは、勾配降下法を理解するのに役立つ最良の例として取り上げられる美しい式を提示します。

  • 00:45:00 このセクションでは、スピーカーは、勾配降下中の収束速度を決定する上で比率 (1-B)/(1+B) がどのように重要であるかについて説明します。 B が 0 に近い場合、比率は 1 に近くなり、収束が遅くなり、B が 1 に近い場合、比率は 0 に近くなり、収束が速くなります。話者は、レベル セットと楕円の例を使用して、最小値に近づくと狭い谷がどのように収束を遅らせるかを説明します。講演者は、最適化のための良好な条件数の重要性を強調しています。

  • 00:50:00 このセクションでは、勾配降下法がジグザグの軌道で曲線に近づき、最終的に特定のポイントに到達する方法について話します。彼は、乗数 1 - B/ (1 + B) が重要な役割を果たしており、凸関数の場合、この量は最急降下の収束を決定するために重要であることを強調しています。次のレクチャーでは、運動量または重いボールについて説明します。これには、すべてのポイントで最急降下によって移動を指示するのではなく、動きを加速できるようにする追加の用語が含まれます。アイデアは、実生活と同じように、重いボールの勢いを引き継いで転がり落ちるようにすることです。
22. Gradient Descent: Downhill to a Minimum
22. Gradient Descent: Downhill to a Minimum
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

講義 23. 勾配降下の加速 (Momentum を使用)



23. 勾配降下の加速 (Momentum を使用)

このビデオでは、勾配降下を加速する際の運動量の概念について説明します。プレゼンターは基本的な勾配降下法を説明し、勢いを加えると通常の方法よりも速く降下し、最終的に大幅な改善が得られることを示します。また、最急降下の連続モデルについても説明し、それを運動量項を含む 2 次微分方程式として解析する方法を説明しています。プレゼンターは、行列の固有値をできるだけ小さくするために s と beta の値を選択することにより、運動量を使用して最大の固有値を最小化するときに、両方の固有値を最小化することの重要性を強調しています。彼らはまた、Nesterov の方法について議論し、2 つまたは 3 つのステップまたはそれ以上戻ることによって、さらなる改善が得られる可能性があることを示唆しています。

  • 00:00:00 このセクションでは、スピーカーは基本的な勾配降下式について説明します。ここで、新しい点は、古い点からステップ サイズを引いて、降下の方向である XK での負の勾配を掛けたものです。勾配降下でジグザグを避けるために運動量を加えると、通常の方法よりも速く降下します。ネストロフというロシアの数学者によって開発された、降下を加速する運動量に代わるものもあります。数十万の変数を含む機械学習の問題では、確率的勾配降下法が使用されます。この場合、トレーニング データのミニバッチがランダムまたは体系的に選択され、各ステップでトレーニング サンプルの 1 つのバッチが実行されます。

  • 00:05:00 このセクションでは、スピーカーは、楕円を形成する定数に等しい X と Y の 2 乗の関数を使用して、モデルの問題の最も急な方向の降下とレベル セットについて説明します。彼らは、最適な停止点は、レベルセット楕円の最も遠い点に接し、再び上昇を開始する場所であると説明しています.話者は運動量項を導入して最急降下式を改善し、その降下をジグザグ パターンで追跡し、固有ベクトルの値の改善を示します。話者は、勢いのある表現は奇跡であり、大幅な改善をもたらすと結論付けています。

  • 00:10:00 ビデオのこのセクションでは、スピーカーは勾配降下を加速する際の運動量の使用について説明します。運動量の減衰項は、減衰がどれだけ小さいかを示します。運動量を使用すると、1 を引いた B と 1 を足した B のこの項は、1 を引いた B の平方根を 1 を足したものと、B の平方根を足したものに変わります。 B は 100 分の 1 であり、新しい X は古い X から勾配を引いたものであり、余分な項が追加されているため、少し記憶が残ります。この用語は、ステップ サイズで新しい量 Z を取得することを含み、Z を単なる勾配として取得する代わりに、スピーカーは前の Z の倍数ベータを追加します。これが探索方向です。

  • 00:15:00 このセクションでは、スピーカーは勾配降下を加速する際の運動量の概念について説明します。スピーカーは、関数を表現するために点を使用するのではなく、コスト関数の谷をより速く移動する重いボールを使用することを提案しています。これは、計算に前のステップを含めることによって達成され、2 レベルの方法ではなく 3 レベルの方法になります。次にスピーカーは、これを最急降下の連続モデルに関連付け、運動量項を含む 2 次微分方程式としてどのように分析できるかを説明します。次に、これを 2 つの 1 次方程式のシステムとして記述する方法を示します。これを使用して、より効率的で高速な勾配降下アルゴリズムを作成できます。

  • 00:20:00 このセクションでは、スピーカーは、加速勾配降下アルゴリズムで k が前進するときに何が起こるかを分析する方法について説明します。彼らは、XZ変数が行列で乗算されるため、すべてのステップで定数係数の問題があると説明しています。スピーカーはまた、s の各固有ベクトルを追跡するために、ベクトルではなくスカラーに関して式を書き換えることができる各固有値に従うことにも言及しています。

  • 00:25:00 このセクションでは、スピーカーは 1 つの固有ベクトルを追跡し、それを使用して問題全体をスカラーにする方法について説明します。ステップ サイズと運動量係数を選択することで、各ステップで固有ベクトルの係数を乗算して更新できる行列を作成できます。 s と beta をできるだけ小さくすることで、可能なラムダの全範囲にわたってアルゴリズムが損失関数を最小化することを保証できます。目標は、プロセスをできるだけ効率的にするためにこれらの値を選択することです。

  • 00:30:00 このセクションでは、対称正定行列の最小固有値に対する最大固有値の比率である条件数の概念についてスピーカーが説明します。条件数が大きいほど問題が難しく、小さいほど問題が簡単です。スピーカーは、行列の固有値をできるだけ小さくするために s と beta の値を選択することによって勾配降下を加速し、最大の固有値を最小化するために運動量を使用する方法を説明します。話し手は、固有値が 1 つでも大きいと致命的となる可能性があるため、両方の固有値を最小化することが不可欠であることを強調します。

  • 00:35:00 ビデオのこのセクションでは、スピーカーは、ラムダ、m、および capya に依存する固有値に基づいて、2 行 2 列の行列の最適なパラメーター s とベータを見つける問題について説明します。目標は、可能な限り小さい大きな固有値をもたらすパラメーターを選択することです。これにより、収束が速くなります。スピーカーは、小さな m と大きな M の比率に依存する最適な s とベータの式を提示し、この式に基づいて結果の最小固有値を計算する方法を説明します。最終的に、話者は、s とベータのこの最適な選択により、固有値が特定の数よりも小さくなり、収束が速くなると結論付けます。

  • 00:40:00 このセクションでは、スピーカーは機械学習の収束率を向上させるためにモメンタムを使用することについて話します。彼らは、以前の時間の値を含むわずかに異なるアイデアを使用し、別の時点で勾配を評価するための Nesterov の方法について言及しています。講演者は、ADA grad など、以前の値を加算するための単純な式を含む機械学習で現在使用されている非常に一般的な方法があることを指摘しています。彼らはまた、MATLAB ソフトウェアや惑星計算で使用される後方差分式で行われるように、2 つまたは 3 つのステップまたはそれ以上戻ることで、さらに改善できる可能性があることを示唆しています。

  • 00:45:00 このセクションでは、発表者は運動量項と、XK と XK マイナス 1 の間の点で勾配を評価することを含むネステロフについて話します。F の勾配の評価点は、非整数点にあります。これはメッシュ ポイントではないため、予想外で奇妙です。これには、XK プラス 1、XK、および XK マイナス 1 が含まれるため、二次的な方法です。それを分析するには、それを 2 つの 1 次ステップとして記述するプロセスに従って、ネステロフの係数を最適化します。このプロセスには、行列を持つワンステップの結合システムとしてそれを記述し、行列を見つけ、行列の固有値を見つけ、それらの固有値をできるだけ小さくすることが含まれます。
23. Accelerating Gradient Descent (Use Momentum)
23. Accelerating Gradient Descent (Use Momentum)
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

講義 24. 線形計画法と二人用ゲーム



24. 線形計画法と二人用ゲーム

この YouTube ビデオでは、線形計画法と 2 人用ゲームのトピックを取り上げています。線形計画法は、一連の線形制約に従って線形コスト関数を最適化するプロセスであり、経済学や工学などの分野で使用されます。動画では、シンプレックス法や内点法など線形計画法で使われるアルゴリズムや、主問題とその双対問題が密接に関係し、シンプレックス法で解ける双対性の概念について説明しています。このビデオでは、ネットワーク内の最大フローの上限を見つけ、行列を使用してゲームを解くプロセスなど、線形計画法を 2 人用ゲームに適用する方法についても説明しています。最後に、ビデオでは、これらの手法を 3 人以上のゲームに適用する際の制限について簡単に説明し、次の講義で確率的勾配降下法について説明することに言及しています。

  • 00:00:00 このセクションでは、講師が最適化の一環として線形計画法のトピックを紹介し、線形計画法とは何か、どのように機能するかを説明します。彼は、線形計画法を一連の線形制約に従って線形コスト関数を最適化するプロセスと定義しています。彼は、コスト ベクトルと制約の方程式はどちらも線形であることに注目しています。ただし、制約が関係している場合、制約方程式が問題をより複雑にする可能性があるため、問題は実際には線形ではありません。それにもかかわらず、線形計画法は最適化の重要な部分であり、経済学や工学などの分野でよく使用されます。

  • 00:05:00 このセクションでは、スピーカーは線形計画法と 2 人用ゲームについて説明します。線形代数言語の制約集合である実行可能集合 X の概念を説明し、その概念を視覚化して示します。彼らは、簡単な制約と不等式で関数を最小化する例を使用して、三角形の 3 つの角の 1 つがどのように勝者になるかを説明します。これは、平面が八分円と交差する点で最小値を見つけることによって解決されます。コストは線形であり、解は 3 つのコーナーのいずれか、またはそれらのコーナーに沿って等しい値が発生したときのいずれかです。与えられた例では、スリー ゼロ ゼロがウィニング コーナーです。

  • 00:10:00 このセクションでは、線形計画法で使用される 2 つのアルゴリズム、シンプレックス法と内点法についてビデオで説明します。シンプレックス法は実行可能セットのエッジに沿って移動して最適なコーナーに到達しますが、内点法は実行可能セット内に入り導関数を取得して最小化します。内部法は新しいアイデアであり、Karmarkar によって提案された正確なアルゴリズムは生き残っていませんが、このアイデアは今日でも使用され、研究されています。両方のアルゴリズムは、依然として互いに競合してロックされています。

  • 00:15:00 このセクションでは、スピーカーは線形計画法と、非線形計画法、二次計画法、半定値計画法、内点法などのさまざまなタイプについて説明します。話者は、線形計画問題の双対問題を作成し、主問題を線形コストと線形不等式制約を伴う最大化問題に変える、双対性の考え方を紹介します。次に、話者は、主問題とその双対問題は密接に関連しており、シンプレックス法を使用して解決できることを説明します。さらに、話者は双対性という重要な考え方を紹介します。これは、最大値は常に実行可能な許容値以下であると述べています。最後に、話者は不等式 B 転置 Y が C 転置 X 以下であることを 1 行で証明します。

  • 00:20:00 このセクションでは、スピーカーは、線形計画法におけるゼロ以上の X の重要性と、弱い双対性を達成する上でのその役割について説明します。 X がゼロ以上であるという事実は、目的の不等式が満たされ、システムから得られる結果が正しいことを保証します。講演者は、双対性の概念と、それが線形計画法や 2 人用ゲームにどのように関係するかについて言及し、どちらの場合もアルゴリズムに注意を払うことの重要性を強調します。スピーカーは、説明した概念を実証するために、最大フローと最小カットの例も提供します。

  • 00:25:00 このセクションでは、スピーカーは、エッジ容量に制約があるネットワークを介したフローを最大化するという文脈で、線形計画法と 2 人用ゲームの問題について説明します。彼らは、フロー変数がエッジの容量によって許容されるフローの量を超えないようにしながら、シンクでのフローを最大化することが目標であると説明しています。この問題は整数プログラミングを使用して解決できますが、整数以外の変数を許可するように安全に緩和できます。講演者は、この問題を解決する方法の例を示し、適切なエッジ キャパシティを選択することの重要性について説明します。

  • 00:30:00 このセクションでは、講師が線形計画法と 2 人用ゲームについて説明します。具体的には、ネットワーク内の最大フローの上限を見つけることを探求し、ソースに向かうエッジとターゲットに向かうエッジを分離するネットワークのカットに焦点を当てています。この例の最大フローは 14 で、最小カットに一致します。問題を最適化する際に上限を見つけるために、双対性の概念も導入されています。

  • 00:35:00 このセクションでは、スピーカーは線形計画法と 2 人用ゲームについて説明します。大規模なネットワークでの最大カットの問題は、線形計画法を使用してすばやく解決できますが、数千のエッジでは最大カットが表示されない場合があります。ほとんどの場合、平均的なケースを持つシンプレックス法は、解決するのに多項式です。スピーカーは、どのフローもカットの容量を超えることができない線形計画法の双対性についても話します。最後に、スピーカーは、2 人用ゲームと、プレーヤーの最小化と最大化のペイオフに基づいて決定を行うために使用されるペイオフ マトリックスについて話します。このゲームはゼロサム ゲームであり、X の支払いはすべて Y に支払われます。

  • 00:40:00 このセクションのビデオでは、線形計画法と 2 人用ゲームについて、X が小さな数を作りたい、Y が大きな数を作りたいという例を使用して説明します。これにより、Y が毎回列 2 を選択し、X が毎回行 1 を選択する鞍点を持つ単純なゲームになります。ただし、例が変わり、Y が列 2 を目指す場合、鞍点が存在しないため、X は混合戦略を選択する必要があります。 Y も混合戦略を採用し、最終的に X がそれを理解し、0 と 1 の間で最良の選択を見つけるための競争につながります。

  • 00:45:00 このセクションでは、スピーカーは、線形計画法を使用して 2 人用ゲームを解くプロセスについて説明し、行列を使用してゲームを解く例を示します。 Y の最適な戦略は、最初の列で 2/3、2 番目の列で 1/3 であることがわかります。 X の最適な q4 は、この最適な Y 戦略を考慮して決定されます。話者は、X の他の列または行が、最適な組み合わせに入らない可能性があることを説明します。

  • 00:50:00 このセクションでは、スピーカーは線形計画法と 2 人用ゲームの関係について説明します。彼は、双対性定理の重要性と、それが最適化問題の解決にどのように関係しているか、またこれらの手法を 3 人以上のゲームに適用する際の制限について述べています。彼はまた、ジョン・ナッシュの物語と、彼の改善とその後の悲劇的な死を含む、この分野への彼の貢献について簡単に語ります。最後に、講演者は、次回の講義で確率的勾配降下法について説明すると述べています。
24. Linear Programming and Two-Person Games
24. Linear Programming and Two-Person Games
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...