Машинное обучение и нейронные сети - страница 27

 

12. Вычисление собственных и сингулярных значений



12. Вычисление собственных и сингулярных значений

В этом видео представлен метод QR для вычисления собственных и сингулярных значений. Процесс включает в себя начало с желаемой матрицы и разложение ее на QR, создавая верхнюю треугольную матрицу R, которая соединяет неортогональный базис с ортогональным базисом. Процесс повторяется до тех пор, пока диагональные элементы не станут маленькими, после чего их можно использовать для аппроксимации собственных значений. Докладчик также обсуждает метод сдвига для вычисления собственных векторов для ускорения процесса. Также подчеркнуты преимущества использования MATLAB для симметричных матриц. В видео также затрагивается концепция векторов Крылова для решения задач на собственные значения для больших матриц.

  • 00:00:00 В этом разделе профессор представляет метод QR для вычисления собственных значений и сингулярных значений матрицы. Метод QR включает в себя начало с матрицы, собственные значения которой желательны, и разложение ее на QR. Столбцы матрицы преобразуются в ортогональный базис путем их ортогонализации и создания матрицы R, соединяющей неортогональный базис с ортогональным базисом, который является верхнетреугольным. Затем метод включает в себя изменение порядка и повторение того же самого действия для создания следующей матрицы. Профессор утверждает, что собственные значения одинаковы до и после преобразования, а матрицы похожи, что полезно для вычисления сингулярных значений матрицы.

  • 00:05:00 В этом разделе профессор объясняет процесс вычисления собственных значений с использованием QR-факторизации. Процесс включает многократное повторение QR-факторизации, пока диагональные элементы результирующей матрицы не станут очень маленькими. В этот момент диагональные элементы близки к фактическим собственным значениям исходной матрицы и могут использоваться для их аппроксимации. Профессор также подчеркивает быструю сходимость метода, при этом недиагональные элементы кубируются и быстро приближаются к нулю, что делает метод чрезвычайно точным.

  • 00:10:00 В этом разделе видео обсуждается улучшение алгоритма вычисления собственных векторов, которое предполагает введение сдвига. Вместо матрицы А они берут матрицу А — siI, где si — некоторое число, кратное единичной матрице. Это сдвигает все собственные значения матрицы A на si. Затем они работают с этой сдвинутой матрицей, выполняют процесс Грама-Шмидта и изменяют порядок, чтобы получить матрицу, максимально близкую к A. Наконец, они отменяют сдвиг, чтобы получить новую матрицу A1. Есть надежда, что A1 по-прежнему похож на A, но с более быстрым временем вычислений.

  • 00:15:00 В этом разделе профессор обсуждает метод QR для вычисления собственных значений матрицы. Он демонстрирует неполный пример, где он использует метод QR, чтобы показать, что нижняя треугольная часть матрицы начинает исчезать, а собственные значения начинают появляться по диагонали. Затем профессор обсуждает, как повысить эффективность метода QR, используя любые нули в исходной матрице. Если есть лишние диагонали с нулями, метод можно ускорить, пропустив некоторые шаги в процессе QR-факторизации.

  • 00:20:00 В этом разделе докладчик обсуждает, как вычислять собственные и сингулярные значения. Невозможно получить все собственные значения, так как невозможно получить всю нижнюю треугольную часть, равную нулю, что дало бы нам собственные значения. Это связано с тем, что собственные значения решают уравнение n-й степени, а столетия назад было доказано, что невозможно решить мгновенное уравнение простыми шагами. Кроме того, не существует простой формулы для нахождения лямбда-выражений или сингулярных значений. Однако можно подойти как можно ближе, продолжая использовать QR-метод и приводить матрицу к форме Хессенберга с одним треугольником и еще одной диагональю, но с большим количеством нулей. MATLAB и другие матричные системы используют la pack и Linpack для вычисления этих значений.

  • 00:25:00 В этом разделе видео спикер обсуждает преимущества использования MATLAB и дает представление о характеристиках симметричных матриц. Он объясняет, что если матрица симметрична, то можно с уверенностью предсказать, что у нее будет только одна диагональ выше главной диагонали, что делает ее трехдиагональной матрицей. Это значительно сокращает время на вычисление QR, так как требуется работать только с 2n числами вместо N^2. Докладчик также кратко касается сингулярных значений, заявляя, что они являются собственными значениями транспонированной матрицы, но предостерегает от их вычисления с использованием определителей, поскольку это медленно, плохо обусловлено и приводит к потере информации.

  • 00:30:00 В этом разделе спикер обсуждает концепцию использования ортогональных матриц для упрощения симметричных матриц, делая их трехдиагональными, чтобы можно было легко найти их собственные значения. Затем докладчик задает вопрос, что можно сделать с общей матрицей, чтобы упростить ее таким образом, чтобы ее сингулярные значения остались неизменными. Докладчик связывает этот вопрос с СВД и обсуждает инвариантность сингулярных значений при некоторых операциях, таких как умножение на ортогональную матрицу. Вопрос о том, какие другие операции оставляют неизменными сингулярные значения, остается открытым для рассмотрения аудиторией.

  • 00:35:00 В этом разделе лектор обсуждает эффект умножения ортогональной матрицы Q на диагональную матрицу с сингулярными значениями. Показано, что умножение Q на диагональную матрицу не меняет сингулярных значений и что это можно сделать в обеих частях уравнения, используя разные ортогональные матрицы. Эта повышенная гибкость позволяет уменьшить матрицу с трехдиагональной до двудиагональной, что делает алгоритм более быстрым по мере прохождения каждого шага. Лектор также обсуждает полезность двудиагональной матрицы для упрощения умножения матриц.

  • 00:40:00 В этом разделе спикер обсуждает вычисление собственных и сингулярных значений, в частности, для матриц порядка до тысячи. SVD включает просмотр транспонированной матрицы, которая будет трехдиагональной. Чтобы найти сингулярные значения, можно транспонировать матрицу, но для нахождения ее собственных значений потребуется, чтобы она была симметричной и трехдиагональной. Этот метод эффективен для матриц до определенного размера, за пределами которого метод Крылова можно использовать для разреженных матриц. Метод Крылова ограничивает матрицу определенным размером, обычно сто на сто, и находит собственный вектор в этом пространстве.

  • 00:45:00 В этом разделе спикер объясняет подход, называемый векторами Крылова, который можно использовать для решения задач на собственные значения для больших матриц. Применяя матричную операцию к векторам Крылова, которые имеют меньшую размерность, чем исходная матрица, можно создать и решить меньшую проблему собственных значений. Не давая точных собственных значений, векторы Крылова могут дать хорошие приближения для некоторых задач. Докладчик также представляет идею случайной выборки для больших матриц и упоминает, что она будет рассмотрена в следующей лекции.
12. Computing Eigenvalues and Singular Values
12. Computing Eigenvalues and Singular Values
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Лекция 13: Рандомизированное матричное умножение



Лекция 13: Рандомизированное матричное умножение

В этой видеолекции обсуждается концепция рандомизированного умножения матриц, которая включает в себя выборку столбцов матрицы A и соответствующих строк матрицы B с вероятностью, которая в сумме равна единице. Чтобы получить правильный ответ, можно вычислить среднее значение случайных выборок, но дисперсия все равно будет. Далее в лекции обсуждаются концепции среднего значения и дисперсии, а также способы выбора наилучших вероятностей, минимизирующих дисперсию. Процесс включает в себя введение неизвестной переменной, называемой лямбда, и взятие производных по ней для нахождения наилучшего PJ. Затем внимание смещается на вопрос о том, как взвешивать вероятности при просмотре того, какие столбцы в матрице больше или меньше. Лектор предлагает две возможности: взвесить вероятности по норме в квадрате или смешать столбцы матрицы и использовать равные вероятности. В целом, видео содержит подробное объяснение умножения рандомизированных матриц и процесса оптимизации вероятностей для получения наименьшей дисперсии.

  • 00:00:00 В этом разделе видео спикер объясняет концепцию рандомизированного матричного умножения, которая относится к рандомизированной линейной алгебре. Этот метод используется для больших матриц путем выборки столбцов матрицы A и соответствующих строк матрицы B, но не всех из них. Вместо этого случайным образом выбираются разные части с вероятностью, которая в сумме равна единице. Вычислив среднее значение случайных выборок, можно получить правильный ответ, но дисперсия все равно будет. Таким образом, цель состоит в том, чтобы выбрать наилучшие вероятности, которые минимизируют дисперсию. Лекция продолжается обсуждением понятий среднего значения и дисперсии, а также практикой на примере.

  • 00:05:00 В этом разделе спикер описывает процесс рандомизированной выборки для умножения матриц. Процесс включает в себя два столбца с вероятностью, равной половине каждого, их сложение, а затем деление на количество раз, когда они были выбраны. Затем вычисляется среднее значение рандомизированной матрицы с использованием формулы для вычисления среднего значения двух выборок. Дисперсия вычисляется с использованием любого из двух методов, один из которых включает в себя сложение вероятностей различных выходных значений в квадрате, а другой - получение среднего квадрата расстояния от среднего.

  • 00:10:00 В этом разделе видео спикер обсуждает концепции среднего значения и дисперсии в статистике и то, как они соотносятся с их текущим примером вычисления дисперсии для рандомизированного матричного умножения. Он объясняет, что дисперсия — это измерение суммы квадратов между точками по обе стороны от среднего, и что в своем примере он суммирует квадраты разностей между своим результатом и средним значением. Затем он продолжает вычислять дисперсию для своего конкретного примера, который включает два возможных исхода и вероятности для каждого.

  • 00:15:00 В этом разделе докладчик обсуждает вычисление дисперсии и вводит новую формулу дисперсии с использованием вероятностей и расстояний от среднего квадрата. Докладчик также рассказывает о концепции рандомизированной выборки в линейной алгебре и о том, как корректировка вероятностей может помочь уменьшить дисперсию, когда B намного больше, чем A. Оптимальная вероятность получается из квадрата размера B, деленного на A, и говорящий планирует чтобы обсудить это в будущем. Наконец, оратор упоминает вторую формулу для дисперсии, которая включает вероятность и расстояние от выхода в квадрате.

  • 00:20:00 В этом разделе докладчик обсуждает среднее значение и дисперсию вероятности и демонстрирует два способа вычисления среднего квадрата при вычитании среднего. Затем внимание смещается на вопрос о том, как взвешивать вероятности при просмотре того, какие столбцы в матрице больше или меньше. Докладчик предлагает две возможности: взвесить вероятности по норме в квадрате или смешать столбцы матрицы и использовать равные вероятности. Докладчик поддерживает первый подход и объясняет, как использовать вероятности, пропорциональные квадрату нормы.

  • 00:25:00 В этом разделе лектор объясняет, как масштабировать вероятности так, чтобы в сумме они равнялись единице. Затем он обсуждает свой план выбора столбца строки и строки столбца J с определенными вероятностями и то, как он будет их умножать. Его приближение, приблизительное aB, будет суммой всех этих отсчетов по S отсчетам. Лектор также упоминает, что план состоит в том, чтобы выбрать PJ, чтобы минимизировать общую дисперсию и что среднее значение правильное.

  • 00:30:00 В этом разделе лектор объясняет, как вычислить дисперсию для выборки при умножении рандомизированных матриц. Среднее значение суммы всех выборок вычисляется путем умножения среднего значения одной выборки на количество выборок, что приводит к сложной части вычисления дисперсии. Расчет дисперсии будет зависеть от фигуры от P1 до PR, которая была выбрана с вероятностью, зависящей от размера. Каждая выборка заведомо неверна, потому что она ранговая, поэтому при расчете дисперсии мы точно не получим ноль. Дисперсия для выборки оказывается суммой квадратов вероятности транспонирования AJ AJ. Среднеквадратичное значение вычитается из этого расчета, чтобы получить полную дисперсию.

  • 00:35:00 В этом разделе спикер подставляет значения для PJ и упрощает знаменатель до суммы JPG норм JP j bj. Складывая первую степень и получая C, говорящий получает выражение для дисперсии. После взятия s выборок и их объединения дисперсия становится фиксированной величиной, то есть C, которую они хотели бы сделать малой. Говорящий хочет показать, что это лучший выбор, выбирая веса вероятностей на основе длины a, умноженной на длину B.

  • 00:40:00 В этом разделе спикер обсуждает последний шаг оптимизации вероятностей от P1 до PR для строк или столбцов матрицы A и строк матрицы B с учетом ограничения, которое в сумме дает 1. Цель состоит в минимизации выражения дисперсии путем выбора оптимальных PJ. Докладчик представляет идею Лагранжа о встраивании ограничения в функцию путем введения неизвестного числа, часто называемого лямбдой, для нахождения наилучшего PJ. Этот раздел завершает обсуждение рандомизированной выборки и приводит к последней подзадаче.

  • 00:45:00 В этом разделе лектор обсуждает концепцию идеи Лагранжа в оптимизации вероятностей при условии, что они складываются в единицу. Процесс включает построение уравнения в функцию и взятие производных по лямбда, неизвестной переменной. После установки производных на ноль и решения вы получаете окончательный рекомендуемый ответ, который можно проверить, взяв производную по P. Лектор также объясняет, что множитель Лагранжа — это правильное число, чтобы сделать уравнение равным единице.

  • 00:50:00 В этом разделе профессор объясняет процесс выбора вероятностей для получения наименьшей дисперсии в рандомизированной системе. Он упоминает, что идеальные вероятности выше, когда столбец больше, поэтому определение длины столбцов является обязательным условием перед рандомизированной выборкой. Хотя рассчитать дисперсию может быть немного сложно, он рекомендует учащимся медленно просматривать записи и повторно обращаться к формулам для лучшего понимания, поскольку в будущем они будут более серьезно использовать вероятность.
Lecture 13: Randomized Matrix Multiplication
Lecture 13: Randomized Matrix Multiplication
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Лекция 14. Низкоранговые изменения в A и обратная матрица



14. Низкоранговые изменения в A и обратная матрица

В видео обсуждается концепция матриц низкого ранга и их важность в функциональных матрицах, в частности, формула обращения матриц, которая находит обратную матрицу N на n с точки зрения более простой матрицы 1 на 1. Формула полезна при нахождении обратной матрицы с возмущениями низкого ранга и может упростить процесс нахождения обратной. Докладчик демонстрирует, как работает формула, представляя формулу для второй матрицы, и показывает, как та же логика применялась для получения ответа. В видео также обсуждаются практические применения этой формулы, особенно в задачах наименьших квадратов и фильтре Калмана.

  • 00:00:00 В этом разделе профессор обсуждает концепцию матриц низкого ранга и их важность в матрицах функций. В центре внимания находится известная формула, называемая формулой обращения матриц, также известная как изменения низкого ранга в A и ее инверсия. Формула находит обратную матрицу N на n в терминах более простой матрицы 1 на 1 с использованием UV-транспонирования и делением ее на 1 минус транспонирование V, умноженное на U. Формула полезна при нахождении обратной матрицы с низкой возмущения ранга и могут быть использованы для упрощения процесса нахождения обратных. Профессор объясняет, как работает эта формула и ее практическое применение.

  • 00:05:00 В этом разделе докладчик обсуждает, как изменение матрицы на 1 ранг приведет к изменению ее обратной на 1 ранг. Формула, которую он представляет, вычисляет обратное число N на n через обратное число 1 на 1, что очень полезно. Затем спикер демонстрирует, как проверить формулу, умножив заявленную обратную на исходную матрицу и надеясь получить единичную матрицу. Докладчик демонстрирует, как работает формула, представляя формулу для второй матрицы, и показывает, как та же логика применялась для получения ответа.

  • 00:10:00 формула изменения низкого ранга в матрице A и обратной ей. Формула включает в себя обратную матрицу N на n, но может быть переключена на матрицу K на K, что является меньшим возмущением единичной матрицы. Проверка показывает, что формула верна, и может быть полезна для возмущения матрицы A. Также перечислены имена людей, открывших эту формулу.

  • 00:15:00 В этом разделе спикер обсуждает изменения, которые происходят при взятии обратной матрицы низкого ранга A. Они используют алгебраические манипуляции, чтобы показать, что при взятии обратной матрицы A есть определенные члены, которые могут быть устранено, что привело к упрощению выражения. Выступающий отмечает, что, хотя они могут доказать формулу, проверив, что она дает единичную матрицу, важно в первую очередь рассмотреть, как формула может быть получена. Они предлагают использовать формулу для решения линейной системы с новым измерением или наблюдением методом наименьших квадратов.

  • 00:20:00 В этом разделе спикер объясняет, как работать с новыми измерениями при решении задач наименьших квадратов. Для прямоугольной матрицы A добавление к решению еще одного измерения или точки данных приводит к новой матрице и правой части для решения. Однако вместо повторного вычисления умножения матриц A^TA докладчик описывает, как расширить матрицу с помощью нового измерения, транспонировать ее и использовать для вычисления обновленного решения. Используя то, что уже вычислено, это позволяет более эффективно решать задачи наименьших квадратов.

  • 00:25:00 В этом разделе спикер обсуждает возмущение A и его обратное с новыми данными, что обеспечивает изменение ранга 1 в A, транспонированное A. Эта концепция применима к задачам наименьших квадратов, и фильтр Калмана является примером рекурсивный метод наименьших квадратов, который использует этот подход. Фильтр Калмана используется для наведения ракет и спутников путем отслеживания новых данных и обновления решения, что является важным применением этой концепции на практике.

  • 00:30:00 В этом разделе видео спикер объясняет, как применить формулу Шермана-Моррисона-Вудбери для вычисления изменений низкого ранга в A и его обратной. Они упоминают, что фильтр Калмана, который используется для динамического метода наименьших квадратов, имеет два дополнительных фактора, которые учитываются — ковариационная матрица и уравнение состояния. Ковариационная матрица имеет дело с тем, как коррелируют ошибки, а уравнение состояния сообщает, насколько спутник (в примере) должен двигаться. Фильтр Калмана — это улучшенная версия рекурсивных квадратов, которая работает с изменяющимися измерениями, оставляя большую часть неизменной.

  • 00:35:00 В этом разделе спикер обсуждает использование формулы обновления низкого ранга при решении линейных систем. Формула включает возмущение матрицы решенной задачи рангом один и использование матрицы, обратной исходной, для быстрого решения новой задачи. Этот подход может значительно сократить время, необходимое для решения новой задачи, и особенно полезен для больших матриц, где традиционные методы исключения требуют много времени.

  • 00:40:00 В этом разделе спикер объясняет, как найти обратную матрицу, комбинируя решения разных задач. При факторизации матрицы A в Lu вся тяжелая работа выполняется в левой части, а поиск решений для разных правых частей требует только обратной подстановки. Используя формулу Шермана-Моррисона-Вудбери, ответ X можно получить, комбинируя решения W и Z. Формула заменяет решение W членом, который происходит от Шермана-Моррисона-Вудбери, а член в числителе кратен Z раз Х.

  • 00:45:00 В этом разделе докладчик обсуждает, как изменения низкого ранга в матрице A могут повлиять на ее обратную, и приводит формулу для инвертирования матрицы N на N путем переключения и инвертирования матрицы K на K. Формула включает вычитание копии инверсии и добавление нескольких других частей, что в конечном итоге приводит к изменению ранга K по сравнению с исходной инверсией. Спикер отмечает, что эта формула имеет практическое применение, и призывает зрителей записать ее для дальнейшего использования.

  • 00:50:00 В этом разделе спикер обсуждает обратную матрицу K на K и признает обилие формул, рассмотренных за предыдущий час и 50 минут. Раздел завершается заявлением о том, что примечания охватывают некоторые приложения и перейдут к рассмотрению других аспектов низкого ранга.
14. Low Rank Changes in A and Its Inverse
14. Low Rank Changes in A and Its Inverse
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Лекция 15. Матрицы A(t) в зависимости от t, производная = dA/dt



15. Матрицы A(t) в зависимости от t, производная = dA/dt

В этом видео рассматриваются различные темы, связанные с матрицами, в том числе изменения матриц и их обратных, а также изменения собственных значений и сингулярных значений с течением времени. Докладчик объясняет ключевые формулы для расчета этих изменений и подчеркивает важность понимания исчисления в линейной алгебре. Кроме того, в лекции обсуждается важность нормализации и исследуются теоремы чередования для собственных значений как в симметричных матрицах, так и в матрицах ранга 1. Наконец, видео завершается обзором затронутых тем и обещанием расширить их в будущих лекциях.

  • 00:00:00 В этом разделе спикер обсуждает изменения матриц, собственных и сингулярных значений при изменении матрицы. Основное внимание уделяется пониманию формул изменения обратной матрицы, производной обратной матрицы и изменениям собственных и сингулярных значений при изменении матрицы. Докладчик поясняет, что хотя точной формулы изменения собственных и сингулярных значений может и не быть.
    возможно, они все еще могут вывести неравенства, чтобы понять, насколько большими могут быть изменения. В лекции также рассматривается настройка матрицы A, которая зависит от времени (T) и обратной матрицы A.

  • 00:05:00 В этом разделе спикер обсуждает тождество в исчислении, которое дополняет обсуждение в предыдущем разделе об обратной матрице. Формула утверждает, что производная обратной матрицы равна отрицательной единице, умноженной на обратную матрицу, умноженную на производную матрицы и обратную матрицу. Докладчик объясняет, как найти производную обратной матрицы, назвав ее «изменением в обратной матрице» и разделив обе части формулы на дельта Т. Наконец, спикер применяет исчисление, чтобы довести дельту Т до нуля, что приводит к интуитивно понимание формулы. Спикер также выразил свое мнение об акценте на исчислении в математике колледжа, заявив, что оно затмевает линейную алгебру.

  • 00:10:00 В этом разделе спикер объясняет формулу для производной матрицы A как dA/dt по времени t, когда дельта T стремится к нулю. Соотношение Delta a, деленное на Delta T, имеет смысл, и когда Delta T приближается к нулю, уравнение становится обратным. Производная единицы по X в случае один за другим равна всего 1 по X в квадрате, и это аналогично формулам, когда Delta a является полноразмерной, но имеет низкий ранг. Затем фокус лекции смещается на собственные значения лямбда и на то, как они меняются при изменении матрицы, с двумя возможностями: одно небольшое изменение и один полноразмерный порядок одного изменения. Лекция заканчивается фактами, касающимися собственных значений и собственных векторов.

  • 00:15:00 В этом разделе объясняется понятие собственных векторов и собственных значений для матриц, зависящих от параметра. Матрица A исследуется подробно, с собственным вектором X слева, который имеет то же собственное значение, что и AX. Напротив, собственный вектор Y для симметричной матрицы A используется таким же образом с транспонированием A или AT. Подчеркивается важность нормализации, в частности, транспонирование Y, умноженное на X, равное единице. Затем автор переходит к производной формулы и обсуждает, как исказить уравнение, чтобы оно соответствовало этому новому контексту.

  • 00:20:00 В этом разделе спикер объясняет, как можно использовать производную матрицы для нахождения производной ее собственных значений и собственных векторов при изменении времени. Используя правило произведения, они выводят формулу производной произведения трех членов, зависящих от времени. Переставляя члены и применяя формулу диагонализации, они приходят к простой формуле для производной собственного значения. Спикер отмечает, что хотя это и классическая техника, она не всегда может быть широко известна или преподаваться на курсах.

  • 00:25:00 В этом разделе спикер обсуждает формулу для нахождения производной собственного значения с использованием скорости изменения матрицы и собственных векторов слева и справа. Они упрощают формулу, чтобы показать, что два члена компенсируют друг друга, а оставшийся член является правильным ответом для производной. Они используют тот факт, что производная от единицы равна нулю, чтобы доказать это сокращение. Докладчик также отмечает, что в этой формуле не используется производная собственного вектора, и ее можно использовать и для нахождения производных более высокого уровня.

  • 00:30:00 В этом разделе докладчик обсуждает изменение собственных значений после замены первого ранга на симметричную матрицу. Он отмечает, что изменение является истинным вектором, а не дифференциалом, поэтому точной формулы для новых собственных значений не существует. Однако он разделяет некоторые известные факты, такие как собственные значения в порядке убывания, а изменение первого ранга является положительно полуопределенным. Он также просит аудиторию рассмотреть собственный вектор матрицы транспонирования uu и объясняет, что это полный столбец матрицы n на n, умноженный на строку. В заключение он заявляет, что число, полученное в результате этого вычисления, больше нуля.

  • 00:35:00 В этом разделе спикер обсуждает симметричную матрицу и то, что происходит, когда к ней добавляется матрица первого ранга. Они пришли к выводу, что это приводит к положительным полуопределенным матрицам, а новые собственные значения (лямбды) больше, чем исходные собственные значения (гаммы). Однако разница в размере незначительна, и существует теорема, называемая «чередованием», которая гарантирует, что собственные значения не переходят друг друга. В частности, лямбда 1 больше гаммы 1, но лямбда 2 меньше гаммы 1. Это полезная теорема, которая гарантирует порядок собственных значений при добавлении матрицы положительного ранга один к симметричной матрице.

  • 00:40:00 В этом разделе профессор обсуждает собственные значения матрицы ранга 2, полученные в результате симметричной матрицы и изменения ранга 1. Он объясняет, что ранг матрицы изменений равен 2, что указывает на два ненулевых собственных значения, а ее положительный полуопределенный характер означает, что собственные значения будут увеличиваться при добавлении ее к исходной матрице. Однако он раскрывает теорему, которая утверждает, что собственные значения не могут быть выше исходных собственных значений при добавлении положительной полуопределенной матрицы. Он применяет это к альфа-значениям и сравнивает их с лямбда-выражениями, в конечном итоге делая вывод, что значение альфа-2 не может превышать лямбда-1, а значение альфа-3 остается неизвестным.

  • 00:45:00 В этом разделе лектор объясняет чередование собственных значений на примере симметричной матрицы. Сокращенная версия этой матрицы также имеет собственные значения, и они чередуются с собственными значениями исходной матрицы. Однако лектор высказывает опасения по поводу переплетения собственных значений при изменении ранга. Если новый собственный вектор умножить на большое число, то он потенциально может сдвинуть собственное значение вверх, что, по-видимому, противоречит теореме чередования. Лектор оставляет этот вопрос для ответа на следующей лекции.

  • 00:50:00 В этом разделе лектор обсуждает собственные значения и собственные векторы и почему один конкретный собственный вектор, имеющий собственное значение лямбда 2 плюс 20, не делает недействительными предыдущие утверждения. Лекция завершается обзором затронутых тем и примечанием для продолжения обсуждения на следующем занятии.
15. Matrices A(t) Depending on t, Derivative = dA/dt
15. Matrices A(t) Depending on t, Derivative = dA/dt
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Лекция 16. Производные обратных и сингулярных значений


16. Производные обратных и сингулярных значений

Это видео охватывает множество тем, включая производную от обратных и сингулярных значений матрицы, чересстрочную развертку и ядерную норму матрицы. Докладчик представляет формулу для производной сингулярных значений с использованием SVD, чтобы понять, как матрица изменяется во времени, и установить границы для изменений собственных значений в симметричных матрицах. Неравенство Виала вводится как способ оценки лямбда-значений матрицы, а поиск базиса используется в задачах завершения матрицы. Докладчик также обсуждает идею о том, что ядерная норма матрицы происходит от нормы, которая не совсем является нормой, и вводит понятие Лассо и сжатого восприятия, которые будут обсуждаться в следующей лекции.

  • 00:00:00 В этом разделе инструктор обсуждает различные темы, в том числе нахождение производной обратной матрицы, производной собственного значения и производной единственного числа. Преподаватель делится формулой для производной сингулярного числа, которую он недавно обнаружил, и упоминает, что формула для производной обратной - это не просто производная исходной матрицы. Он также рассказывает о домашнем задании в лаборатории, просит совета по проекту и упоминает предстоящую лекцию профессора Таунсенда по прикладной линейной алгебре. Преподаватель продолжает объяснять, как систематически находить производную квадрата матрицы и почему общепринятая формула неверна.

  • 00:05:00 В этом разделе спикер обсуждает производную сингулярных значений, аналогичную производной собственных значений. Формула для производной сингулярных значений дается транспонированием da/dt, умноженного на сингулярный вектор a. Эта формула основана на SVD, в котором говорится, что a, умноженное на V, равно Sigma U. Используя эти факты и манипулируя уравнением, можно вывести формулу для производной сингулярных значений. Эта формула полезна для понимания того, как матрица меняется со временем, и может применяться в различных областях, таких как физика и инженерия.

  • 00:10:00 В этом разделе спикер обсуждает производные обратных и сингулярных величин. Они начинают с объяснения формулы для сингулярных значений с точки зрения SVD матрицы, а затем берут производную уравнения. Говорящий использует правило произведения и упрощает полученное уравнение, чтобы найти термин, который даст ему ответ, который он ищет. Затем они демонстрируют, что два других члена будут равны нулю, что доказывает, что выбранный ими термин является правильным. Наконец, они используют скалярное произведение и число, чтобы показать, что производная U при транспонировании U равна нулю.

  • 00:15:00 В этом разделе спикер обсуждает производные сингулярных значений и собственные значения симметричной матрицы. Хотя точную формулу для изменения сингулярных или собственных значений вычислить невозможно, можно установить границы, признав, что положительные изменения собственных значений не приведут к их уменьшению. Чередование старых и новых значений иллюстрируется тем фактом, что второе собственное значение не будет превышать первое старое собственное значение, а первое новое собственное значение не будет меньше первого старого собственного значения, что делает эти концепции полезными для понимания SVD.

  • 00:20:00 В этом разделе видео спикер задает головоломный вопрос о влиянии раздувания второго собственного вектора на собственные значения матрицы. Он указывает, что если второе собственное значение увеличить на определенную величину, обозначаемую как тета, оно может в конечном итоге превзойти первое собственное значение, что создает потенциальную проблему. Однако затем он объясняет ход своих мыслей и показывает, что на самом деле это не проблема, потому что первое собственное значение остается неизменным, а второе собственное значение увеличивается, но в конечном итоге сходится к сумме лямбда 1 и тета.

  • 00:25:00 В этом разделе спикер обсуждает чередование и неравенство Виала. Неравенство Виала — это способ оценки лямбда-значений матрицы, которые представляют собой собственные значения, упорядоченные от наибольшего к наименьшему. Неравенство верно для любой симметричной матрицы и утверждает, что наибольшее собственное значение суммы двух симметричных матриц меньше или равно сумме наибольших собственных значений каждой матрицы в отдельности. Это свойство переплетения имеет место не только для возмущений первого ранга, но и для возмущений других рангов. Докладчик использует пример добавления положительной матрицы T к S и объясняет, как это связано с неравенством Виала.

  • 00:30:00 В этом разделе спикер обсуждает неравенство Вайла и то, как оно связано с чередованием. Неравенство Вайла дает ограничение на то, насколько может увеличиться собственное значение, и этот факт имеет решающее значение для понимания явления чередования. Докладчик упоминает, что существует два способа доказательства переплетения, в том числе неравенство Вайла и еще один метод с использованием графа. В этом разделе также представлено сжатое зондирование, которое будет обсуждаться в следующей части видео.

  • 00:35:00 В этом разделе вводится понятие ядерной нормы матрицы, представляющей собой сумму сингулярных значений матрицы. Это можно рассматривать как норму L1 для вектора. У него есть особое свойство, подобное норме L1, где минимизация ядерной нормы с ограничением приводит к разреженному решению. Это свойство полезно в задачах завершения матрицы, когда необходимо заполнить недостающие данные в матрице. Числа, которые минимизируют ядерную норму, являются хорошим выбором для заполнения недостающих данных. Нулевая норма вектора, представляющая количество ненулей, не является нормой, но ее можно переместить к ближайшей норме, которая является нормой L1. Эта норма представляет собой сумму модулей компонентов вектора. Минимизация этой нормы при соблюдении некоторых условий называется поиском базиса и используется в задачах пополнения матриц.

  • 00:40:00 В этом разделе спикер обсуждает идею о том, что ядерная норма матрицы происходит от нормы, которая не совсем является нормой. Он объясняет, что ранг матрицы эквивалентен этой норме, но не может быть нормой, потому что он не масштабируется, если размер матрицы удваивается. Далее докладчик описывает гипотезу о том, что алгоритм глубокого обучения градиентного спуска находит решение проблемы минимума в ядерной норме, и вводит концепцию Лассо и сжатого восприятия, которые будут обсуждаться в следующей лекции.
16. Derivatives of Inverse and Singular Values
16. Derivatives of Inverse and Singular Values
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Лекция 17: Быстро убывающие сингулярные значения



Лекция 17: Быстро убывающие сингулярные значения

Лекция посвящена матрицам и их рангам, а также тому, как быстро уменьшающиеся сингулярные числа преобладают в вычислительной математике. Лектор исследует матрицы низкого ранга и демонстрирует, как в их последовательности сингулярных значений много нулей, что делает более эффективной отправку матрицы другу в форме низкого ранга, чем в форме полного ранга. Они также вводят числовой ранг матрицы, который определяется предоставлением некоторого пространства для маневра для определения допуска сингулярных значений матрицы. Путем выборки гладких функций, которые могут быть хорошо аппроксимированы полиномами, числовой ранг может быть низким, что приводит к низкоранговой аппроксимации матрицы X. В лекцию также включены примеры матриц Гаусса и Вандермонда, чтобы объяснить, как они могут привести к матриц низкого ранга и обсуждает полезность чисел Золотарёва в ограничивающих сингулярных значениях.

  • 00:00:00 В этом разделе профессор объясняет, почему матрицы низкого ранга так распространены в мире вычислительной математики. Он обсуждает важность сингулярных значений, которые говорят нам о ранге матрицы и о том, насколько хорошо она может быть аппроксимирована матрицей низкого ранга. Далее он объясняет, что матрицу X можно разложить в сумму K матриц первого ранга, если она имеет K ненулевых сингулярных значений. Кроме того, пространство столбцов и строк X имеет размерность K. Последовательность сингулярных значений уникальна для матрицы, и основное внимание уделяется выявлению свойств X, благодаря которым матрицы низкого ранга появляются в различных математических задачах.

  • 00:05:00 В этом разделе лектор обсуждает матрицы низкого ранга и то, почему в их последовательности сингулярных значений много нулей. Матрица низкого ранга — это матрица, в которой эффективнее отправить матрицу другу в форме низкого ранга, чем в форме полного ранга. В лекции используются различные флаги, чтобы продемонстрировать концепцию матриц низкого ранга, при этом чрезвычайно низкие ранги тесно связаны с координатами строк и столбцов. По мере увеличения ранга выравнивание становится размытым, и становится труднее увидеть, имеет ли матрица низкий ранг. Матрицы высокого ранга неэффективны для отправки в форме низкого ранга.

  • 00:10:00 В этом разделе лектор исследует матрицу треугольных флагов, чтобы понять, почему диагональные шаблоны не подходят для сжатия низкого ранга. Матрица всех единиц имеет свойство, аналогичное любимой матрице Гила, когда берется ее обратная. Исследуя сингулярные значения этой матрицы, лектор показывает, что треугольные паттерны не поддаются низкоранговому сжатию. Однако круглая форма и рисунок японского флага удобны для сжатия низкого ранга.

  • 00:15:00 В этом разделе лектор обсуждает ранг круга, в частности флаг Японии. Разложив флаг на круг, ранг - одну часть в середине и квадрат, ранг можно определить, сложив ранги каждой части. Лектор показывает, что ранг-один кусок ограничен единицей, а затем с помощью симметрии определяет ранг квадратного куска, который зависит от радиуса круга. Выполнив некоторые вычисления с помощью тригонометрии, лектор приходит к выводу, что ранг равен примерно 1/2, что делает эффективным представление японского флага в форме низкого ранга. Однако большинство матриц в вычислительной математике имеют не конечный ранг, а числовой ранг, который аналогичен рангу, но допускает некоторое приближение.

  • 00:20:00 В этом разделе мы узнаем о числовом ранге матрицы, который определяется путем предоставления некоторого пространства для маневра для определения допуска сингулярных значений матрицы. Числовой ранг равен K, если K является первым сингулярным значением выше эпсилон, которое обозначает допуск, и ранг такой же, как у последнего сингулярного значения выше эпсилона, и является первым сингулярным значением ниже эпсилон. Матрицы численно низкого ранга — это не только матрицы низкого ранга, но и матрицы полного ранга с быстро убывающими сингулярными значениями. Это позволяет нам сжимать матрицы, используя аппроксимацию низкого ранга, обеспечивая при этом разумный уровень допуска на практике. Матрица Гильберта является примером матрицы полного ранга с низким числовым рангом.

  • 00:25:00 В этом разделе лектор обсуждает, как матрицы могут быть низкого числового ранга, но не обязательно низкого ранга вообще. В качестве классического примера используется матрица Вандермонда. Эта матрица возникает при полиномиальной интерполяции в реальных точках и часто имеет численно низкий ранг, что затрудняет обращение. Однако численный низкий ранг не всегда желателен, особенно при попытке найти обратное. Лектор объясняет, что причина, по которой существует так много матриц низкого ранга, заключается в том, что мир гладкий, а это означает, что матрицы имеют численно низкий ранг. Приведен пример, когда выбирается многочлен от двух переменных, и показано, что результирующая матрица имеет низкий математический ранг с эпсилон, равным нулю.

  • 00:30:00 В этом разделе докладчик обсуждает, как получить приближение низкого ранга для матрицы X путем выборки функции и аппроксимации этой функции полиномом. Если многочлен от двух переменных можно записать со степенью M как по x, так и по y, а затем произвести выборку, результирующий x будет иметь низкий ранг с эпсилон, равным нулю, с рангом не более M в квадрате. Путем выборки гладких функций, которые могут быть хорошо аппроксимированы полиномами, числовой ранг может быть низким, что приводит к низкоранговой аппроксимации матрицы X. Однако аргументы, лежащие в основе этого метода, плохо работают для матрицы Гильберта, которая является полным рангом.

  • 00:35:00 В этом разделе лектор обсуждает, как найти подходящую причину для ограничения ранга матрицы. Многие люди пытались придумать многочлен, который может точно предсказать ранг матрицы, но методы оказались неудовлетворительными. Лектор вводит понятие матриц Сильвестра, которые представляют собой матрицы, удовлетворяющие определенному уравнению, называемому уравнением Сильвестра. Найдя A, B и C, которые удовлетворяют уравнению, можно показать, что матрица имеет численный низкий ранг. Лектор приводит пример с использованием матрицы Гильберта и конкретного способа умножения на половину слева и справа, чтобы удовлетворить уравнению Сильвестра.

  • 00:40:00 В этом разделе лекции были приведены примеры матриц Гаусса и Вандермонда, чтобы объяснить, как перестановки и умножения могут привести к матрицам низкого ранга. В лекции объясняется, что если X удовлетворяет семестровому уравнению, то можно найти оценку сингулярных значений любой матрицы, которая удовлетворяет выражению, аналогичному выражению для матриц Гаусса и Вандермонда, называемому нормой Фробениуса. Фуллер и граница используются для демонстрации этого числового низкого ранга в матрицах, с примерами, приведенными для демонстрации связи между выполнением определенных уравнений и появлением этих матриц низкого ранга на практике.

  • 00:45:00 В этом разделе лектор обсуждает, чем полезна абстрактная задача об ограничении сингулярных значений числами Золотарёва, поскольку многие люди ранее изучали эти числа. Ключевая причина, по которой это полезно, заключается в том, что множества E и F разделены, и это то, что делает число Золотарева очень быстро уменьшающимся с k. Лектор использует матрицу Гильберта в качестве примера, чтобы показать, как число Золотарёва может давать ограничение на числовой ранг, показывая, почему в вычислительной математике так много матриц низкого ранга. Лектор также упоминает неофициальное проклятие, окружавшее двух ключевых людей, работавших над проблемой Золотарёва; оба умерли в возрасте 31 года.
Lecture 17: Rapidly Decreasing Singular Values
Lecture 17: Rapidly Decreasing Singular Values
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Alex TownsendView the complete course: https://oc...
 

Лекция 18: Подсчет параметров в SVD, LU, QR, седловых точках



Лекция 18: Подсчет параметров в SVD, LU, QR, седловых точках

В этой лекции докладчик рассматривает различные матричные факторизации, такие как L&U, Q&R и матрицы собственных векторов, и подсчитывает количество свободных параметров в каждой из этих матриц. Они также обсуждают вычисление Qs по сравнению с SVD и подсчитывают количество параметров в SVD для матрицы ранга R. Лектор также объясняет концепцию седловых точек в матрицах и способы их нахождения с использованием методов оптимизации и множителей Лагранжа. Наконец, лектор обсуждает знак собственных значений симметричной матрицы и то, как частное Рэлея может помочь определить максимальное значение и соответствующий собственный вектор матрицы.

  • 00:00:00 В этом разделе докладчик рассматривает большие факторизации матрицы, такие как L&U, Q&R и матрицы собственных векторов, и подсчитывает количество свободных параметров в каждой из этих матриц. Докладчик отмечает, что количество свободных параметров в L&U или Q&R должно совпадать с количеством параметров в исходной матрице, а сумма свободных параметров матриц собственных значений и собственных векторов равна N в квадрате. Докладчик отмечает, что это упражнение нечасто встречается в учебниках, но является важным обзором для понимания линейной алгебры.

  • 00:05:00 В этом разделе спикер обсуждает количество свободных параметров в различных матричных факторизациях, включая SVD, LU, QR и полярное разложение. Докладчик отмечает, что количество свободных параметров в ортогональной матрице Q размером N на n составляет N-1 для первого столбца и N-2 для последующих столбцов из-за условий нормализации и ортогональности. Они также обсуждают количество свободных параметров в симметричной матрице S, которое равно 1/2 N, умноженному на N минус 1, плюс количество диагональных элементов. Затем они продолжают показывать, как эти подсчеты складываются для различных факторизаций, включая L, умноженное на U, Q, умноженное на R, и Q, умноженное на S. Наконец, они упоминают полярное разложение как еще одну факторизацию, которая приводит к ортогональной, умноженной на симметричную матрицу.

  • 00:10:00 В этом разделе лектор обсуждает вычисление Qs по сравнению с SVD, а затем подсчитывает параметры в SVD. Самый большой ранг, который может иметь прямоугольная матрица, равен M, что приведет к размеру матрицы M на N для SVD. Лектор ожидает, что в сумме получится исходная матрица, имеющая MN-параметры. Количество для S равно M, а количество для V равно N. Количество для U равно 1/2 (M ^ 2 + M), если это ортогональная матрица M на M.

  • 00:15:00 В этом разделе спикер объясняет, как подсчитать важные параметры в разложении матрицы по сингулярным числам (SVD) для матрицы ранга R. M столбцов V, которые соответствуют ненулевым сингулярным значениям, являются единственными важными частями матрицы. Для подсчета количества параметров спикер использует формулу, учитывающую разное количество необходимых параметров в каждом ортогональном столбце V, вплоть до M-го столбца. Формула включает добавление 1 к NM для каждого столбца и вычитание этого числа из половины M в квадрате плюс M плюс 1. Результатом формулы является окончательный подсчет параметров в SVD матрицы ранга-R.

  • 00:20:00 В этом разделе спикер обсуждает матрицы ранга R и количество параметров, которые они имеют. Матрицы ранга R не являются подпространствами, потому что разные матрицы могут иметь одинаковый ранг, что делает его более похожим на поверхность с разными частями. Докладчик считает, что матрица ранга R имеет R параметров. Затем они продолжают находить количество параметров в матрице ранга R. Количество параметров равно R для Sigma, (R + 1)/2 для V и (M - 1) + (M - 2) + ... + (M - R) для U.

  • 00:25:00 В этом разделе лекции преподаватель обсуждает понятие седловых точек в матрицах, которые отличаются от максимумов и минимумов. Седловые точки возникают при оптимизации квадратичной функции стоимости с учетом линейных ограничений с использованием множителей Лагранжа. Преподаватель знакомит с лямбдой и показывает, как она используется в лагранжиане для формирования функции, зависящей как от X, так и от лямбда. Затем эту функцию можно оптимизировать, чтобы найти любые седловые точки, которые могут возникнуть. Преподаватель также упоминает еще один источник седловых точек, которые возникают в матрицах, которые не являются ни положительно определенными, ни отрицательно определенными.

  • 00:30:00 В этом разделе спикер обсуждает, как найти седловые точки функции и показывает, как они возникают в важном классе задач, представленных блочной матрицей. Функция имеет седловые точки, а не максимум. Вклад Лагрона в эту проблему заключается в том, что он берет производные по X и лямбда, получая n и m уравнений соответственно. В конечном итоге матрица, представленная блочной матрицей, указывает на то, что она не является положительно определенной, и эту информацию можно использовать для определения седловых точек.

  • 00:35:00 В этом разделе лектор обсуждает, как определитель матрицы может помочь определить знаки ее собственных значений. На простом примере он показывает, что если определитель отрицательный, то должны быть собственные значения обоих знаков. Затем он связывает это с матрицами KKT, используемыми в оптимизации, и утверждает, что они, как правило, неопределенны, но с ними связан положительно определенный блок. Он демонстрирует, что при использовании исключения блоков на этом положительно определенном блоке все n опорных точек будут положительными, что приводит к выводу, что матрицы ККТ имеют как положительные, так и отрицательные собственные значения.

  • 00:40:00 В этом разделе лектор обсуждает седловые точки и их связь с ограничениями. Он объясняет, как определить знак собственных значений симметричной матрицы на основе знаков ее опорных точек. Лектор также определяет частное Рэлея и рассказывает, как он может помочь нам определить максимальное значение и соответствующий собственный вектор симметричной матрицы. Лекция заканчивается объяснением того, как любое значение, которое мы подставляем в частное Рэлея, будет меньше максимального значения.

  • 00:45:00 В этом разделе спикер обсуждает концепцию седловых точек в факторе Рэлея. Между минимумом и максимумом трудно обрабатывать промежуточные лямбды. Однако в максимуме и минимуме частные значения легко измерить. Если любой вектор выбран в любом измерении, мы можем вычислить R of X, который находится между максимумом и минимумом. Спикер говорит, что разговор о деталях седловых точек будет сохранен для следующей лекции, но перед этим будет дана третья лабораторная работа, которая учит о переобучении, глубоком обучении, и должна состояться после перерыва.
Lecture 18: Counting Parameters in SVD, LU, QR, Saddle Points
Lecture 18: Counting Parameters in SVD, LU, QR, Saddle Points
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Лекция 19. Продолжение седловых точек, принцип Максмина



19. Продолжение седловых точек, принцип Максмина

В этом видео спикер продолжает обсуждение седловых точек и того, как найти минимальное и максимальное значения, используя коэффициент Рэлея в двумерном пространстве. Объясняется теорема чередования, которая включает в себя запись седловых точек как максимума минимума для быстрого нахождения максимумов и минимумов. Докладчик также предостерегает от переобучения при подборе данных полиномом высокой степени и обсуждает две открытые лабораторные работы для класса, включающие седловые точки и простую нейронную сеть. Объясняются концепции среднего значения и дисперсии в статистике, а также выборочной дисперсии и ковариации, при этом выступающий отмечает, что ковариационная матрица для полностью зависимых результатов не будет обратимой, а для сценариев опроса с несколькими людьми, проживающими в одном доме, ожидается некоторая ковариация, но не совсем самостоятельный.

  • 00:00:00 В этом разделе спикер обсуждает важность понимания седловых точек в отношении поиска минимума функции полной стоимости в глубоком обучении. Они предоставляют пример отношения Рэлея и простой матрицы S, чтобы проиллюстрировать основные факты о седловых точках, максимальном и минимальном значениях функции и наличии седловой точки. Спикер также упоминает о планах обсудить третью лабораторию, проекты и базовую статистику, в частности ковариационную матрицу.

  • 00:05:00 В этом разделе спикер обсуждает седловые точки и как найти минимальное и максимальное значения, загрузив все в одну переменную и вычислив производные, чтобы найти, где они равны нулю. Они демонстрируют, как найти минимальное значение, и показывают, что собственные векторы и собственные значения матрицы помогают найти положение и значение седловой точки. Спикер также рассказывает о том, как вычислить вторые производные и симметричную матрицу. Они подчеркивают важность вычисления значений седловой точки и предлагают работать с кодами и помнить о процессе.

  • 00:10:00 В этом разделе спикер обсуждает идею седловых точек и то, как записать их как максимум минимума, чтобы быстро вернуться к максимумам и минимумам. Он объясняет, что это приводит к теореме о чередовании, и приводит пример взятия минимума по двумерному подпространству для нахождения минимума частного Рэлея. Взяв максимум этого минимума по всем подпространствам, он может получить лямбда, значение седловой точки.

  • 00:15:00 В этом разделе спикер объясняет, как найти максимальное и минимальное значения в двумерном пространстве с помощью отношения Рэлея. Он демонстрирует, что максимальное значение равно трем, взяв максимальное значение по всем возможным двумерным пространствам и показав, что этот конкретный выбор V дал ответ три. Затем докладчик объясняет, как минимальное значение будет ниже трех для любого другого подпространства, а это означает, что максимальное значение для минимумов также равно трем. Также обсуждается концепция седловых точек, при этом выступающий отмечает, что эти точки часто встречаются в самых высоких точках определенных регионов, и они могут быть максимумами минимумов или минимумами максимумов. Видео завершается обсуждением проектов и приглашением зрителей задать вопросы о них.

  • 00:20:00 В этом разделе спикер объясняет модель переобучения, в которой полином степени 5 используется для подбора 6 точек. Спикер отмечает, что полином 5-й степени точно соответствовал бы точкам данных, но это также была бы ошибочная модель, поскольку она не была бы гладкой или красивой. Этот пример служит предостережением от переобучения, которое происходит, когда модель слишком сложна и слишком точно соответствует обучающим данным.

  • 00:25:00 В этом разделе спикер обсуждает проблему подгонки данных полиномом высокой степени. В то время как подбор прямой линии может привести к недостаточному подбору, подбор полинома высокой степени может привести к переобучению, поскольку он создает идеальное соответствие для всех заданных точек данных без учета шума в данных. Идея идеальной подгонки связана с матрицей Вандермонда, которая имеет большую обратную из-за гигантского вектора коэффициентов, возникающего в результате идеальной подгонки. Матрица имеет широкий диапазон сингулярных значений, причем крошечные значения встречаются рядом со значениями обычного размера. Таким образом, может быть сложно найти правильную степень полинома, чтобы соответствовать данным, чтобы найти баланс между недообучением и переоснащением.

  • 00:30:00 В этом разделе спикер описывает два примера открытых лабораторных работ для своего класса, один с седловыми точками, а другой с простой нейронной сетью. Для примера с седловой точкой спикер предлагает представить графики и таблицы данных для оценки и сделать выводы о безопасности и риске увеличения K. Что касается примера с нейронной сетью, спикер описывает основную проблему классификации и предлагает учащимся изменить модель, как они считают нужным, все еще используя линейную алгебру. Докладчик также упомянул о предстоящем собрании преподавателей, посвященном планам Массачусетского технологического института в отношении курсов по вычислительному мышлению, одним из примеров которых является этот курс. Наконец, спикер предлагает студентам отправить ему по электронной почте примерные идеи проекта и групповые предпочтения.

  • 00:35:00 В этом разделе профессор обсуждает идею проекта для класса и уточняет его объем. Он упоминает, что проект не будет слишком большим, может быть эквивалентен трем домашним заданиям, но и не тривиальным. Он просит студентов задать вопросы и внести свой вклад в проект, предлагая возможность включения таких тем, как сверточные нейронные сети. Профессор также упоминает, что некоторые студенты инициировали встречу в Медиа-лаборатории, и она прошла успешно. Он спрашивает, будут ли люди заинтересованы в подобных встречах снова после весенних каникул.

  • 00:40:00 В этом разделе докладчик знакомит с понятиями среднего значения и дисперсии в статистике, как они соотносятся с фактическим и ожидаемым результатом, а также с разницей между средним значением выборки и ожидаемым средним значением. Среднее значение выборки рассчитывается на основе фактических результатов эксперимента, а ожидаемое среднее значение рассчитывается на основе вероятностей этих результатов. Также обсуждается дисперсия, при этом различаются выборочная дисперсия и ожидаемая дисперсия. Докладчик объясняет, что ожидаемые значения среднего и дисперсии будут приближаться к фактическим значениям по мере увеличения количества выборок или возможностей.

  • 00:45:00 В этом разделе обсуждается концепция выборочной дисперсии, которая измеряет средний квадрат расстояния от среднего значения набора из n выборок. В статистике деление n минус один означает, что это расстояние рассчитывается от выборочного среднего, а не от нуля, и когда n велико, разница между n и n минус один несущественна. Ковариация, с другой стороны, является более глубокой идеей, которая включает в себя манипуляции с матрицами при выполнении нескольких экспериментов и вычислении совместной вероятности двух отдельных событий.

  • 00:50:00 В этом разделе спикер обсуждает две крайности ковариационного выхода: независимые выходы и полностью зависимые выходы. В то время как независимые выходы имеют ковариацию 0, полностью зависимые выходы имеют максимальную ковариацию, где один выход полностью определяется другим. Спикер использует пример подбрасывания склеенных вместе монет, чтобы объяснить эту концепцию. Ковариационная матрица для зависимых выходов не будет обратимой и симметричной положительно определенной или полуопределенной для случая склеивания. Докладчик упоминает, что в сценариях опроса, когда несколько человек живут в одном доме, ожидается некоторая ковариация, но она не будет полностью независимой.
19. Saddle Points Continued, Maxmin Principle
19. Saddle Points Continued, Maxmin Principle
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

Лекция 20. Определения и неравенства



20. Определения и неравенства

В этом разделе видео спикер обсуждает различные концепции теории вероятностей, включая матрицы ожидаемого значения, дисперсии и ковариации. Неравенство Маркова и неравенство Чебышева также были введены в качестве основных инструментов для оценки вероятностей. Затем оратор переходит к объяснению связи между неравенством Маркова и неравенством Чебычева, показывая, как они приводят к одному и тому же результату. Также были введены понятие ковариации и ковариационной матрицы, фундаментальный инструмент теории вероятностей. Видео также исследует идею совместных вероятностей и тензоров, объясняя, как склеивание монет добавляет зависимость и изменяет вероятности. Наконец, спикер обсуждает свойства ковариационной матрицы, подчеркивая, что она всегда является положительно-полуопределенной и представляет собой комбинацию положительно-полуопределенных матриц ранга 1.

  • 00:00:00 В этом разделе лектор обсуждает математическое ожидание, дисперсию и ковариационную матрицу. Ожидаемое значение, обозначенное буквой «е», определяется как средневзвешенное значение всех возможных результатов на основе их вероятностей. Дисперсия, с другой стороны, представляет собой ожидаемое значение квадрата расстояния между средним значением и каждой точкой данных. Ковариационная матрица также может быть выражена аналогичным образом. Затем лектор исследует второе выражение для дисперсии, выписывая квадраты и комбинируя их по-разному, что приводит к более эффективному способу вычисления дисперсии.

  • 00:05:00 В этом разделе спикер обсуждает алгебраический процесс упрощения уравнения для нахождения ожидаемого значения x в квадрате. Он показывает, что ожидаемое значение x в квадрате минус ожидаемое значение x минус M в квадрате эквивалентно сумме вероятностей x в квадрате. Затем спикер вводит неравенство Маркова, которое представляет собой статистическое неравенство, включающее вероятности и ожидания. Он отмечает, что Марков был великим русским математиком и что позже в книге они увидят цепи и процессы Маркова.

  • 00:10:00 В этом разделе спикер объясняет неравенство Маркова, которое может помочь оценить вероятность того, что X больше или равно определенному числу. Неравенство утверждает, что вероятность того, что X больше или равно a, меньше или равна среднему значению X, деленному на a. Выступающий приводит пример, используя среднее значение одного и значение a, равное трем, показывающее, что вероятность того, что X больше или равно трем, меньше или равна 1/3. Однако спикер отмечает, что это неравенство применяется только к неотрицательным событиям и не может использоваться с событиями, выходы которых находятся в диапазоне от отрицательной до положительной бесконечности.

  • 00:15:00 В этом разделе видео спикер рассказывает об использовании особого случая, чтобы продемонстрировать вероятность того, что она больше или равна 3. Они используют определение среднего, чтобы написать конкретное уравнение, а затем сделать предположения о значениях от X1 до X5, чтобы удовлетворить неравенство Маркова. Они утверждают тот факт, что вероятности составляют в сумме 1 и все больше или равны 0. Затем говорящий продолжает манипулировать уравнением, чтобы показать, что вероятность быть больше или равной 3 меньше или равна 1/ 3, вычитая определенные значения из уравнения. В заключение они показывают, что уравнение удовлетворяет неравенству Маркова.

  • 00:20:00 В этом разделе спикер обсуждает неравенства Маркова и Чебышева в вероятности. Неравенство Маркова включает в себя оценку вероятности того, что переменная больше или равна определенному значению, и оно применяется только тогда, когда все переменные больше или равны нулю. Неравенство Чебышева, с другой стороны, имеет дело с вероятностью того, что переменная находится на определенном расстоянии от среднего значения, и не делает никаких предположений о входных данных. Эти два неравенства являются фундаментальными инструментами для оценки вероятностей в теории вероятностей.

  • 00:25:00 В этом разделе спикер объясняет связь между неравенством Маркова и неравенством Чебычева. Он вводит новую переменную Y, которая равна X минус M в квадрате, и объясняет, как вычислить ее среднее значение. Затем оратор применяет неравенство Маркова к Y и неравенство Чебычева к X, демонстрируя, как они приводят к одному и тому же результату. Наконец, он вводит понятие ковариации и ковариационных матриц.

  • 00:30:00 В этом разделе спикер вводит понятие ковариации и ковариационной матрицы, которая представляет собой матрицу M на M, где M — количество экспериментов, проводимых одновременно. Чтобы проиллюстрировать эту концепцию, спикер использует пример подбрасывания двух монет с одним выходом (X) для каждой монеты. Если две монеты подбрасываются независимо друг от друга, то между выходами нет корреляции, но если они склеены вместе, то выходы коррелируются, и совместные вероятности помещаются в матрицу 2x2.

  • 00:35:00 В этом разделе спикер обсуждает концепцию совместных вероятностей и матриц для экспериментальных установок с участием независимых монет. Они исследуют идею трехсторонней структуры или тензора в случаях, когда есть три эксперимента с независимыми честными монетами или когда монеты склеены. Результирующие записи в тензоре будут совместными вероятностями, которые можно использовать для вычисления вероятности различных результатов. Докладчик отмечает, что в то время как в простом случае несклеенного эксперимента количество входов составляет одну восьмую, склеивание монет вместе добавляет зависимости и изменяет вероятности.

  • 00:40:00 В этом разделе видео спикер обсуждает совместную вероятность подбрасывания трех монет и то, как ее можно представить в трехсторонней матрице. Он упоминает концепцию тензоров и ковариационных матриц, определяя последнюю как дисперсию совместного результата двух экспериментов, X и Y, выраженную как сумму всех возможных результатов. Спикер также объясняет символ P IJ и то, как он связан со склеиванием и расклеиванием монет в разных конфигурациях.

  • 00:45:00 В этом разделе видео спикер обсуждает совместную вероятность двух событий - X и Y - и как вычислить эту вероятность для разных пар значений. Докладчик приводит примеры использования совместной вероятности, включая расчет вероятности определенного возраста и роста. Выступающий также определяет предельные вероятности, которые являются отдельными вероятностями каждого события, и объясняет, как складывать вероятности по строкам или столбцам в матрице. Затем спикер переходит к определению ковариационной матрицы и объясняет, как вычислить ее элементы.

  • 00:50:00 В этом разделе спикер рассказывает о ковариационной матрице и ее свойствах. Он объясняет, что дисперсия эксперимента X получается путем сложения всех P IJ, в то время как дисперсия эксперимента Y определяется значением квадрата сигмы Y. Ковариация между X и Y представляет собой сумму P IJ, умноженную на расстояние X от его среднего значения и расстояние Y от его среднего значения. В случае независимых монет ковариация будет равна нулю, тогда как в случае склеенных монет она будет такой же, как сигма X в квадрате Сигма Y в квадрате. Определитель матрицы равен нулю в случае склеенных монет, что показывает, что квадрат ковариации такой же, как сигма X в квадрате Сигма Y в квадрате. Ковариационная матрица всегда является положительно полуопределенной и представляет собой комбинацию положительной полуопределенной ранга 1, поэтому она является положительно полуопределенной или положительно определенной.
 

Лекция 21: Минимизация функции шаг за шагом



Лекция 21: Минимизация функции шаг за шагом

В этой видеолекции обсуждаются основные алгоритмы, используемые для минимизации функции, и скорости их сходимости, в частности метод Ньютона и метод наискорейшего спуска. Он также подчеркивает важность выпуклости, которая гарантирует, что функция имеет один минимум, и вводит понятие выпуклых множеств и выпуклых функций. Лектор объясняет, как проверить функцию на выпуклость, которая определяет наличие у нее седловых точек или локальных минимумов, а не глобального минимума. Видео заканчивается обсуждением Левенберга Марквардта, более дешевой версии метода Ньютона, которая не является полностью вторым порядком.

  • 00:00:00 В этом разделе лектор обсуждает основы оптимизации, которая является фундаментальным алгоритмом, используемым в глубоком обучении. Лекция начинается с объяснения ряда Тейлора и переходит к тому, чтобы показать, как расширить ряд Тейлора, когда функция состоит из более чем одной переменной. Затем лектор вводит градиент F, который является частными производными F по каждой переменной X. Наконец, объясняется квадратичный член, и лекция заканчивается обсуждением вторых производных и того, как они меняются при увеличении количества переменных.

  • 00:05:00 В этом разделе лекции вводится понятие матрицы Гессе, которая представляет собой матрицу вторых производных функции. Матрица Гессе симметрична, и ее вычисление возможно для значений n от малых до умеренно больших. Существует параллельная картина для векторной функции, которая представляет собой матрицу Якоби, элементы которой являются производными функции по различным переменным. Это факты многомерного исчисления, которые используются для решения уравнений в задачах оптимизации.

  • 00:10:00 В этом разделе лектор обсуждает метод Ньютона для решения систем уравнений с n неизвестными, который заключается в минимизации заданной функции. Метод Ньютона — лучший способ решить n уравнений с n неизвестными, что можно выразить как F равно 0, где F единицы равно нулю, а всего имеется n уравнений. Лектор показывает, как использовать метод Ньютона для решения уравнения x в квадрате минус 9 равно 0, которое может быть записано в виде функции, и демонстрирует, как применять метод шаг за шагом.

  • 00:15:00 В этом разделе лектор обсуждает, как метод Ньютона используется для минимизации функции и как определить, насколько быстро она сходится. Они начинают с упрощения формулы, определяющей X sub K + 1, и показывают, что если X sub K равно точно 3, то X sub K + 1 также будет равно 3. Затем они сосредотачиваются на том, как быстро ошибка приближается к нулю, и вычитают 3 из обоих значений. стороны, чтобы вынести 1 за X sub K. Упрощение уравнения показывает, что ошибка на шаге K + 1 возводится в квадрат на каждом шаге, что доказывает, почему метод Ньютона фантастичен, если выполняется достаточно близко.

  • 00:20:00 В этом разделе лектор обсуждает использование метода Ньютона для оптимизации и его применение к очень сложным функциям потерь с тысячами или даже сотнями тысяч переменных. Лекция охватывает два метода — наискорейший спуск и метод Ньютона — в которых наикрутейший спуск включает движение в направлении градиента F, но с свободой выбора размера шага. С другой стороны, метод Ньютона учитывает вторую производную от F и обеспечивает более быструю сходимость, но также может сходиться к нежелательным решениям или разрушаться для определенных начальных точек. Это приводит к понятию областей притяжения, где одни исходные точки ведут к желаемому решению, а другие — к нежелательным или бесконечности.

  • 00:25:00 В этом разделе лектор поэтапно обсуждает два метода минимизации функции: наискорейший спуск и метод Ньютона. Оба включают итеративный выбор направления в n-мерном пространстве и перемещение на определенное расстояние в этом направлении, но наискорейший спуск использует градиент функции для выбора направления, в то время как метод Ньютона использует гессиан или вторую производную. В лекции также объясняется концепция точного поиска строки и важность выбора подходящей скорости обучения в этих методах.

  • 00:30:00 В этом разделе лектор обсуждает основные алгоритмы, используемые для минимизации функции, и скорость их сходимости. Лектор объясняет, что метод Ньютона имеет квадратичную скорость сходимости, что делает его очень быстрым, если начать достаточно близко. Напротив, алгоритм наискорейшего спуска имеет линейную скорость сходимости, что делает его менее эффективным. Лектор подчеркивает, что отправной точкой для решения этих задач должна быть выпуклость, обеспечивающая наличие у функции одного минимума. Лектор определяет выпуклые множества и функции и объясняет их значение при минимизации функции для точек выпуклого множества. Лекция завершается обсуждением Левенберга-Марквардта, более дешевой версии метода Ньютона, которая не является полностью методом второго порядка.

  • 00:35:00 В этом разделе видео спикер обсуждает, как свернуть функцию. Ограничения для функции определяются выпуклым набором, что означает, что любая линия, проведенная между двумя точками в наборе, должна оставаться в наборе. Докладчик приводит пример двух перекрывающихся треугольников, которые при объединении не образуют выпуклого множества.

  • 00:40:00 В этом разделе вводится понятие выпуклых множеств и выпуклых функций. Замечено, что пересечение двух выпуклых множеств всегда выпукло, а пустое множество считается выпуклым множеством. Примечания к видео подчеркивают важность понимания этих концепций при минимизации функций, поскольку задача прототипа включает поиск функций с выпуклым изображением. Видео также связывает определение выпуклой функции с определением выпуклого множества, отмечая, что график выпуклой функции напоминает чашу, а точки на этой поверхности не являются выпуклыми множествами. Однако множество точек на графике является выпуклым множеством.

  • 00:45:00 В этом разделе лекции спикер обсуждает тест на выпуклую функцию. Он объясняет, что две выпуклые функции можно использовать для создания минимальной и максимальной функции, и одна из них будет выпуклой, а другая — нет. Минимальная функция будет иметь излом и, следовательно, не будет выпуклой, а максимальная будет выпуклой. Докладчик также упоминает, что этот тест может быть расширен максимум до 1500 функций, и если все 1500 функций выпуклы, то их максимум также будет выпуклым.

  • 00:50:00 В этом разделе спикер объясняет, как проверить выпуклость в функции. Для функции только с одной переменной в исчислении выпуклая функция может быть доказана, проверив, является ли вторая производная положительной или равной нулю. При работе с векторной функцией с несколькими переменными к функции добавляется симметричная матрица F. Критерий выпуклости здесь будет положительно полуопределенным для гессиана, поскольку вторые производные приводят к матрице. Выпуклые задачи не имеют седловых точек или локальных минимумов, а имеют только глобальный минимум, что делает их желательными.
Lecture 21: Minimizing a Function Step by Step
Lecture 21: Minimizing a Function Step by Step
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
Причина обращения: