머신 러닝 및 신경망 - 페이지 28

 

강의 24. 선형계획법과 2인 게임



24. 선형 계획법과 2인 게임

이 YouTube 비디오는 선형 프로그래밍 및 2인 게임에 대한 주제를 다룹니다. 선형 프로그래밍은 일련의 선형 제약 조건에 따라 선형 비용 함수를 최적화하는 프로세스이며 경제 및 공학과 같은 분야에서 사용됩니다. 영상은 선형 계획법에 사용되는 알고리즘에 대해 심플렉스 방법과 내점 방법, 원문제와 그 쌍대 문제가 밀접하게 연결되어 심플렉스 방법으로 풀 수 있는 쌍대성(Duality)의 개념에 대해 설명합니다. 이 비디오는 또한 네트워크에서 최대 흐름의 상한선을 찾고 행렬로 게임을 푸는 과정을 포함하여 선형 프로그래밍을 2인 게임에 적용하는 방법을 다룹니다. 마지막으로 비디오는 이러한 기술을 3인 이상의 게임에 적용할 때의 한계에 대해 간략하게 논의하고 다음 강의에서는 확률적 경사 하강법을 다룰 것이라고 언급합니다.

  • 00:00:00 이 섹션에서 강사는 최적화의 일부로 선형 프로그래밍이라는 주제를 소개하고 그것이 무엇이며 어떻게 작동하는지 설명합니다. 그는 선형 프로그래밍을 일련의 선형 제약 조건에 따라 선형 비용 함수를 최적화하는 프로세스로 정의합니다. 그는 비용 벡터와 제약 방정식이 모두 선형이라는 점에 주목합니다. 그러나 관련된 제약 조건이 있는 경우 제약 조건 방정식이 문제를 더 복잡하게 만들 수 있으므로 문제는 실제로 선형이 아닙니다. 그럼에도 불구하고 선형 프로그래밍은 최적화의 중요한 부분이며 경제 및 공학과 같은 분야에서 자주 사용됩니다.

  • 00:05:00 이 섹션에서는 연사가 선형 계획법과 2인 게임에 대해 설명합니다. 선형 대수학 언어로 제약 세트인 실행 가능 집합 X의 개념을 설명하고 시각화하여 개념을 보여줍니다. 그들은 삼각형의 세 꼭지점 중 하나가 승자임을 설명하기 위해 간단한 제약 조건과 부등식으로 함수를 최소화하는 예를 사용합니다. 이는 평면이 팔분원과 교차하는 지점에서 최소값을 찾아 해결됩니다. 비용은 선형이며 솔루션은 세 모서리 중 하나이거나 해당 모서리를 따라 동일한 값이 발생할 때입니다. 주어진 예에서 300이 승리 코너입니다.

  • 00:10:00 이 섹션에서는 선형 계획법에 사용되는 두 가지 알고리즘인 심플렉스 방법과 내부 점 방법에 대해 비디오에서 설명합니다. 심플렉스 방법은 최적의 모서리에 도달하기 위해 실행 가능한 집합의 가장자리를 따라 이동하는 반면 내부 점 방법은 미분을 얻고 최소화하기 위해 실행 가능한 집합 내부로 이동합니다. 내부 방법은 새로운 아이디어이며 Karmarkar가 제안한 정확한 알고리즘은 살아남지 못했지만 아이디어는 오늘날에도 여전히 사용되고 연구되고 있습니다. 두 알고리즘은 여전히 서로 경쟁 관계에 있습니다.

  • 00:15:00 이 섹션에서 연사는 선형 계획법과 비선형 계획법, 2차 계획법, 준정밀 계획법, 내부 점 방법과 같은 다양한 유형에 대해 설명합니다. 연사는 선형 프로그래밍 문제의 이중 문제가 생성되고 원초적 문제가 선형 비용 및 선형 부등식 제약 조건이 있는 최대화 문제로 바뀌는 이중성 개념을 소개합니다. 그런 다음 화자는 기본 문제와 이중 문제가 밀접하게 연결되어 있으며 심플렉스 방법을 사용하여 해결할 수 있다고 설명합니다. 또한 연사는 최대값이 항상 실현 가능한 허용값보다 작거나 같다는 이중성의 핵심 아이디어를 소개합니다. 마지막으로 화자는 부등식 B 전치 Y가 C 전치 X보다 작거나 같다는 한 줄 증명을 제공합니다.

  • 00:20:00 이 섹션에서 연사는 선형 프로그래밍에서 0보다 크거나 같은 X의 중요성과 약한 이중성을 달성하는 역할에 대해 논의합니다. X가 0보다 크거나 같다는 사실은 원하는 부등식이 충족되고 시스템에서 얻은 결과가 정확하다는 것을 보장합니다. 연사는 이중성의 개념과 그것이 선형 프로그래밍 및 2인 게임과 어떻게 관련되는지 언급하면서 두 경우 모두 알고리즘에 주의를 기울이는 것의 중요성을 강조합니다. 발표자는 또한 논의된 개념을 설명하기 위해 최대 흐름과 최소 컷의 예를 제공합니다.

  • 00:25:00 이 섹션에서 연사는 에지 용량에 제약이 있는 네트워크를 통해 흐름을 최대화하는 맥락에서 선형 프로그래밍 및 2인 게임의 문제에 대해 논의합니다. 그들은 흐름 변수가 가장자리의 용량에 의해 허용되는 흐름의 양을 초과하지 않도록 보장하면서 싱크대에서 흐름을 최대화하는 것이 목표라고 설명합니다. 이 문제는 정수 프로그래밍을 사용하여 해결할 수 있지만 정수가 아닌 변수를 허용하도록 안전하게 완화할 수 있습니다. 발표자는 이 문제를 해결하는 방법의 예를 제공하고 적절한 에지 용량 선택의 중요성에 대해 논의합니다.

  • 00:30:00 이 섹션에서 강사는 선형 프로그래밍과 2인 게임에 대해 설명합니다. 구체적으로 그는 소스와 함께 가는 에지와 대상과 함께 가는 에지를 분리하는 네트워크의 컷에 초점을 맞춰 네트워크의 최대 흐름에 대한 상한선을 찾는 방법을 탐구합니다. 이 예의 최대 흐름은 최소 컷과 일치하는 14입니다. 문제를 최적화할 때 상한을 찾기 위해 이중성 개념도 도입됩니다.

  • 00:35:00 이 섹션에서는 연사가 선형 계획법과 2인 게임에 대해 설명합니다. 대규모 네트워크의 최대 절단 문제는 선형 프로그래밍으로 빠르게 해결할 수 있지만 최대 절단은 수천 개의 에지로 표시되지 않을 수 있습니다. 거의 항상 평균 사례가 있는 심플렉스 방법은 푸는 데 시간이 다항식입니다. 발표자는 또한 어떤 흐름도 컷의 용량을 초과할 수 없는 선형 프로그래밍의 이중성에 대해 이야기합니다. 마지막으로 발표자는 2인 게임과 플레이어를 최소화하고 최대화하기 위한 보상을 기반으로 결정을 내리는 데 사용되는 보상 매트릭스에 대해 이야기합니다. 이 게임은 제로섬 게임입니다. 즉, X가 받는 모든 급여는 Y에게 돌아갑니다.

  • 00:40:00 이 섹션에서 비디오는 X가 작은 수를 만들고 Y가 큰 수를 만들고 싶어하는 예를 사용하여 선형 계획법과 2인 게임에 대해 설명합니다. 그 결과 Y는 매번 열 2를 선택하고 X는 매번 행 1을 선택하는 안장점이 있는 간단한 게임이 됩니다. 그러나 예가 변경되고 Y가 2열을 목표로 하는 경우 X는 안장점이 존재하지 않으므로 혼합 전략을 선택해야 합니다. Y는 또한 X가 결국 알아내는 혼합 전략을 채택하여 0과 1 사이에서 최상의 선택을 찾기 위한 경쟁으로 이어집니다.

  • 00:45:00 이 섹션에서 발표자는 선형 프로그래밍을 사용하여 2인 게임을 해결하는 과정에 대해 논의하고 행렬을 사용하여 게임을 해결하는 예를 제공합니다. Y에 대한 최적의 전략은 첫 번째 열에서 2/3, 두 번째 열에서 1/3인 것으로 나타납니다. 이 최적의 Y 전략이 주어지면 X에 대한 최상의 q4가 결정됩니다. 화자는 X에 대한 최적의 혼합을 입력하지 않는 다른 열이나 행이 있을 수 있다고 설명합니다.

  • 00:50:00 이 섹션에서 연사는 선형 계획법과 2인 게임 간의 연결에 대해 설명합니다. 그는 이중성 정리의 중요성과 그것이 최적화 문제 해결과 어떻게 관련되는지 뿐만 아니라 이러한 기술을 3인 이상의 게임에 적용하는 것의 한계에 주목합니다. 그는 또한 John Nash의 이야기와 그의 개선 및 그에 따른 비극적 죽음을 포함하여 현장에 대한 그의 공헌에 대해 간략하게 설명합니다. 마지막으로 화자는 다음 강의에서 확률적 경사하강법을 다룰 것이라고 언급합니다.
 

강의 25. 확률적 경사하강법



25. 확률적 경사하강법

이번 영상에서는 유한합 문제의 형태로 자주 제기되는 대규모 머신러닝 문제를 풀기 위한 최적화 방법으로 확률적 경사하강법(SGD)의 개념을 소개합니다. 연사는 SGD가 계산 속도를 높이기 위해 기울기를 계산하기 위해 임의의 데이터 포인트를 선택하는 방법과 방법의 변동하는 특성으로 인해 최적값에 접근할 때 배치 기울기 하강법과 어떻게 다르게 동작하는지 설명합니다. SGD의 핵심 속성은 확률적 기울기 추정이 기대값의 실제 기울기의 편향되지 않은 버전이며 잡음을 줄이기 위해 확률적 기울기의 분산을 제어해야 한다는 것입니다. 미니 배치의 사용은 딥 러닝 GPU 교육에서 저렴한 병렬 처리 수단으로 논의되지만, 올바른 미니 배치 크기를 선택하는 것은 보이지 않는 데이터가 있는 경우 솔루션의 견고성에 영향을 미칠 수 있는 열린 질문입니다. SGD 최적화의 과제에는 미니 배치 크기 결정 및 확률적 기울기 계산이 포함되지만 연구자들은 일반화 이론 개발을 통해 신경망에서 SGD의 효능을 이해하려고 노력하고 있습니다.

  • 00:00:00 이 섹션에서 발표자는 대규모 기계 학습 시스템을 교육하는 데 여전히 사용되는 고대 최적화 방법으로 확률적 경사 하강법의 개념을 소개합니다. 그들은 최적화 문제를 해결하는 것이 데이터 과학에서 중요하며 이러한 문제는 종종 꽤 크다고 설명합니다. 발표자는 MATLAB에서 경사 하강법 구현을 제공하고 모든 딥 러닝 도구 상자와 대규모 머신 러닝을 구동하기 위해 단 한 줄만 변경하면 됨을 보여줍니다. 그런 다음 화자는 합계로 작성된 비용 함수에서 x를 찾는 것과 관련된 기계 학습의 최적화 문제를 설명합니다. 이를 유한 합계 문제라고 하며 일반적으로 확률적 최적화 방법을 사용하여 해결합니다.

  • 00:05:00 이 섹션에서 발표자는 대규모 기계 학습에 대해 논의합니다. 즉, 교육 데이터 포인트의 수(n)와 벡터의 차원(d)이 모두 클 수 있습니다. 큰 n은 수백만 또는 수십억에 달할 수 있으며 큰 d는 최대 10억 개의 기능으로 구성될 수 있습니다. 이는 데이터 구조에서 하위 선형 시간 알고리즘 검색 및 이러한 빅 데이터를 처리하기 위한 해싱 트릭을 포함하여 대규모 기계 학습을 위한 최적화 방법에 대한 많은 연구를 주도합니다. 발표자는 선형 대수학에서 가장 고전적인 질문인 최소 제곱 회귀 문제와 la sol이라는 널리 사용되는 또 다른 방법의 예를 제공합니다. 둘 다 유한 합계 형식으로 훈련 데이터에 대한 손실 측면에서 작성됩니다. 마지막으로 발표자는 심층 신경망이 n 훈련 데이터 포인트가 있는 이 유한 합계 문제의 또 다른 예라고 언급합니다.

  • 00:10:00 이 섹션에서 연사는 기계 학습 및 통계에서 발생하는 유한 합계 문제를 해결하기 위해 최적화 절차가 어떻게 필요한지 논의합니다. 이 분야의 대부분의 문제는 유한합 문제로 표현될 수 있고, 이를 해결하기 위해서는 특화된 최적화 절차가 필요하기 때문입니다. 발표자는 경사 하강 방법을 소개하지만 큰 데이터 세트에서 단일 지점의 경사도를 계산하는 데 몇 시간 또는 며칠이 걸릴 수 있으며 이는 큰 단점이라고 지적합니다. 발표자는 이러한 단점에 대응하기 위해 청중에게 제안을 요청하고 제시된 몇 가지 아이디어에는 확률적 경사 하강법 사용 및 전체 데이터 세트의 하위 집합 샘플링이 포함됩니다.

  • 00:15:00 이 섹션에서 발표자는 각 반복에서 일부 데이터 포인트를 무작위로 선택하고 단일 포인트의 기울기를 계산하여 프로세스를 훨씬 빠르게 만드는 확률적 경사 하강법의 개념에 대해 설명합니다. 그러나 화자는 핵심 질문은 이 아이디어가 수학적 의미가 있는지 여부라고 지적합니다. 확률적 경사하강법은 1951년 Monroe의 Robbins에 의해 처음 제안되었으며 경사하강법과 비교됩니다. 화자는 확률적 경사하강법이 단계 크기에 더 민감하고 선이 어떻게 변동하는지를 설명하기 위해 장난감 문제의 시뮬레이션을 보여줍니다. 이 방법은 변동에도 불구하고 여전히 최적의 상태를 향해 진행 중인 것으로 보입니다.

  • 00:20:00 이 섹션에서 발표자는 솔루션에 접근하기 위해 알파 값(단계 크기)을 곱한 임의로 선택된 데이터 포인트의 기울기를 계산하는 Stochastic Gradient Descent(SGD)의 개념에 대해 설명합니다. 이 프로세스는 단계 크기 매개변수에 매우 민감하며 경사 하강법보다 더 민감합니다. 매개변수를 변경하면서 화자는 솔루션을 향한 진행 상황을 관찰하고 SGD의 일반적인 동작을 설명합니다. 그는 사람들이 SGD를 좋아하는 이유를 설명합니다. 왜냐하면 SGD는 대규모 데이터 세트에서 초기에 빠르게 발전하고 과적합을 피하면서 빠르고 지저분한 발전을 얻을 수 있기 때문입니다. 그러나 해에 가까워질수록 변동폭이 커지고 무질서한 행동으로 인해 최적의 최적값을 찾기 어려울 수 있습니다.

  • 00:25:00 이 섹션에서 발표자는 2차 함수가 사용되는 간단한 1차원 최적화 문제에서 확률적 기울기 방법이 작동하는 방식에 대해 설명합니다. 목표는 이러한 2차 함수를 최소화하는 것이며 화자는 이를 위해 개별 구성 요소의 그래디언트를 사용하는 방법을 시연합니다. Full Gradient를 사용하기 때문에 처음에는 방법이 잘 통하지만 최적에 가까워지면 무슨 일이든 일어날 수 있고 혼란스러워진다고 설명합니다. 발표자는 또한 폐쇄형 솔루션을 찾는 방법과 개별 최소값과 최대값의 특정 범위 내에서 진정한 최소값을 찾을 수 있는 위치를 보여줍니다.

  • 00:30:00 이 섹션에서 화자는 스칼라 X가 혼동 영역 밖에 있을 때 확률적 경사 하강법(SGD)의 동작을 설명합니다. 즉, 점이 솔루션이 있는 위치에서 매우 멀리 떨어져 있음을 의미합니다. 이 멀리 떨어진 체제에서 일부 구성 요소의 확률적 기울기는 손실 함수를 줄이기 위해 걸어가는 방향인 전체 기울기와 정확히 동일한 부호를 갖습니다. 발표자는 이를 사용하여 SGD가 멀리 떨어진 곳에서 견고한 진전을 이룰 수 있는 이유와 배치 경사 하강법의 단일 반복을 수행하는 데 걸리는 시간에 수백만 개의 확률적 단계를 허용하여 놀라운 초기 속도를 제공할 수 있는 방법을 설명합니다. 혼란 영역에 들어가면 확률적 경사하강법은 최적화에서 덜 효과적이지만 머신 러닝에서는 변동으로 인해 방법이 더 강력하고 일반화에 더 적합할 수 있습니다. 발표자들은 이것이 기계 학습, 이론적 컴퓨터 과학 및 통계에서 널리 퍼진 아이디어이며 값비싼 수량의 계산 속도를 높이기 위해 무작위화가 사용된다는 점에 주목합니다.

  • 00:35:00 이 섹션에서 화자는 확률적 경사하강법(SGD)의 핵심 속성에 대해 논의합니다. SGD의 기본 아이디어는 임의로 추정된 그래디언트를 사용하여 계산을 절약하는 것입니다. SGD의 핵심 속성은 예상에서 확률적 기울기 추정이 실제 기울기의 편향되지 않은 버전이라는 것입니다. 이러한 불편함을 넘어서는 잡음의 양이나 확률의 양을 조절하여 확률적 기울기의 분산이 줄어들도록 한다. 분산이 작을수록 확률적 기울기가 실제 기울기를 대체하고 더 빠르게 수렴됩니다.

  • 00:40:00 이 섹션에서 화자는 확률적 경사 하강 방법과 볼록 및 비볼록 문제 모두에 대한 동작에 대해 설명합니다. 화자는 또한 이 방법의 두 가지 변형을 언급합니다. 하나는 무작위 벡터가 선택되는 제약 조건이 없고 다른 하나는 훈련 데이터 포인트가 교체 여부에 관계없이 무작위로 선택되는 제약 조건이 있습니다. 발표자는 이 방법이 1951년부터 사용되어 딥 러닝 툴킷에서 널리 사용되지만 이론과 실제 적용 사이에는 여전히 격차가 있다고 설명합니다. 툴킷은 우리가 분석 방법을 알고 있는 버전이 stochastic gradient 분야에서 주요 공개 문제인 uniform random 버전임에도 불구하고 without replacement 버전을 사용합니다. 발표자는 분산을 줄이기 위해 배치 포인트를 사용하여 노이즈를 줄이는 미니 배치 아이디어도 언급합니다.

  • 00:45:00 비디오의 이 섹션에서 연사는 미니 배치의 개념과 딥 러닝 GPU 스타일 교육에서 저렴한 버전의 병렬 처리를 제공하기 위해 사람들이 미니 배치를 어떻게 이용하는지에 대해 설명합니다. 미니 배치가 클수록 더 많은 작업을 병렬로 수행할 수 있습니다. 그러나 매우 큰 미니 배치를 사용하면 확률적 기울기가 혼란 영역이 너무 많이 축소되는 지점까지 잡음을 줄이는 배치 기울기 하강처럼 보이기 시작한다는 수수께끼도 있습니다. 이는 신경망의 과적합을 유발하여 보이지 않는 데이터를 예측하기 어렵게 만들 수 있으므로 기계 학습에 해롭습니다. 따라서 올바른 미니 배치 크기를 선택하는 것은 심층 신경망의 최적화 프로세스에서 여전히 미결 문제입니다.

  • 00:50:00 이 섹션에서 연사는 사용할 미니 배치 결정 및 확률적 기울기 계산 방법을 포함하여 확률적 경사 하강법(SGD) 최적화와 관련된 문제에 대해 논의합니다. 역전파 알고리즘은 단일 확률적 기울기를 계산하는 인기 있는 방법으로 도입되었으며 기계 학습 툴킷은 기울기 계산을 자동화하는 다양한 방법을 가질 수 있습니다. SGD의 효능을 입증하는 데 있어 이론적인 문제가 논의되며, 여기에는 SGD가 최적이 아닌 것으로 추정되는 품질에도 불구하고 신경망에서 왜 그렇게 잘 작동하는지에 대한 질문이 포함됩니다. 연구자들은 현재 일반화 이론을 개발하여 이 미스터리를 이해하려고 노력하고 있습니다.
 

강의 26. 딥러닝을 위한 신경망의 구조



26. 딥러닝을 위한 신경망의 구조

이 비디오는 딥 러닝을 위한 신경망의 구조에 대해 설명합니다. 목표는 m개의 특징을 갖는 특징 벡터로 신경망을 구성하여 데이터를 두 가지 범주 중 하나로 분류할 수 있는 학습 함수를 만들어 이진 방식으로 데이터를 분류하는 것입니다. 선형 분류기는 비선형 데이터를 분리할 수 없기 때문에 이러한 함수를 만드는 데 비선형성이 필수적입니다. 이 비디오는 또한 신경망에서 가중치 및 레이어 수의 중요성에 대해 논의하고 사용자가 함수 생성을 연습할 수 있는 TensorFlow 플레이그라운드와 같은 리소스를 제공합니다. 마지막으로 비디오는 케이크를 잘라서 얻은 평평한 조각의 수에 대한 공식을 증명하는 데 사용되는 재귀와 이것이 딥 러닝에서 총 손실을 최소화하는 최적화 문제와 어떻게 관련되는지에 대해 논의합니다.

  • 00:00:00 이 섹션에서 교수는 훈련 데이터를 학습하고 테스트 데이터에 적용할 수 있는 학습 함수 f의 구성인 심층 신경망의 중심 구조를 소개합니다. 목표는 m개의 특징을 갖는 특징 벡터로 신경망을 구성하여 이진 방식으로 데이터를 분류하는 것입니다. 네트워크는 소년 또는 소녀, 고양이 또는 개 또는 트럭 또는 자동차와 같은 두 가지 범주 중 하나로 데이터를 분류할 수 있는 학습 기능을 생성합니다. 교수는 또한 이 구조가 마스코트 mit.edu/learning from data 사이트에서 몇 달 동안 사용 가능했으며 Stellar 플랫폼에 추가될 것이라고 언급했습니다.

  • 00:05:00 이 섹션에서 강사는 두 클래스 분류에 대한 정답을 반환하는 함수 f of X를 만드는 방법을 설명합니다. 강사는 함수가 분류 마이너스 1의 경우 음수이고 분류 + 1의 경우 양수여야 한다고 말합니다. 그러나 강사는 과적합이 발생할 수 있으므로 모든 샘플을 올바르게 가져올 필요는 없으며 발견한 규칙은 모든 "이상한" 경우가 아니라 거의 모든 경우를 다루어야 함을 인정합니다. 그런 다음 강사는 간단한 모델 문제가 개인이 딥 러닝에 대해 배울 수 있는 사이트인groundground.tensorflow.org를 방문할 것을 권장합니다. 플레이그라운드는 네 가지 예를 제공하며 그 중 하나는 어떤 점에서는 양수이고 다른 점에서는 음수인 함수를 찾는 것과 관련이 있습니다.

  • 00:10:00 이 섹션에서 발표자는 신경망에서 비선형성의 중요성에 대해 논의하며 지원 벡터 머신과 같은 선형 분류기를 사용하면 다음을 수행할 수 있는 일부 비선형 함수를 만드는 것이 불가능할 것이라고 지적합니다. 데이터를 분리합니다. 그런 다음 그는 시스템이 한 나선에서는 양수이고 다른 나선에서는 음수인 함수를 찾으려고 시도하는 나선이 있는 2D 분류 문제의 예를 보여줍니다. 이것은 꽤 많은 시간과 많은 시대가 걸립니다. 연사는 또한 에포크가 무엇인지 설명하고 확률적 경사 하강법에서 교체가 있는 미니 배치와 교체가 없는 미니 배치의 차이점을 언급합니다.

  • 00:15:00 이 섹션에서 발표자는 사용자가 비선형 함수를 사용하여 X의 함수 f를 만들 수 있는 TensorFlow의 플레이그라운드라는 웹사이트에 대해 설명합니다. 웹 사이트는 양수와 음수 세트를 구분하고 0이 사이에 있는 함수에 대한 0 세트를 플로팅합니다. 웹사이트는 데이터를 학습하는 함수 f를 찾는 데 필수적이므로 사용자가 각 레이어의 레이어 및 뉴런 수를 결정할 수 있도록 합니다. 발표자는 또한 이 프로세스에서 선형 함수의 중요성에 주목하고 연습할 좋은 컨볼루션 신경망 웹 사이트에 대한 권장 사항을 요청합니다. 함수 f는 5개의 구성 요소가 있는 X의 벡터, 6개의 뉴런이 있는 레이어 1 및 숫자 1개의 출력 레이어의 형식을 갖습니다.

  • 00:20:00 이 섹션에서는 연사가 딥 러닝을 위한 신경망의 구조에 대해 설명합니다. 그들은 출력 Y를 계산하기 위해 가중치 행렬을 포함하는 신경망의 기본 구조를 설명하는 것으로 시작합니다. 그러나 딥 러닝을 위해 여러 계층을 추가하면 프로세스가 더 복잡해집니다. 각 계층은 데이터에 대해 더 많이 학습해야 합니다. 첫 번째 계층은 기본 사실을 학습하고 각 후속 계층은 더 자세한 내용을 학습합니다. 마지막으로 발표자는 신경망이 미세 지도를 포함하고 각 구성 요소에 함수를 적용하여 최종 출력을 얻는 방법에 대해 설명합니다.

  • 00:25:00 이 섹션에서는 연사가 딥 러닝의 신경망 구조에 대해 설명합니다. 그들은 신경망이 가중치와 입력에 의존하는 학습 함수로 구성되어 있으며, 함수의 연쇄 또는 함수의 구성을 통해 생성되며, 각각은 선형 또는 아핀 맵과 비선형 함수로 구성되어 있다고 설명합니다. 그 결과 연속적이고 부분적으로 선형인 복잡한 함수가 생성됩니다. 화자는 그러한 함수가 생성될 행렬과 벡터에 의존하고 모델의 가중치 수에 의존한다고 언급합니다.

  • 00:30:00 이 섹션에서 발표자는 딥 러닝을 위한 신경망의 구조, 특히 ReLu 함수가 이어지는 선형 함수의 "체인" 개념에 대해 이야기합니다. 그들은 이러한 방식으로 함수를 얻을 수 있는지 여부에 대한 질문을 논의하고 연속 조각별 선형 함수만 가능하다는 결론을 내립니다. 화자는 또한 종이접기 개념을 사용하여 직선 모서리를 따라 연결된 평평한 조각으로 구성된 두 변수의 조각별 선형 함수 그래프를 시각화합니다. 시각화를 돕기 위해 조각의 수를 세는 문제가 제기됩니다.

  • 00:35:00 이 섹션에서 화자는 n번 접기로 평면을 접으면 얼마나 많은 평평한 조각을 얻을 수 있는지에 대한 문제에 대해 논의합니다. 이 문제는 함수 f의 자유도와 충분한 접기를 취함으로써 임의의 연속 함수를 근사화할 수 있는지 여부를 이해하는 데 필수적입니다. 화자는 대답이 '예'이며 이 기능 클래스는 보편적이라고 말합니다. 또한 이 섹션에서는 컴퓨터 과학의 더 넓은 분야, 특히 신경망에서 이 개념을 이해하는 것의 중요성에 대해 다룹니다.

  • 00:40:00 이 섹션에서 화자는 접힌 종이 조각의 평평한 조각의 수와 관련된 수학적 문제에 대해 논의합니다. 그들은 종이를 더 많이 접으면 몇 개의 조각이 형성될 것인지 묻고, 문제를 해결하기 위해 재귀 공식을 만들려고 노력합니다. 발표자는 지금까지 찾은 숫자를 제시하고 m차원 표면을 가진 n번 접은 종이에서 평평한 조각의 수에 대한 공식을 생각해 내야 한다고 설명합니다. 그런 다음 재귀 공식을 찾으면 추가할 계획입니다.

  • 00:45:00 이 섹션에서 화자는 시각적 예를 사용하여 더 높은 차원 공간에서 절단하여 생성된 조각 수에 대한 공식을 설명합니다. 이항 숫자를 사용하여 공식은 주어진 M 및 N 차원에 적용될 수 있습니다. 화자는 공식을 사용하는 방법을 보여주기 위해 N이 3이고 M이 2인 예를 제공합니다. 마지막으로, 공식은 이항 수와 동일하고 0에서 M까지 M 차원에서 둘러싸는 R의로 표시됩니다.

  • 00:50:00 이 섹션에서 화자는 케이크 절단에서 발생하는 평평한 조각의 공식을 증명하는 데 사용되는 재귀에 대해 논의합니다. 그들은 그들이 찾고 있는 숫자가 이전의 납작한 조각의 수에 잘려진 조각의 수를 더한 것이라고 설명합니다. 재귀에 대한 규칙은 Kleinberg 및 기타 논문의 섹션 7.1에서 입증되었습니다. 이 함수군을 찾은 후의 다음 단계는 A와 가중치를 선택하는 것입니다. 이로 인해 전체 손실을 최소화하는 데 문제가 발생하며 이는 경사하강법과 역전파를 사용하여 해결할 수 있습니다.
 

강의 27. 역전파: 부분 도함수 찾기



27. 역전파: 부분 도함수 찾기

이 비디오는 역전파 및 편도함수 찾기와 관련된 여러 주제를 다룹니다. 연사는 부분 도함수에 대한 체인 규칙의 사용을 시연하고 행렬 곱셈에서 계산 순서의 중요성을 강조합니다. 역전파는 그래디언트 계산을 위한 효율적인 알고리즘으로 강조되며 그 효과를 입증하기 위해 다양한 예가 제공됩니다. 확률적 경사하강법의 수렴에 대해 확률적 경사하강법에서 임의 순서의 손실 함수 샘플 사용과 관련된 프로젝트 아이디어와 함께 간략하게 설명합니다. 전반적으로 비디오는 역전파와 그 응용에 대한 포괄적인 개요를 제공합니다.

  • 00:00:00 이 섹션에서 연사는 관심 있는 두 가지 주제에 대해 논의합니다. 먼저 확률적 경사하강법의 수렴에 대해 논의하며, 증명 자체보다 알고리즘의 논리와 가정에 더 중점을 둡니다. 둘째, 화자는 확률적 경사하강법에서 손실 함수 샘플의 무작위 순서 사용과 관련된 프로젝트 아이디어를 제안합니다. 구체적으로, 이 프로젝트는 접근 방식의 차이를 결정하기 위해 대체 방법과 대체 방법을 모두 사용하여 100개의 난수 목록의 평균을 계산하는 작업을 포함합니다.

  • 00:05:00 이 섹션에서 화자는 최속강하법 알고리즘에서 기울기를 계산하는 방법으로 역전파에 대해 설명합니다. 역전파는 신경망을 인기 있게 만든 핵심 계산이며 역방향 모드에서 자동 미분을 사용하여 경사도 및 도함수를 빠르게 계산합니다. 연사는 또한 대체가 수행될 때 평균의 수렴의 예를 탐색할 것을 제안하고 확률적 경사 하강법에 대한 좋은 시작과 나쁜 끝을 계산의 마법 단어가 조기 중지하는 것으로 제안합니다.

  • 00:10:00 이 섹션에서 연사는 역전파와 편도함수를 찾는 용도에 대해 설명합니다. 역전파는 이전에 자동 미분이라는 이름으로 연구되었으며, 연사는 심층 신경망 개발의 선두주자가 그 효과를 실현했다고 인정합니다. 화자는 f(x)와 도함수의 계산을 설명하는 함수의 간단한 예를 제공하고 부분 도함수를 찾기 위한 체인 규칙의 사용을 강조합니다. 이 섹션에는 주제에 대한 명확한 설명을 제공하는 Christopher Olah의 블로그도 언급되어 있습니다.

  • 00:15:00 이 섹션에서 발표자는 체인 규칙을 사용하여 편미분 계산에 대해 설명합니다. F를 찾고 계산 그래프를 만드는 것부터 시작하여 함수의 편도함수를 계산하는 방법을 보여주기 위해 변수가 두 개인 함수 예제를 사용합니다. 그들은 체인 규칙을 사용하려면 F 계산에서 발견된 각 요소를 구별하고 적절하게 평가해야 한다고 설명합니다. 이 계산 그래프는 많은 변수가 평가되는 딥 러닝을 위한 부분 도함수의 계산을 시연하는 데 사용됩니다.

  • 00:20:00 이 섹션에서 화자는 순방향 모드 자동 미분을 사용하여 편도함수를 찾는 과정에 대해 설명합니다. 그들은 F DX의 편도함수를 계산하고 계산을 간단한 조각으로 나누고 중간 단계를 도함수로 대체하는 것으로 시작합니다. 그들은 X에 대해 세제곱한 X의 도함수가 3X 제곱이라는 사실을 사용합니다. X가 2일 때 12의 값을 제공합니다. 그런 다음 그들은 Y 도함수에 대해 다른 그래프를 작성해야 하므로 순방향 방법이 낭비임을 인식합니다. 또한. 화자는 또한 제품의 편도함수를 찾는 데 제품 규칙을 사용합니다. 이 프로세스에는 약간의 조직이 필요하지만 요점은 계산을 간단한 조각으로 분해하여 미분을 단순화하는 것입니다.

  • 00:25:00 이 섹션에서 화자는 계산 그래프를 사용하여 편도함수를 찾기 위해 제품 규칙을 사용하는 방법을 설명합니다. 화자는 곱의 X 도함수를 찾는 예를 사용하고 곱의 두 항에 이름을 지정합니다. 그런 다음 곱셈 규칙에 필요한 값을 계산하고 이를 사용하여 도함수를 계산합니다. 그러나 그는 최종 답을 찾기 위해 애쓰며 FD를 찾으려면 계산을 다시 해야 한다고 인정합니다. 발표자는 리버스 모드를 사용하면 한 번에 두 편도함수를 모두 계산할 수 있으므로 더 효율적일 것이라고 제안합니다.

  • 00:30:00 이 섹션에서 연사는 역전파 기술이 모든 경로를 뒤로 따라 효율적으로 그래디언트를 계산할 수 있는 방법에 대해 이야기합니다. 이 기법은 이미 상세하게 정리된 몇 가지에 적용되는 연쇄법칙을 통해 모든 도함수를 찾는 데 도움이 됩니다. 연사는 미적분학이 실제로 수행된 것을 되돌아보면 단순해 보이는 경향이 있다고 지적합니다. 리버스 모드 광고 접근 방식은 단지 4~5배의 비용으로 n개의 1차 미분을 계산하는 데 사용되며, 이는 발표자에 따르면 놀라운 일입니다. 발표자는 또한 두 행렬의 곱셈을 예로 사용하여 계산이 수행되는 순서가 효율성 측면에서 어떻게 차이를 만들 수 있는지에 대한 예를 제공합니다.

  • 00:35:00 비디오의 이 섹션에서 연사는 계산 속도에 상당한 영향을 미칠 수 있으므로 행렬 곱셈에서 계산 순서의 중요성에 대해 논의합니다. 그런 다음 그는 역전파(backpropagation)의 예로 이동하고 계산 그래프를 통해 역방향으로 이동하면서 부분 도함수를 찾기 위해 체인 규칙 및 다양한 기타 도함수 규칙을 사용하는 방법을 보여줍니다. 그는 체인의 조각을 재사용함으로써 상당한 비용 없이 더 넓은 체인을 생성할 수 있어 함수가 수백 개의 변수에 의존하는 경우에도 더 빠른 계산이 가능하다는 사실을 강조합니다.

  • 00:40:00 비디오의 이 섹션에서 연사는 역전파를 사용하여 편도함수를 찾는 방법을 설명합니다. 그들은 체인 규칙을 사용하여 X와 Y에 대한 편도함수를 찾는 예를 보여주고 역전파를 통해 각 변수에 대해 별도의 체인이 아닌 하나의 체인에서 모든 파생값을 찾을 수 있음을 강조합니다. 발표자는 이 프로세스가 모든 크기의 시스템에 적용될 수 있다고 언급하고 향후 강의에서 다룰 확률적 경사 하강법의 수렴에 대해 간략하게 언급합니다.

  • 00:45:00 이 섹션에서 발표자는 세 행렬(A, B, C)을 곱하는 두 가지 방법과 이를 수행하는 데 필요한 작업 수에 대해 설명합니다. 첫 번째 방법은 A에 BC를 곱하는 것과 관련되며, 이는 M x N x PQ 연산의 비용이 듭니다. 여기서 P와 Q는 각각 B와 C의 행과 열의 수입니다. 두 번째 방법은 AB에 C를 곱하는 것과 관련되며 M x P x Q 작업 비용이 듭니다. 연사는 특히 C가 열 벡터인 경우 행렬을 곱할 때 필요한 작업 수를 염두에 두는 것이 중요하다고 강조합니다. 이는 잠재적으로 처리하기 어려운 매우 큰 행렬로 이어질 수 있기 때문입니다.

  • 00:50:00 이 섹션에서는 연사가 편도함수와 역전파에 대해 설명합니다. 연사는 역전파가 두 개의 큰 행렬을 곱하고 열 벡터를 얻을 수 있으므로 부분 도함수에 대해 역전파가 어떻게 올바른 순서인지 보여줍니다. 이는 열 벡터에 행렬을 곱하여 새 열 벡터를 얻은 다음 이를 곱하는 것보다 훨씬 빠릅니다. 다른 행렬을 사용하여 다른 열 벡터를 얻습니다. 역전파는 프로세스를 단순화하고 훨씬 더 빠른 계산을 허용합니다.
 

강의 30: 랭크 1 매트릭스 완성, Circulants!



강의 30: 랭크 1 매트릭스 완성, Circulants!

강의 30에서 강사는 랭크 1 행렬과 순환 행렬 완성에 대해 논의합니다. 그들은 2x2 결정자로 시작하고 이것을 사용하여 행렬에 채워질 수 있는 값을 좁혀 순위를 1로 만듭니다. 그런 다음 강사는 4x4 행렬에 대한 조합 문제로 이동하고 주어진 4개의 숫자로만 만들 수 있는 순환 패턴을 특징으로 하는 순환 행렬을 소개합니다. 또한 신호 처리에서 중요한 cyclic convolution, eigenvalue, circulant matrix의 eigenvector에 대해서도 강의한다.

  • 00:00:00 이 섹션에서 강사는 행렬을 랭크 1 행렬로 완성하는 것에 대한 이전 랩 세션의 예제 질문을 제공합니다. 질문은 랭크 1 매트릭스를 달성하기 위해 어떤 위치를 채워도 되는지, 어떤 위치를 채워서는 안 되는지에 초점이 맞춰져 있습니다. 강사는 0이 아닌 숫자를 선택하는 방법을 설명하고 5개의 0이 아닌 숫자로 행렬을 랭크 1 행렬로 완성할 수 있는지에 대한 질문을 던집니다.

  • 00:05:00 이 섹션에서 강사는 순위 1 행렬 및 순환을 완료하는 방법에 대해 설명합니다. 그들은 2x2 행렬식을 검사하는 것으로 시작합니다. 여기서 2x2는 순위 1이어야 하므로 행렬식은 0입니다. 그들은 이 아이디어를 사용하여 행렬에서 누락된 숫자가 무엇인지, 나머지를 채우는 방법을 좁힙니다. 가치의. 그런 다음 강사는 4x4 예제로 이동하여 조합 문제를 소개하여 어떤 위치가 작동하고 작동하지 않는지 결정합니다. 마지막으로, 각 행이 오른쪽으로 한 요소만큼 이동된 이전 행이 되는 행렬의 순환 패턴을 특징으로 하는 circulants에 대해 이야기합니다. 그들은 대각화를 포함하여 순환 행렬과 속성을 만드는 방법을 설명합니다.

  • 00:10:00 이 섹션에서 강사는 순위 1 행렬 및 이분 그래프 완성에 대해 설명합니다. 그들은 4x4 행렬에 몇 가지 숫자를 규정하고 숫자 사이의 연결을 나타내는 행과 열이 있는 이분 그래프를 그리는 것으로 시작합니다. 강사는 1순위로 행렬을 완성하려면 3개의 항목이 지정된 2x2 사각형을 피해야 한다고 설명합니다. 4개의 항목이 모두 제공되면 0 결정자를 생성할 수 없으며 행렬에 순위 1이 없습니다. 강사는 순위 1 행렬을 만들기 위해 어떤 항목을 채울 수 있는지 결정하는 방법을 설명하기 위해 이분 그래프를 행렬 표현으로 변환합니다.

  • 00:15:00 이 섹션에서 교수는 랭크 1 행렬을 완성하는 방법에 대해 논의합니다. 특히 도중에 2x2가 없는 경우 행렬을 완성하는 것이 항상 가능한지 여부를 다룹니다. 그는 2x2가 항상 문제가 아니며 완료를 방해하는 더 긴 주기가 있을 수 있음을 예를 통해 보여줍니다. 중요한 점은 해당 이분 그래프에서 식별할 수 있는 주기가 없는 경우에만 매트릭스가 1순위로 완성될 수 있다는 것입니다.

  • 00:20:00 이 섹션에서 강사는 6개의 모서리가 있는 주기를 완성하고 이것이 행렬의 주기 개념과 어떻게 관련되는지에 대해 논의합니다. 그는 주기의 그려진 그림을 행렬로 변환하고 행렬의 주기가 0이 아닌 값으로 특정 요구 사항을 충족해야 함을 보여주는 방법을 설명합니다. 그는 랭크 2 행렬 완성에 대한 질문을 던지고 기계 학습에서 컨볼루션의 중요성에 대해 논의합니다.

  • 00:25:00 이 섹션에서 강사는 순환 행렬의 개념을 소개합니다. 순환 행렬은 일정한 대각선이 회전하여 완성되는 특별한 유형의 컨볼루션 행렬입니다. 순환 행렬은 신호 처리의 필수 부분이며 대수적 특성으로 인해 일련의 가중치를 연결하는 효율적인 방법이 됩니다. 이는 여기에서 핵심 행렬이 P와 P²에서 순환 행렬을 생성하는 데 도움이 되는 순환 시프트 행렬이기 때문입니다. 예를 들어, MATLAB은 순환 행렬의 첫 번째 열을 지정함으로써 다른 모든 열을 주기적으로 이동시킬 수 있습니다. 즉, 4x4 순환 행렬을 정의하는 데 4개의 숫자만 필요합니다.

  • 00:30:00 강의의 이 섹션에서는 순환 행렬의 개념이 소개됩니다. 모든 순환 행렬은 P의 다항식이며 여기서 P는 단일 이동을 나타냅니다. 또한 두 행렬이 순환 행렬인 경우 두 행렬을 함께 곱하면 다른 순환 행렬이 생성된다는 것도 증명되었습니다. 또한 항등행렬은 순환행렬이고, 순환행렬이 제곱되면 결과 행렬도 순환행렬입니다. 순환 행렬을 곱할 때 목표는 다항식이 원하는 항 수를 초과하지 않도록 하는 것입니다.

  • 00:35:00 이 섹션에서 강사는 순위 1 행렬 및 순환에 대해 설명합니다. 4x4 순환 이동 행렬에 차수 3을 곱하면 곱이 차수 6이 아닌 이유에 대한 의문이 생깁니다. 핵심은 P의 네 번째 항이 실제로는 P의 0항이므로 곱이 순환 컨벌루션이라는 것입니다. 그런 다음 강사는 두 벡터 사이의 컨볼루션 계산 예를 들어 컨볼루션과 순환 컨볼루션의 차이점을 설명합니다. 그는 또한 시청자에게 비순환 컨볼루션은 원 기호를 사용하지 않는 반면 순환 컨볼루션은 사용함을 상기시킵니다.

  • 00:40:00 이 섹션에서 강사는 순환 컨벌루션과 다항식을 순환 행렬 곱셈에 해당하는 순환 곱셈에 어떻게 사용할 수 있는지에 대해 설명합니다. 한 요인의 자릿수 합은 다른 요인의 자릿수 합을 곱하여 컨볼루션의 자릿수 합을 제공합니다. 강사는 또한 이러한 행렬의 고유값과 고유벡터에 대해서도 간단히 다룹니다. 모든 1의 벡터는 고유값을 갖는 고유벡터이며, 이것은 P의 거듭제곱의 다항식 합을 가집니다. 강의는 해당 분야의 고급 주제에 대한 토론으로 마무리됩니다.

  • 00:45:00 강의의 이 섹션에서 발표자는 행렬 C의 고유 벡터가 행렬 P의 고유 벡터와 같다고 설명합니다. 행렬 P의 고유 벡터는 1과 -1, i와 -i입니다. circulant 세계는 모든 circulant에 대해 여러 개의 고유값과 고유 벡터를 가지며 이는 신호 처리에서 중요한 규칙입니다.
 

강의 31. 순환 행렬의 고유 벡터: 푸리에 행렬



31. 순환 행렬의 고유 벡터: 푸리에 행렬

순환 행렬의 고유 벡터에 대한 이 비디오에서 발표자는 순환 행렬이 이미지 처리 및 머신 러닝과 어떻게 관련되는지, 그리고 푸리에 행렬과의 연결에 대해 설명합니다. 발표자는 이산 푸리에 변환(DFT) 및 푸리에 변환과 관련하여 컨벌루션 및 순환 행렬을 이해하는 것의 중요성을 강조합니다. 발표자는 순환 행렬, 특히 푸리에 행렬의 고유 벡터와 이들이 모두 고유값이기도 한 8개의 숫자로 구성된 동일한 집합에서 구성되는 방법에 대해 설명합니다. 발표자는 또한 열이 직교하지만 직교하지 않는 방법과 순환 행렬의 대칭으로 인해 고유 벡터가 어떻게 서로 직교하도록 만드는 방법을 포함하여 푸리에 행렬의 속성에 대해 이야기합니다. 마지막으로 발표자는 푸리에 매트릭스의 고유 벡터인 아르간 벡터의 개념을 예제와 함께 설명합니다.

  • 00:00:00 이 섹션에서 교수는 순환 행렬의 주제를 소개하고 프로젝트 마감일 및 채점에 대한 업데이트를 제공합니다. 그는 또한 공학 및 수학에서 중요한 알고리즘인 이산 푸리에 변환에 대한 순환 행렬의 연결을 언급합니다. nxn 크기의 행렬을 정의하는 데 필요한 n개의 항목만 있는 특별한 형태의 순환 행렬은 이미지에 대한 기계 학습을 비롯한 많은 응용 프로그램에서 유용합니다.

  • 00:05:00 이 섹션에서 발표자는 이미지가 일반적으로 픽셀로 설명되며 수백만 개의 구성 요소가 있는 특징 벡터를 가질 수 있으므로 경사 하강법으로 딥 러닝에 필요한 가중치를 계산할 수 없다고 설명합니다. 그러나 딥 러닝에 사용되는 행렬은 특수하며 순환 특징이 있는 순환 행렬과 마찬가지로 특징 수에 의존하지 않습니다. 이러한 행렬을 선형 이동 불변 또는 선형 시불변, 컨볼루션 행렬, 삼중항 행렬 또는 상수 대각선 행렬이라고 하며 기계 학습 및 이미지 처리에 사용됩니다. 기본적으로 딥 네트워크의 각 레이어에 필요한 가중치 계산의 크기를 줄여 딥 러닝을 최적화하는 데 도움이 됩니다.

  • 00:10:00 이 섹션에서 화자는 이미지 처리 및 기계 학습에서 순환 행렬의 사용에 대해 논의합니다. 그는 픽셀 수가 많은 큰 이미지에서 작동하기 위해 최대 풀링을 사용하여 시스템 크기를 줄일 수 있다고 설명합니다. 그러나 컨벌루션 연산의 경우 중요한 점을 강조하기 위해 가중치를 선택해야 합니다. 따라서 저역 통과 필터와 같은 이미지를 단순화하기 위해 필터를 사용합니다. 발표자는 이미지 샘플을 처리할 때 기계 학습에서 더 넓은 신경망이 사용된다는 점에 주목합니다. 일정한 대각 행렬이 더 자연스럽고 효율적이기 때문입니다.

  • 00:15:00 이 섹션에서 발표자는 순환 행렬, 특히 순환 이동 효과가 있는 순열 행렬의 고유값 및 고유벡터에 대해 설명합니다. 순열 행렬의 특이값은 모두 1이며, 고유값은 P 빼기 람다 I를 취하고 행렬식을 0으로 설정하여 람다의 4제곱을 구함으로써 구할 수 있습니다. 발표자는 또한 DFT 및 푸리에 변환과 관련하여 컨볼루션 및 순환 행렬을 이해하는 것의 중요성을 강조합니다.

  • 00:20:00 이 섹션에서 발표자는 특히 푸리에 행렬에 초점을 맞춘 순환 행렬의 고유 벡터에 대해 설명합니다. 푸리에 행렬의 고유값은 행렬식을 0으로 설정하여 찾을 수 있으며 결과적으로 1의 4제곱근이 됩니다. 8x8 순환 행렬에 대한 고유값도 논의되었으며, 이는 방정식 람다의 8승은 1에 대한 8개의 해입니다. 이러한 해는 숫자 1, 음수 1, 4, 8단위 근의 형태로 나타나며, 고유 벡터로 작용하기 때문에 중요합니다. 직교 행렬의 고유 벡터는 또한 직교 고유 벡터가 있는 행렬의 패밀리로 도입되었습니다.

  • 00:25:00 이 섹션에서 발표자는 직교 고유 벡터가 있는 다양한 행렬 계열에 대해 설명합니다. 대칭 행렬에는 직교 고유 벡터와 실수 고유값이 있는 반면 대각 행렬에는 항등 행렬로 들어가는 고유 벡터가 있습니다. 직교 행렬은 크기가 1인 고유값을 가지며 순열 행렬의 고유 벡터는 직교입니다. 반대칭 행렬은 복소수일 수 밖에 없는 고유값을 가지므로 실제 고유값을 가질 수 없습니다.

  • 00:30:00 이 섹션에서 발표자는 직교 고유 벡터가 있는 행렬과 이들이 일반 행렬과 어떻게 관련되는지에 대해 이야기합니다. 직교 고유 벡터가 있는 행렬은 복소 고유값을 가지며 화자는 모든 고유값을 포함하는 대각선 행렬을 작성합니다. 그런 다음 그는 실제로 매우 드문 일반 행렬을 인식하는 방법을 보여주는 행렬 방정식을 설정합니다. 이를 인식하려면 행렬이 켤레 전치와 같은지 여부를 테스트해야 합니다.

  • 00:35:00 이 섹션에서 발표자는 순환 행렬, 특히 푸리에 행렬의 고유 벡터에 대해 설명합니다. 순열 P는 직교이므로 고유 벡터는 직교이지만 이러한 순환 행렬도 이동하여 정규 행렬이 됩니다. 이것은 우리가 P의 고유 벡터를 찾으면 모든 순환 행렬의 고유 벡터를 찾은 것이며 푸리에에 연결되어 있기 때문에 모두 특별하다는 것을 의미합니다. 고유 벡터는 1, -1, i 및 -i인 람다를 포함하여 다양한 고유값에 대해 발견됩니다.

  • 00:40:00 이 섹션에서 발표자는 순환 행렬의 고유 벡터에 대해 논의하고 모든 고유 벡터가 고유값이기도 한 동일한 8개 숫자 집합으로 구성된다는 점을 강조합니다. 크기가 n인 모든 순환행렬에 대한 고유벡터행렬은 푸리에행렬로서 빠른 푸리에변환을 가능하게 하는 중요한 복소수행렬이다. 행렬의 모든 항목은 8개 점 중 하나에 있는 단위원의 복소수 W의 거듭제곱입니다. 첫 번째 고유 벡터는 모두 1이고 나머지는 W의 거듭제곱이므로 행렬의 크기는 8x8입니다. 전반적으로 순환 행렬은 공통 고유 벡터 행렬 덕분에 유사한 속성을 갖습니다.

  • 00:45:00 비디오의 이 섹션에서 화자는 1의 8제곱근인 고유 벡터로 구성된 순환 행렬인 푸리에 행렬의 속성을 설명합니다. 행렬의 열은 직교이지만 정규 직교는 아니므로 정규 직교로 만들려면 8의 제곱근으로 나누어야 합니다. 행렬은 일반 행렬이며 순환 행렬의 대칭성으로 인해 고유 벡터의 합이 0이 되어 서로 직교합니다. 화자는 고유 벡터의 합이 0이 되어 직교가 되는 3x3 행렬을 사용하여 이 속성을 시연합니다.

  • 00:50:00 이 섹션에서 발표자는 아르간 벡터가 푸리에 매트릭스의 고유 벡터인 방법에 대해 설명합니다. 그는 Argan 벡터 구성 요소의 내적을 더하면 결과가 1이 되는 방법을 보여줍니다. 그런 다음 Argan 벡터에 e를 (2π/3)의 거듭제곱으로 곱하면 결과 벡터 구성 요소의 합계는 다음과 같습니다. 0. 이러한 데모는 순환 행렬의 고유 벡터가 직교라는 개념을 보여줍니다. 연사는 다음 강의에서 푸리에 행렬에 대한 주제를 계속 논의할 것이며 1806년 수업이 1주일 반밖에 남지 않았다는 점을 언급하며 결론을 내립니다.
 

강의 32: ImageNet은 Convolutional Neural Network(CNN), The Convolution Rule



강의 32: ImageNet은 Convolutional Neural Network(CNN), The Convolution Rule

딥 러닝 과정의 강의 32에서는 컨볼루션 계층, 일반 계층 및 최대 풀링 계층을 특징으로 하는 대규모 심층 CNN이 우승한 ImageNet 경쟁의 예와 함께 이미지 분류에서 CNN(컨볼루션 신경망)의 힘에 대해 논의합니다. 또한 곱셈과 컨볼루션을 연결하는 컨볼루션 규칙, 2차원 컨볼루션의 예, 2차원 푸리에 변환 및 신호 처리에서 크로네커 곱의 사용, 주기와 비주기의 차이점에 대해 강의합니다. 컨볼루션과 관련된 경우. 강사는 또한 순환 행렬의 고유 벡터 및 고유 값과 Kronecker 합 연산에 대해 설명합니다.

  • 00:00:00 비디오의 이 섹션에서는 딥 러닝 및 이미지 분류와 관련하여 CNN(컨볼루션 신경망)의 중요성에 대해 설명합니다. ImageNet에서 120만 개의 고해상도 이미지를 분류하기 위해 대형 심층 CNN을 훈련시킨 Hinton과 Skipper의 논문이 언급됩니다. 이 대회는 2위 팀의 26%에 비해 상위 5개 테스트 오류율 15%로 승리했습니다. CNN에는 컨볼루션 레이어, 일반 레이어 및 최대 풀링 레이어가 있으며 샘플의 절반은 하나의 GPU에서 나머지 절반은 다른 GPU에서 사용됩니다. 과적합을 줄이기 위해 완전 연결 레이어에서도 드롭아웃이 사용되었습니다. 이것은 이미지 분류의 엄청난 계산 문제를 처리하는 CNN의 힘을 보여줍니다.

  • 00:05:00 비디오의 이 섹션에서 연사는 컨볼루션 신경망(CNN)의 필수 요소인 컨볼루션 규칙에 대해 설명합니다. 그는 다항식의 곱셈에서 컨볼루션이 발생하고 컨볼루션의 콘텐츠 C*D에 있는 계수에 대한 공식이 어떻게 컨볼루션이 작동하는지 보기 위해 다른 방식으로 작성될 수 있다고 설명합니다. 그런 다음 그는 계속해서 두 함수의 컨볼루션에 대한 예를 제공하고 이 개념이 CNN에서 두 벡터의 컨볼루션과 관련이 있다고 설명합니다. 컨볼루션을 이해하는 것은 6천만 개의 매개변수를 가지고 있고 이미지 인식 작업에 사용되는 일종의 신경망인 CNN의 내부 동작을 이해하는 데 중요합니다.

  • 00:10:00 이 섹션에서 강사는 함수에 대한 컨볼루션 규칙과 두 함수의 푸리에 변환에 연결하는 방법을 설명합니다. 그는 F가 2파이 주기적이고 G가 2파이 주기적이면 주기적 컨벌루션을 수행하고 주기가 2파이인 답을 얻을 수 있다고 언급합니다. 그는 회선 순환을 만드는 것이 곱셈에 어떤 영향을 미치고 순환 X에 대해 X 대신 W가 사용되는지에 대해 이야기합니다.

  • 00:15:00 비디오의 이 섹션에서 강사는 회선과 관련하여 주기적인 경우와 비주기적인 경우의 차이점에 대해 설명합니다. 주기적인 경우에서 인수 W는 W에서 N까지가 1이라는 속성을 갖도록 정의되며 n보다 큰 벡터는 길이 n의 벡터로 다시 접힐 수 있습니다. 순환 사례는 K가 0에서 n-1로 가는 것만 고려하고 합은 0에서 n-1로 가는 것만 고려합니다. 비주기적인 경우 컨볼루션은 P 더하기 Q 빼기 1 구성 요소를 가지며 이 숫자는 첫 번째 랩에서 계산됩니다.

  • 00:20:00 이 섹션에서 강사는 순환 행렬, 특히 순열 행렬의 고유 벡터와 고유 값에 대해 설명합니다. 고유 벡터는 "F"로 표시되는 고유 벡터 행렬의 열이며 F와 C의 곱셈에서 파생 된 4 개의 고유 값이 있습니다. 강사는이 공식을 설명하면서 C가 P의 조합이면 고유 벡터의 동일한 조합은 행렬 C의 고유 값을 제공합니다.

  • 00:25:00 이 섹션에서 강사는 곱셈과 컨볼루션을 연결하는 컨볼루션 규칙에 대해 설명합니다. 컨볼루션 규칙은 행렬의 곱셈과 행렬의 컨벌루션을 연결합니다. 순환 컨벌루션을 통해 강사가 행렬 C와 행렬 D를 곱하면 또 다른 순환 행렬을 얻게 됩니다. 컨벌루션된 C 및 D의 계수는 C 곱하기 D 행렬의 대각선 계수를 나타냅니다. 강사는 C와 D가 통근하고 동일한 고유 벡터를 갖기 때문에 CD의 고유값은 C의 고유값과 D의 고유값을 곱한 것과 같다고 결론을 내립니다. 고유값은 구성 요소별로 구성 요소를 곱하여 컨볼루션 규칙에 대한 관계를 제공합니다.

  • 00:30:00 비디오의 이 섹션에서 강사는 이미지를 컨볼루션하고 푸리에 변환(FT)을 적용하거나 FT를 이미지를 분리한 다음 점으로 곱할 수 있다는 컨볼루션 규칙에 대해 설명합니다. -지혜로운. 이 규칙은 매우 효율적인 고속 푸리에 변환(FFT)을 허용하기 때문에 유용합니다. 그런 다음 강사는 각 방법의 비용을 고려합니다. 컨볼루션 방법에는 N^2 단계가 필요한 반면 별도의 변환 방법에는 2NlogN 단계만 필요합니다.

  • 00:35:00 이 섹션에서 발표자는 2차원 컨볼루션과 2차원에서 두 함수를 컨볼루션하기 위해 수행해야 하는 작업에 대해 설명합니다. MATLAB에서 이 작업을 수행하는 데 필요한 명령이 "cron"인 방법과 두 개의 1차원 행렬 A와 B를 곱하여 N 제곱 픽셀이 있는 2차원 행렬을 만드는 데 이 명령을 사용할 수 있는 방법에 대해 설명합니다. 암호화에서 두 개의 긴 정수를 곱하려는 경우 컨볼루션 규칙을 사용하는 것이 더 빠르고 효율적인 방법이 될 수 있다는 생각입니다.

  • 00:40:00 이 섹션에서는 크로네커 제품을 사용하여 2차원 푸리에 변환을 위한 큰 행렬을 생성하는 방법에 대해 설명합니다. Kronecker 곱은 1차원 N x n 행렬을 사용하여 N 제곱 N 제곱 행렬을 생성하는 연산입니다. Kronecker 곱을 사용하여 두 행렬을 적절하게 곱하면 2차원 푸리에 변환을 위한 큰 행렬을 만들 수 있습니다. 미분 방정식에서 일반적으로 사용되는 Laplacian도 논의되며, 여기서 각 점에 대해 5개의 가중치가 있는 5점 체계를 취하는 2차원 행렬은 Kronecker 곱을 사용하여 생성할 수 있습니다.

  • 00:45:00 이 섹션에서는 연사가 Kronecker 제품과 신호 처리에 사용하는 방법에 대해 설명합니다. 그는 Kronecker 제품을 사용하여 데이터에 2차원 효과를 추가한 다음 수직 도함수를 추가하려고 한다고 설명합니다. 이를 함께 Kronecker 합이라고 하며 신호 처리에서 중요한 작업입니다. 그는 또한 학생들이 배운 내용을 토론하고 청중으로부터 피드백을 받을 수 있는 프로젝트에 자원 봉사하고 싶다면 그에게 이메일을 보내도록 권장합니다.
 

강의 33. 신경망과 학습 기능



33. 신경망과 학습 기능

이 비디오에서 화자는 기울기 하강법 또는 확률적 기울기 하강법으로 최적화되고 손실을 최소화하기 위해 훈련 데이터에 적용되는 신경망에 대한 학습 함수 f의 구성에 대해 논의합니다. 그는 교차 엔트로피 손실을 포함하여 기계 학습에 사용되는 다양한 손실 함수뿐만 아니라 신경망의 개념과 학습 기능을 설명하기 위해 손으로 그린 그림을 사용하는 방법을 설명합니다. 발표자는 또한 핵 자기 공명을 사용하여 분자의 모양을 결정하는 것과 같은 다양한 응용 분야에서 고전적인 문제인 거리가 주어진 점의 위치를 찾는 문제에 대해 이야기합니다. 그는 신경망의 구조를 얻는 마지막 단계인 X의 구성에 대해 논의하면서 결론을 내리고 금요일에 프로젝트를 논의할 자원 봉사자 모집에 대해 언급합니다.

  • 00:00:00 이 섹션에서 화자는 경사 하강법 또는 확률적 경사 하강법에 의해 최적화되고 손실을 최소화하기 위해 훈련 데이터에 적용되는 신경망에 대한 학습 함수 f의 구성에 대해 논의합니다. 학습 함수는 X와 V라는 두 변수 집합의 함수입니다. 여기서 X는 가중치이고 V는 훈련 데이터의 특징 벡터입니다. 신경망의 구조에는 일련의 가중치 및 샘플 벡터의 f를 취하여 비선형 단계를 생성하고 원하는 출력에 도달할 때까지 프로세스를 반복하는 작업이 포함됩니다. 선형 단계는 입력 V0에 행렬 AK를 곱하고 바이어스 벡터 BK를 추가하여 원점을 이동하는 것을 포함합니다.

  • 00:05:00 이 섹션에서 발표자는 일련의 입력을 취하고 가중치를 적용하고(6장에서 경사 하강법을 사용하여 선택됨) 비선형 단계를 수행하여 새로운 출력을 생성함으로써 신경망이 작동하는 방식에 대해 설명합니다. 이 프로세스는 입력에 대한 신경망의 예측인 최종 출력까지 많은 레이어를 통해 반복됩니다. 가중치의 수는 종종 입력의 기능 수를 크게 초과하여 미달 결정 상황을 만들 수 있습니다.

  • 00:10:00 이 섹션에서는 화자가 신경망의 개념과 학습 기능을 설명하기 위해 손으로 그린 그림을 사용하는 방법을 설명합니다. 그는 v1을 곱한 훈련 샘플 구성 요소가 있는 그림을 그립니다. 이는 첫 번째 레이어에서 다른 수의 뉴런을 가질 수 있는 첫 번째 레이어이며 각각은 eze by에서 나옵니다. 손실 함수는 모두 As와 B인 x2를 선택하여 최소화하려는 함수입니다. 손실 함수는 종종 모든 F에 대한 유한 합계이며 모든 I에 대해 계산할 수 있지만 확률적 기울기는 대신 하나 또는 소수를 선택하는 데 사용됩니다. 손실 함수는 샘플 I의 실제 결과를 뺀 것입니다. 이 값을 제곱하면 모든 샘플에 대해 제곱된 오차의 제곱합을 얻을 수 있습니다.

  • 00:15:00 이 섹션에서 연사는 기계 학습, 특히 신경망에서 사용되는 다양한 손실 함수에 대해 설명합니다. 손실 함수는 신경망의 예측이 실제 값과 얼마나 잘 일치하는지 측정합니다. 이 스피커는 제곱 손실, L1 손실, 힌지 손실 및 교차 엔트로피 손실을 포함하여 널리 사용되는 네 가지 손실 함수를 제공합니다. 교차 엔트로피 손실은 신경망에서 가장 중요하며 가장 일반적으로 사용되는 손실 함수입니다. 연사는 또한 거리 매트릭스와 그들 사이의 측정된 거리를 사용하여 공간에서 점의 위치를 결정하는 프로세스에 대해 간략하게 설명합니다.

  • 00:20:00 이 섹션에서 화자는 점 사이의 거리가 주어진 공간에서 위치를 찾는 것과 관련된 수학 문제를 소개합니다. 질문은 간단하고 다양한 분야에 적용됩니다. 이 섹션은 책에서 두 페이지만 차지하지만 솔루션은 상세하고 완전합니다. 연사는 또한 학생들이 프로젝트에 대해 질문하도록 권장하고 그에게 직접 이메일을 보낼 것을 제안합니다. 그는 또한 이 과정 이후에 어떤 과정을 수강해야 하는지에 대한 질문을 언급하고 학생들에게 이 분야에서 더 많은 과정을 수강할 계획이 있는지 묻습니다. 화자는 다른 학과에도 과정이 있다는 것을 인정하지만 6과목 목록만 찾았습니다.

  • 00:25:00 이 섹션에서 연사는 최적화, 데이터 분석, 통계 및 운영 연구를 포함하여 MIT 운영 연구 센터 및 해당 과정 제공에 대해 이야기합니다. 화자는 또한 World Wide Web의 창시자인 Tim Berners-Lee 경의 강의와 URL의 과도한 문자에 대한 그의 책임을 언급합니다. 그런 다음 화자는 거리 행렬과 주어진 거리에서 위치 행렬을 찾는 문제에 대해 논의합니다. 발표자는 센서 간 거리를 측정할 수 있는 무선 센서 네트워크와 유사한 원리를 사용하여 위치를 계산할 수 있는 GPS 시스템을 비롯한 여러 응용 분야에 대해 언급합니다.

  • 00:30:00 이 섹션에서 연사는 거리가 주어진 지점의 위치를 찾는 문제에 대해 논의합니다. 이는 깔끔한 솔루션이 있는 고전적인 문제입니다. 위치는 변환 및 회전을 겪을 수 있으므로 고유하지 않지만 화자는 중심을 원점에 배치하여 변환을 제거할 것을 제안합니다. 위치를 찾는 문제는 핵자기 공명을 이용해 분자의 모양을 결정하는 등 다양한 상황에 적용할 수 있다. 기계 학습은 또한 고차원 공간에서 저차원 표면을 찾는 것으로 설명할 수 있으며, 이는 주어진 점에 가장 잘 맞는 곡선 다양체를 찾는 것과 수학적으로 동일합니다. 이 프로세스에는 문제의 차원을 발견하고 이를 선형화하여 원래의 고차원 공간에서 문제의 실제 차원으로 차원을 축소하는 작업이 포함됩니다.

  • 00:35:00 이 섹션에서 발표자는 내적 행렬 G가 주어졌을 때 행렬 X를 찾는 방법을 설명합니다. 두 개의 순위 1 행렬(하나는 행에만 의존하고 다른 하나는 열에만 의존)을 분석하는 것으로 시작하여 설명합니다. 이러한 행렬은 내적 행렬의 중요한 부분을 대부분 생성합니다. 그런 다음 XI의 내적이 대각선에 있는 대각선 행렬을 도입하고 이 행렬이 주어진 D 행렬과 관련된다는 점에 주목합니다. 거기에서 그들은 내적 행렬에 대한 방정식을 유도하는 방법을 보여주고 일단 G가 있으면 X를 찾을 수 있다고 설명합니다. 그러나 X는 내적을 변경하지 않고 회전할 수 있기 때문에 고유하지 않으므로 다음 단계는 회전을 제외하는 방법을 알아내기 위해.

  • 00:40:00 이 섹션에서 화자는 신경망에서 항등 행렬과 X 전치 행렬의 외적을 찾는 데 사용할 수 있는 내적 행렬과 관련된 방정식에 대해 논의합니다. 내적 행렬은 대각선 D 행렬, 모든 행이 동일한 상수 행렬 및 모든 열이 동일한 상수 행렬의 조합입니다. 화자는 방정식을 단계별로 살펴보고 각 구성 요소를 분해하여 X 전치 X 행렬이 이러한 순위 1 위치와 이러한 외적에서 나온다는 것을 나타냅니다. 그런 다음 그들은 방정식에서 절반의 중요성을 탐구하지만 궁극적으로 올바른 결과를 얻는 데 필요하다는 결론을 내립니다.

  • 00:45:00 이 섹션에서 발표자는 행렬 언어로 주어진 방정식을 작성하는 방법과 궁극적으로 주어진 X 전치 X 행렬 X를 찾는 방법에 대해 논의합니다. 그들은 솔루션을 찾기 위해 선형 대수학을 사용하고 X를 찾을 수 있음에 주목합니다. 직교 변환으로. 논의된 두 가지 주요 방법은 고유값을 사용하거나 X 전치 X에서 제거를 사용하는 것입니다. 발표자는 신경망 및 기계 학습 분야에서 이러한 방법의 중요성을 강조합니다.

  • 00:50:00 이 섹션에서 화자는 대칭 및 양의 준정부호인 X의 구조와 X를 찾는 두 가지 방법에 대해 논의합니다. 첫 번째 접근 방식은 고유값 구성으로, X 전치 X의 고유값과 고유벡터를 계산한 다음 고유값의 제곱근을 취하면서 고유벡터를 유지합니다. 두 번째 접근 방식은 촐레스키 분해(Cholesky Factorization)로, 양의 정부호 대칭 행렬에서 소거를 수행한 다음 결과로 생성되는 하부 삼각 행렬 L과 대각 행렬 D를 사용하여 L 제곱근 DL 전치의 곱으로 X를 계산합니다. 촐레스키 분해는 고유값 구성보다 빠르고 계산하기 쉽기 때문에 보다 실용적인 옵션입니다.

  • 00:55:00 이 섹션에서 화자는 가중치에서 샘플 벡터를 분리하여 신경망의 구조를 얻는 마지막 단계인 거리 행렬에 대한 논의를 마무리합니다. 화자는 또한 선형 대수학의 두 가지 부분인 삼각형 형태로 축소하거나 대칭 행렬과 연결하는 것을 찾는 것을 언급합니다. 마지막으로 연사는 금요일에 프로젝트를 논의하기 위해 자원 봉사자를 요청한다고 언급합니다.
 

강의 34. 거리 행렬, 프로크루스테스 문제



34. 거리 행렬, 프로크루스테스 문제

연사는 한 벡터 세트를 다른 벡터 세트에 가능한 한 가깝게 취하는 최상의 직교 변환을 찾는 것과 관련된 프로크루스테스 문제에 대해 논의합니다. 그들은 거리 행렬의 Frobenius 표준과 Procrustes 문제와의 연결을 계산하기 위한 다양한 표현을 설명합니다. 화자는 또한 행렬의 추적 개념을 소개하고 프로크루스테스 문제에서 올바른 Q를 찾습니다. 또한 딥 러닝이 실제로 작동하는지 여부에 대한 질문을 다루고 두 행렬의 내적의 SVD를 계산하고 SVD의 직교 행렬을 사용하는 것과 관련된 최상의 직교 행렬을 찾는 것과 관련된 행렬 문제에 대한 솔루션을 제시합니다.

  • 00:00:00 이 섹션에서 발표자는 주어진 거리 행렬을 만족하는 점을 찾는 것과 삼각형 부등식의 실패를 해결하는 방법에 대한 이전 토론에서 제기된 질문을 다룹니다. 화자는 거리 행렬에서 직접 오는 내적 행렬은 양의 준정부호이지만 삼각형 부등식이 실패하면 내적 행렬은 양의 정부호가 나오지 않는다고 설명합니다. 삼각형 부등식은 차원에 관계없이 여전히 유지되므로 이 문제는 차원을 변경하여 해결할 수 없습니다.

  • 00:05:00 이 섹션에서 강사는 무언가를 다른 것에 맞추는 것과 관련된 프로크루스테스 문제에 대해 이야기합니다. 문제의 이름은 일정 길이의 침대가 있고 침대에 맞게 방문자의 길이를 조정한 프로크루스테스에 대한 그리스 신화에서 따온 것입니다. 문제는 두 세트의 데이터를 함께 맞추는 방법을 찾는 것과 관련이 있으며 강사는 거리 행렬의 숫자로 삼각형 부등식이 충족되면 방정식에서 나오는 행렬은 양의 준정부호라고 설명합니다. 그러나 삼각형 부등식을 위반하면 행렬은 양의 준정부호가 아니고 음의 고유값을 가지므로 점을 찾을 수 없습니다. 강사는 또한 딥 러닝이 실제로 작동하는지 여부에 대한 큰 질문을 암시하며 나중에 다룰 것입니다.

  • 00:10:00 이 섹션에서는 한 벡터 집합을 다른 벡터 집합에 최대한 가깝게 취하는 최상의 직교 변환을 찾는 것과 관련된 Procrustes 문제에 대해 설명합니다. 두 벡터 집합이 모두 직교 기저인 경우 직교 행렬 Q를 사용하여 하나를 다른 벡터로 가져가는 것이 쉽지만 항상 그런 것은 아닙니다. 따라서 문제는 Frobenius norm squared에서 모든 직교 행렬 Q를 최소화하고 행렬을 긴 벡터처럼 취급하는 것입니다. 이를 수행하는 한 가지 방법은 전치 a를 보고 추적한 다음 모든 제곱의 합을 찾아 행렬의 Frobenius 노름을 얻는 것입니다.

  • 00:15:00 이 섹션에서 강사는 거리 행렬의 Frobenius 노름을 계산하는 다양한 표현에 대해 설명합니다. 그들은 Frobenius 노름 제곱이 모든 특이값의 제곱합으로 표현될 수 있음을 보여줍니다. 행렬과 그 전치 곱의 궤적 또는 행렬과 행렬 자체의 전치 곱의 궤적 . 그런 다음 이러한 표현식이 서로 어떻게 연결되는지 설명하고 이 문제를 해결하려면 행렬의 모든 열에 Q를 곱해도 Frobenius 노름이 변경되지 않고 행렬에 Q를 곱해도 변하지 않는다는 사실과 같은 다양한 중요한 사실이 필요하다고 언급합니다. t는 특이값에 영향을 미칩니다.

  • 00:20:00 이 섹션에서 화자는 Frobenius 표준의 속성에 대해 논의합니다. 여기에는 직교 요소를 곱하거나 다른 쪽에 같거나 다른 요소를 곱해도 변경되지 않는다는 사실이 포함됩니다. 발표자는 또한 행렬의 궤적 개념을 소개하면서 행렬의 순서가 뒤바뀌어도 궤적은 변하지 않는다는 사실을 강조합니다. 그런 다음 화자는 Procrustes 문제에서 올바른 Q를 얻는 단계를 설명합니다.

  • 00:25:00 이 섹션에서 연사는 딥 러닝이 실제로 작동하는지 여부에 대한 질문에 대해 논의하고 이것이 해결해야 할 중요한 질문임을 제안합니다. 그들은 딥 러닝과 신경망에 대해 많은 홍보와 과대 광고가 있었지만 여러 계층을 사용하더라도 네트워크 구조가 자동으로 성공할 수는 없다고 언급합니다. 그런 다음 스피커는 두 행렬의 내적의 SVD를 계산하고 SVD의 직교 행렬을 사용하는 것과 관련된 최상의 직교 행렬 찾기와 관련된 행렬 문제에 대한 솔루션을 제시합니다.
 

강의 35. 그래프에서 클러스터 찾기



35. 그래프에서 클러스터 찾기

이 동영상에서는 그래프의 클러스터링과 K-평균 및 스펙트럼 클러스터링과 같은 다양한 알고리즘을 사용하여 클러스터를 찾는 방법에 대해 설명합니다. Laplacian 행렬은 스펙트럼 클러스터링에 사용되며 고유 벡터를 통해 그래프의 클러스터에 대한 정보를 제공할 수 있습니다. 가장 작은 양의 고유값에 대한 고유벡터인 Fiedler 고유벡터는 클러스터링에 중요합니다. 화자는 또한 서로 다른 클러스터를 식별하는 데 직교하는 고유 벡터의 중요성을 강조합니다. 또한 선형 대수학에서 Julia를 사용한 역전파를 다룰 다음 강의에 대한 간략한 미리 보기가 있습니다. 학생들은 온라인 또는 강사 사무실 외부에서 프로젝트를 제출하도록 권장됩니다.

  • 00:00:00 이 섹션에서 발표자는 큰 그래프를 더 작고 관리하기 쉬운 클러스터로 세분화하는 프로세스인 그래프의 클러스터링에 대해 설명합니다. 문제는 합리적으로 크기가 같은 두 군집을 찾는 것이며 이를 위해서는 중심점 X와 Y의 위치를 결정하는 알고리즘을 사용해야 합니다. 목표는 중심점과 중심점 사이의 거리의 합을 최소화하는 것입니다. 각 클러스터의 노드 수가 합리적으로 가까운지 확인하면서 그래프의 노드. 그래프와 관련된 행렬을 사용하는 알고리즘을 포함하여 이를 달성하는 데 사용할 수 있는 몇 가지 알고리즘이 있습니다.

  • 00:05:00 이 섹션에서 발표자는 점 집합(일부는 A로 레이블이 지정되고 다른 일부는 B로 레이블이 지정됨)을 클러스터 또는 그룹으로 나누는 K-평균 클러스터링 알고리즘에 대해 설명합니다. 알고리즘은 A 그룹과 B 그룹의 중간 지점인 중심을 식별하는 것으로 시작한 다음 이러한 중심을 기반으로 최상의 군집을 형성하려고 시도합니다. 이 프로세스는 알고리즘이 데이터에 대해 가능한 최상의 클러스터에 수렴될 때까지 반복됩니다. 화자는 또한 그룹의 모든 점과 중심 사이의 거리의 합을 최소화하는 점인 중심의 개념을 소개합니다.

  • 00:10:00 이 섹션에서 강사는 그래프에서 클러스터를 찾는 문제를 해결하는 두 가지 방법에 대해 설명합니다. 첫 번째 방법은 K-평균(K-means)이라고 하며, 각 점에 대해 가장 가까운 군집 중심을 찾아 각 군집에 점을 재할당하고 수렴될 때까지 프로세스를 반복합니다. 두 번째 방법은 스펙트럼 클러스터링이라고 하며 행렬의 고유값을 사용하여 유사한 점을 함께 그룹화합니다. "스펙트럼"이라는 용어는 행렬의 고유값과 선형 대수학의 스펙트럼 정리를 나타냅니다. 강사는 스펙트럼 정리가 대칭행렬에 적용되며 고유값은 실수이고 고유벡터는 직교임을 강조합니다.

  • 00:15:00 이 섹션에서 발표자는 선형 대수와 그래프 이론 사이의 핵심 연결 고리인 그래프 라플라시안 행렬에 대해 논의합니다. 그들은 이 행렬을 대칭 양의 준정부호 행렬로 설명하고 모든 그래프와 관련된 4개의 행렬이 있습니다: 입사 행렬, 차수 행렬, 인접 행렬 및 라플라시안 행렬입니다. 화자는 이러한 각 행렬을 설명하기 위해 간단한 그래프를 사용하여 예를 수행합니다. Laplacian 행렬은 스펙트럼 클러스터링에 사용되며 스펙트럼 정리로 알려진 고유값의 다중성과 함께 이동하는 직교 고유 벡터를 가질 수 있습니다.

  • 00:20:00 이 섹션에서 발표자는 Laplacian 행렬을 사용하여 주어진 그래프에서 클러스터를 찾아 그래프 클러스터링의 개념을 설명합니다. 라플라시안 행렬은 각도 행렬에서 입사 행렬을 빼서 구합니다. 결과 행렬은 양의 준정부호이며 고유 벡터는 그래프의 클러스터에 대한 정보를 제공합니다. 첫 번째 고유값은 항상 0이고 다음 고유값은 클러스터링에 중요합니다. 화자는 가장 작은 양의 고유값에 대한 고유벡터인 Fiedler 벡터의 중요성을 강조하고 그래프 클러스터링에서 그 중요성을 설명합니다.

  • 00:25:00 이 섹션에서 화자는 그래프에서 클러스터를 찾을 때 Laplacian 행렬에 이름이 지정되는 이유를 설명합니다. Laplacian 행렬은 4차 대각선을 가지며 고유 벡터를 통해 클러스터를 찾을 수 있습니다. 특히, Fiedler 고유 벡터는 그래프를 두 개의 클러스터로 분할하는 양수 및 음수 성분을 결정할 수 있습니다. 이 접근 방식은 그래프 Laplacian을 사용하여 어떤 노드가 어떤 클러스터에 속하는지 결정하는 방법을 제공합니다.

  • 00:30:00 이 섹션에서 발표자는 그래프의 클러스터링과 k-평균 및 스펙트럼 클러스터링과 같은 다양한 알고리즘을 사용하여 클러스터를 찾는 방법에 대해 설명합니다. 그는 대칭행렬의 고유벡터는 직교하며, 이는 서로 다른 클러스터를 식별하는 데 사용할 수 있는 0이 된다는 것을 의미합니다. 그는 또한 동일한 문제에 대해 제안된 다른 알고리즘이 있다고 언급하고 선형 대수학에서 Julia를 사용한 역전파를 다룰 다음 강의에 대한 간략한 미리 보기를 제공합니다. 연사는 학생들이 온라인이나 사무실 밖에서 프로젝트를 제출하도록 권장합니다.