머신 러닝 및 신경망 - 페이지 4

 

강의 6 - 일반화 이론




Caltech의 기계 학습 과정 - CS 156. 강의 06 - 일반화 이론

강의는 전체 성장 함수를 특성화하고 중단을 특성화하여 모든 N에 대해 일반화하는 것을 목표로 N 포인트 세트에 설정된 가설에 의해 생성될 수 있는 이분법의 수로서 일반화 이론 및 성장 함수에 대해 논의합니다. 가리키다. 화자는 서로 다른 가설 집합에 대한 성장 함수를 계산하고 조합 항등식을 사용하여 성장 함수의 상한을 증명하는 과정을 보여줍니다. 토론은 또한 가설과 Vapnik-Chervonenkis 부등식 사이의 중첩을 특징짓는 Hoeffding 부등식의 성장 함수 사용에 대해 다룹니다. Vapnik-Chervonenkis 부등식은 중단점에 의해 결정된 다항식의 순서를 갖는 N의 다항식입니다.

교수는 일반화 이론에 대해 논의하고 이전 요점을 명확히 하고 학습에 필요한 리소스를 계산하는 데 사용되는 중단점의 개념을 설명합니다. 학습의 초점은 E_in이 아닌 E_out에 대한 근사에 있으므로 학습자가 친숙한 양으로 작업할 수 있습니다. 교수는 또한 M을 성장 함수로 대체한 이유와 이것이 N과 k의 조합 수량 B와 어떻게 관련되는지 설명합니다. 회귀 함수에 대해 논의하는 동안 교수는 바이어스-분산 트레이드 오프와 학습 가능성이 목표 함수와 어떻게 독립적인지를 강조합니다. 마지막으로 교수는 동일한 원칙이 모든 유형의 기능에 적용된다고 지적합니다.

  • 00:00:00 이 섹션에서는 유한한 점 집합과 성장 함수로 제한되는 미니 가설로서의 이분법에 대해 배웁니다. 성장 함수는 N개의 점 집합에 설정된 가설에 의해 생성될 수 있는 이분법의 수를 계산합니다. 퍼셉트론의 중단점은 제한된 세트의 가설을 사용하여 패턴이 누락되기 시작하는 지점으로 정의됩니다. 이론적 목표는 전체 성장 함수를 특성화하고 중단점을 특성화하여 모든 N에 대해 일반화하는 것입니다. 또한 가설 세트 및 입력 공간과 관계없이 몇 개의 포인트에 대한 패턴 수에 대한 제한으로 인해 많은 수의 포인트에 대한 많은 패턴이 손실됨을 알 수 있습니다.

  • 00:05:00 이 섹션에서 강사는 두 가지 항목에 대해 논의합니다. 첫 번째는 성장 함수가 중단점이 있는 다항식임을 보여주는 것이고 두 번째는 Hoeffding의 부등식에서 가설의 수인 M을 대체하는 것을 보여줍니다. 강사는 성장 함수의 세부 사항을 결정할 필요가 없으며 Hoeffding 부등식에서 사용할 수 있도록 다항식으로 제한된다는 것을 보여주기만 하면 된다고 강조합니다. 강사는 N과 k의 B라는 핵심 수량을 소개합니다. 이는 중단점 k가 있는 N 지점에서 이분법의 최대 수를 나타내는 조합 수량입니다. N의 B, k에 대한 경계는 테이블을 N 포인트로 채우고 재귀를 도입하기 위해 마지막 포인트를 분리하여 재귀적으로 찾습니다.

  • 00:10:00 이 섹션에서 발표자는 이진 시퀀스의 확장을 나타내는 행렬의 행을 그룹화하는 방법에 대해 설명합니다. 첫 번째 그룹인 S_1은 확장자를 기준으로 한 번만 나타나는 행으로 구성됩니다. 두 번째 그룹인 S_2는 두 확장자가 모두 표시되는 행으로 구성됩니다. 화자는 이러한 그룹화를 사용하여 그룹 S_1의 행 수를 알파로 정의하고 그룹 S_2의 행 수를 베타로 정의합니다. 이러한 정의를 통해 화자는 k 열이 모든 가능한 패턴을 가지지 않도록 N 포인트에서 얻을 수 있는 행/패턴의 최대 수에 대한 재귀를 찾을 수 있습니다.

  • 00:15:00 강의의 이 섹션에서 연사는 일반화 이론과 베타 추정 방법에 대해 논의합니다. 그는 반복되는 패턴 블록이 포함된 S_2 행렬의 두 번째 부분을 분석하여 이러한 패턴 블록의 중단점이 k가 아닌 k 빼기 1임을 주장할 수 있다고 설명합니다. 그는 또한 미니 행렬의 총 행 또는 패턴 수인 알파 더하기 베타를 취함으로써 이 작은 행렬의 중단점에 대해 말할 수 있다고 설명합니다. 그는 모든 것을 합치면 전체 행렬과 행 수를 추정할 수 있다고 말하면서 끝맺습니다.

  • 00:20:00 이 섹션에서 화자는 행렬을 분석하고 재귀 공식을 도출하여 N과 k의 B에 대한 상한을 해결합니다. 여기서 B of N과 k는 중단으로 설정된 가설의 최대 성장 함수입니다. k의 점. 재귀 공식을 사용하여 N과 k의 B 값을 계산함으로써 화자는 N과 k의 B에 대한 상한으로 테이블을 채웁니다. 테이블의 경계 조건이 먼저 채워진 다음 재귀 수식을 사용하여 테이블의 나머지 부분이 채워집니다.

  • 00:25:00 이 섹션에서 화자는 일반화 이론에 대해 논의하고 특정 수의 점 N과 중단점 k가 주어진 이분법 또는 패턴의 최대 수를 나타내는 테이블에 대해 이야기합니다. 발표자는 테이블이 채워지는 방법과 제약 조건이 비어 있을 수 있는 방법을 설명합니다. 또한 가설 집합이나 입력 공간에 대해 전혀 질문하지 않고 중단점 k가 있는 가설 집합의 성장 함수에 대한 상한이 될 이분법 또는 패턴의 최대 수를 계산하는 공식을 제시합니다.

  • 00:30:00 이 섹션에서 강사는 N과 k의 공식에 대한 정리를 증명하기 위한 유도 단계에 대해 논의합니다. 이 단계에는 공식이 주어진 N 및 k 값에 대해 성립한다고 가정한 다음 N-1 및 k-1에 대해서도 성립함을 증명하는 것이 포함됩니다. 강사는 대수 또는 조합 인수를 사용하여 두 공식을 조작하고 합계를 병합하고 단일 수량으로 줄이는 과정을 보여줍니다. 목표는 주어진 공식이 이전에 가정한 값을 포함하는 N 및 k의 모든 값에 대해 유지되고 거기에서 정리가 입증된다는 것을 확립하는 것입니다.

  • 00:35:00 이 섹션에서 화자는 중단점 k를 갖는 가설 집합에 대한 성장 함수인 N과 k의 B에 대한 상한을 조합 항등식을 사용하여 증명하는 과정을 설명합니다. 중단점이 고정된 숫자이고 N에 따라 증가하지 않기 때문에 결과 다항식은 유용합니다. 그런 다음 화자는 최대 전력이 N에서 k 빼기 1임을 보여줌으로써 상한이 N에서 다항식임을 설명합니다. 끊임없는. 마지막으로, 화자는 가설 세트의 세 가지 예에 상한을 적용하고 모두 상한을 충족함을 보여줍니다.

  • 00:40:00 이 섹션에서 강사는 양의 광선 및 양의 간격에 대한 성장 함수 계산에 대해 논의합니다. 필요한 유일한 입력인 중단점을 활용하여 가설 세트의 기하학을 고려하지 않고 성장 함수를 찾을 수 있습니다. 그런 다음 강사는 이 방법을 성장 함수를 알 수 없지만 중단점이 4인 것으로 알려진 2차원 퍼셉트론에 적용합니다. 중단점을 사용하여 성장 함수를 완전히 묶을 수 있는데 이것이 중요합니다. 가설 세트의 특성화를 단순화합니다. 그런 다음 강사는 이 성장 함수가 Hoeffding 부등식에서 M이 중요하거나 무한할 때 거의 쓸모가 없는 Union bound를 사용하는 가설의 수를 대체하는 데 사용될 수 있는 방법을 설명합니다.

  • 00:45:00 이 섹션에서 강사는 성장 함수의 다항식 경계의 그림 증명을 설명합니다. 가능한 데이터 세트의 공간은 모든 축을 포함하고 색상 영역은 특정 데이터 세트로 인해 E_in이 E_out에서 벗어나는 불량 영역을 나타냅니다. 강사는 이 나쁜 영역을 빨간색으로 칠하고 Hoeffding 부등식을 사용하여 색칠된 영역이 작다는 것을 보여줌으로써 결합 결합이 여러 가설의 가능성을 주장할 수 있도록 합니다. 그러나 더 많은 가설이 추가되면 색이 칠해진 영역이 캔버스를 가득 채우고 Union bound 문제가 발생합니다. 그런 다음 강사는 성장 함수와 중첩 사이의 관계를 설정하는 데 필요한 두 가지 측면과 E_out이 유한 샘플 인수를 준수하기 위한 접근 방식을 설명합니다.

  • 00:50:00 이 섹션에서 강사는 가설 간의 중첩을 특성화하기 위해 새로운 캔버스로 바인딩된 VC를 소개합니다. 그는 성장 함수가 이러한 중첩을 특징짓는 추상적인 양이며 동일한 방식으로 작동하는 이분법의 수를 알려준다고 설명합니다. 강사는 성장 함수에 의해 중복성이 포착되고 색상이 지정되는 지점이 샘플뿐만 아니라 전체 공간에 따라 달라진다고 설명합니다. 강사는 전체 가설에 의존하지 않고 E_out 및 E_in을 추적하기 위해 동일한 분포에서 독립적으로 생성된 하나 대신 두 개의 샘플을 선택하여 이를 극복합니다.

  • 00:55:00 이 섹션에서 화자는 서로 다른 두 샘플인 E_in과 E_in dash 사이의 추적 개념과 서로 추적 여부에 대해 논의합니다. 여러 빈이 사용되면 E_out과 E_in 사이의 연결이 점점 더 느슨해집니다. 또한 저장소의 수가 증가함에 따라 느슨하게 분리됩니다. 다중 가설의 수학적 파급 효과는 여기에서 하나의 빈에 대해 동일한 방식으로 발생합니다. 화자가 증명의 기술을 진행함에 따라 엡실론은 2분의 엡실론이 된 다음 4분의 엡실론이 됩니다. 플러그를 꽂으면 16분의 엡실론의 제곱이 되어 1/8의 인수가 됩니다. 얻어진 결과는 Vapnik-Chervonenkis 부등식이라고 불리며, 이는 N에서 다항식이고 중단점에 의해 결정되는 다항식의 차수를 가집니다.

  • 01:00:00 비디오 강의의 이 섹션에서 진행자는 교수에게 이전 슬라이드에서 만든 몇 가지 요점을 명확히 하도록 요청합니다. 교수는 슬라이드 5에서 선택한 N 포인트가 기계 학습의 입력 공간에 있는 특정 포인트 집합에 해당하지만 추상화에서는 단순히 추상 레이블일 뿐이라고 설명합니다. 교수는 또한 강의에서 알파와 베타를 사용하는 것은 단지 명명 규칙일 뿐이며 둘의 상대적 가치에 대한 주장이 없음을 분명히 합니다. 마지막으로 교수는 입력 공간과 가설 집합을 방문하여 주어진 가설 집합에 대해 가능한 모든 방법으로 분리할 수 없는 최대 포인트 수를 찾아 중단점을 계산한다고 설명합니다.

  • 01:05:00 이 섹션에서 교수는 대부분의 학습 모델에 대해 정확한 또는 경계 중단점이 이미 설정되어 있으므로 학습 프로세스를 시작하기 전에 학습에 필요한 리소스를 추정할 수 있다고 설명합니다. 경계가 빡빡하지 않은 경우가 있을 수 있지만 대부분의 경우 성장 함수의 정확한 추정치와 2차 경계 사이의 불일치는 무시할 수 있습니다. 강의는 학습의 초점이 E_in의 실제 값이 아니라 E_out에 대한 근사치에 있으므로 학습자가 익숙한 양으로 작업할 수 있음을 강조합니다. 마지막으로 교수는 학습 이론을 이해하기 위한 구성 요소인 VC 차원에 대해 다음 강의에서 자세히 다룰 것임을 청중에게 확신시킵니다.

  • 01:10:00 이 섹션에서 교수는 M을 성장 함수로 대체한 이유와 진술의 기술적 요구 사항을 충족하기 위해 필요한 수정 사항을 설명합니다. 교수는 또한 B of N 및 k의 정의를 명확히 하고 중단점이 있는 가설 세트의 상한이 되는 방법과 순전히 조합 수량인 방법을 자세히 설명합니다. 그런 다음 교수는 N과 k의 B 증명에 관한 질문에 답하면서 더 작은 집합의 k 열이 모든 가능한 패턴을 가질 수 없기 때문에 x_N을 x_N-1로 줄일 때 k가 변경되지 않는다고 말했습니다. 마지막으로 교수는 분석 및 VC 분석이 실제 값 함수로 확장될 수 있지만 이진 함수에 적용할 수 있다고 언급합니다.

  • 01:15:00 이 섹션에서 교수는 회귀 함수를 논의할 때 학습 가능성에 대한 기술적 확장으로 들어가는 대신 편향-분산 절충이라는 다른 접근 방식을 사용하는 방법에 대해 논의합니다. 그는 또한 가설 세트에 대한 조건 하에서 학습 가능성이 입증되고 목표 기능과 무관하다는 점을 명확히 합니다. 그는 계속해서 일반화 질문은 목표 함수에 의존하지 않지만 사용자를 만족시키기 위해 E_in을 최소화할 수 있는지 여부에 대한 질문은 목표 함수에 의존한다고 설명합니다. 마지막으로 교수는 기능 유형에 관계없이 동일한 원칙이 적용된다고 말합니다.
Lecture 06 - Theory of Generalization
Lecture 06 - Theory of Generalization
  • 2012.04.21
  • www.youtube.com
Theory of Generalization - How an infinite model can learn from a finite sample. The most important theoretical result in machine learning. Lecture 6 of 18 o...
 

강의 07 - VC 차원




Caltech의 기계 학습 과정 - CS 156. 강의 07 - VC 차원

강의는 가설 설정에 의해 깨질 수 있는 최대 포인트 수인 VC 차원의 개념을 소개하고 실제 적용에 대해 설명합니다. VC 차원은 모델의 자유도를 나타내며 모델의 매개변수 수와의 관계에 대해 설명합니다. 서로 다른 가설 세트에 대한 VC 차원을 계산하는 방법을 보여주기 위한 예가 제공됩니다. 필요한 예제의 수와 VC 차원 사이의 관계를 탐색하고 둘 사이에 비례 관계가 있음을 알 수 있습니다. 학습 알고리즘의 성능에 대한 VC 차원 증가의 의미에 대해서도 설명합니다. 전반적으로 강의는 VC 이론에 대한 통찰력과 기계 학습에 대한 실질적인 의미를 제공합니다.

또한 비디오는 일반화의 개념과 기계 학습에서 가설 세트 크기와 좋은 일반화 사이의 균형을 보여주는 긍정적인 진술인 일반화 범위를 다룹니다. 교수는 첫 번째 중단점 이전의 가장 큰 값인 VC 차원과 이를 사용하여 필요한 예제 수를 대략적으로 계산하는 방법을 설명합니다. 그는 올바른 오류 측정을 선택하는 것의 중요성에 주목하고 VC 차원 추정치가 모델을 비교하고 필요한 예의 수를 추정하는 데 사용할 수 있는 느슨한 추정치임을 분명히 합니다. 강의는 이 자료와 실험 설계 주제 간의 공통점과 학습 원리가 엄격한 학습 시나리오를 넘어 다른 상황으로 확장되는 방법을 강조하면서 끝납니다.

  • 00:00:00 이 섹션에서 강사는 학습 이론에서 이전 강의의 주요 결과인 기계 학습에서 일반화를 특징짓는 VC(Vapnik-Chervonenkis) 부등식을 요약합니다. Hoeffding 부등식에서 VC 부등식으로 전환하는 데 필요한 중복성을 특징짓는 성장 함수가 도입되었고 영역이 겹치는 불량 이벤트와 관련되었습니다. E_out의 기술적인 문제는 해결되었고 성장 함수는 가설의 수 M을 대체하는 데 사용되었습니다. 그런 다음 중단점과 관련된 VC 차원이 정의되고 모든 차원 공간의 퍼셉트론에 대해 정확하게 계산됩니다. VC 차원의 해석과 실제 적용에 대해서도 설명합니다.

  • 00:05:00 이 섹션에서는 VC 차원의 개념을 가설 집합에 의해 파괴될 수 있는 최대 포인트 수로 소개합니다. VC 차원은 d_VC로 표시되며 성장 함수가 2의 N이 되도록 N의 가장 큰 값입니다. VC 차원은 모든 N 포인트가 산산조각날 수 있음을 보장하지 않고 단지 존재한다는 점에 유의해야 합니다. 산산조각이 날 수 있는 N 포인트. 이 섹션에서는 주어진 가설 세트에 대해 VC 차원을 계산하는 방법을 설명하기 위해 양성 광선 및 2D 퍼셉트론과 같은 예제를 제공합니다. VC 차원은 가설 집합의 성장 함수를 제한하는 데 사용되며 성장 함수를 제한하는 다항식의 차수 역할을 합니다.

  • 00:10:00 이 섹션에서는 볼록 집합의 VC 차원과 학습과의 관계에 중점을 둡니다. VC 차원은 가설 세트에 의해 부서질 수 있는 최대 포인트 수를 나타냅니다. VC 차원이 유한한 경우 사용된 입력 분포 또는 학습 알고리즘에 관계없이 최종 가설이 일반화됩니다. 대상 함수, 학습 알고리즘 및 입력 분포를 포함하는 학습 다이어그램은 VC 이론이 학습 알고리즘 및 대상 함수와 독립적이며 가설 집합에만 의존함을 보여줍니다. 전반적으로 VC 이론에는 가설, 가설 집합 및 VC 차원의 세 가지 블록이 있습니다.

  • 00:15:00 이 섹션에서는 전체 VC 이론이 다루는 가설 집합인 퍼셉트론의 VC 차원에 대해 배웁니다. . 2차원 공간에서 퍼셉트론의 VC 차원은 3이지만 간단한 공식에 따르면 d차원 공간에서 VC 차원은 d + 1입니다. 이것은 VC 차원의 중요성을 이해하는 데 중요하며 VC 차원이 최대 d + 1이고 최소 d + 1임을 보여줌으로써 이를 증명할 것입니다. 시연을 위해 산산조각이 가능한 한 산산조각이 날 행렬을 사용하여 특정 N 점 집합(N은 d + 1)을 구성합니다.

  • 00:20:00 이 섹션에서 강사는 d + 1 포인트의 특정 세트를 보여주고 반전 매트릭스를 사용하여 산산조각이 날 수 있음을 보여줍니다. 그런 다음 청중에게 VC 차원에 대한 질문을 던지고 시연 결과에 따라 어떤 결론을 내릴 수 있는지 선택하도록 요청합니다. 정답은 VC 차원이 d + 1보다 크거나 같다는 b입니다.

  • 00:25:00 이 섹션에서 교수는 VC 차원이 기껏해야 d + 1임을 증명하는 방법에 대해 논의합니다. 그는 청중에게 몇 가지 진술 중 어떤 진술이 전제를 확립하는지 묻고 그들은 "d"라고 대답합니다. 그런 다음 교수는 설명합니다. 그는 산산조각 낼 수 없는 d + 2개의 점 집합이 있음을 보여주어야 합니다. 그는 d + 2개의 점 집합에 대해 항상 다른 점의 선형 조합인 한 점이 있음을 보여줌으로써 이를 수행합니다. 따라서 그는 퍼셉트론으로 구현할 수 없는 이분법을 구성합니다.

  • 00:30:00 비디오의 이 섹션에서 화자는 기본적으로 특정 지점에 +1 또는 -1 레이블을 할당하는 퍼셉트론의 이분법 개념을 설명합니다. 대수 속성의 사용을 통해 VC 차원이 d + 1인 d + 2 점 집합을 깨뜨리는 것이 불가능하다는 것을 보여줍니다. 이는 퍼셉트론 모델의 매개변수 수가 d + 1이기 때문입니다. , VC 차원은 부서질 수 있는 최대 포인트 수를 제공합니다.

  • 00:35:00 이 섹션에서는 VC 차원의 개념과 해석을 소개합니다. VC 차원은 모델의 자유도 및 모델이 가진 매개변수의 수와 어떻게 관련되는지 측정한 것입니다. 강의에서는 이러한 자유도를 오디오 시스템의 노브와 비교합니다. 더 많은 노브를 사용하면 사운드를 더 잘 제어할 수 있지만 효과적으로 사용하기 어려울 수 있습니다. 강의에서는 VC 차원이 모델 내부의 수학 세부 사항을 추상화하고 표현력에 초점을 맞춘다고 설명합니다. 강의는 또한 VC 차원과 양광선과 같은 다양한 모델의 자유도 간의 대응 관계에 대해 논의하며, 하나의 매개 변수가 있는 모델에 해당하는 자유도가 1일 때 VC 차원이 1과 같다는 것을 보여줍니다.

  • 00:40:00 이 섹션에서 강사는 단순 모델의 맥락에서 자유도와 VC 차원과의 관계에 대해 설명합니다. VC 차원은 모델이 달성할 수 있는 가설의 수를 세지만 반드시 매개변수의 수와 같지는 않습니다. 인공적인 예를 구성함으로써 강사는 매개변수가 항상 자유도에 기여하지 않을 수 있음을 보여줍니다. 대신 유효 자유도는 VC 차원에 의해 보다 안정적으로 측정될 수 있으며 강사는 매개변수가 8개인 모델이 실제로 매개변수가 2개인 모델과 동일한 VC 차원을 가질 수 있는 방법을 보여줍니다. 마지막으로 강사는 실무자가 시스템에 필요한 데이터 포인트의 수와 이것이 가설 세트의 VC 차원과 어떻게 관련될 수 있는지에 관심을 가질 수 있다고 지적합니다.

  • 00:45:00 이 섹션에서 발표자는 필요한 예제 수와 VC 차원 값 사이의 관계에 대해 설명합니다. VC 부등식에는 가능한 한 작게 하려는 두 개의 작은 성능 양이 있습니다. 이 중 하나는 E_out에서 멀지 않은 E_in이고 다른 하나는 값이 작은 delta입니다. 특정 엡실론 및 델타 값을 결정한 후 연사는 함수 N에서 VC 차원의 거듭제곱 곱하기 e에서 -N의 거듭제곱으로 그래프에 표시된 값을 달성하는 데 필요한 예제 수를 결정하는 방법을 설명합니다. 곡선의 흥미로운 부분은 확률이 1 미만이고 화자는 VC 차원을 4에서 5로 증가시키는 의미를 탐색합니다.

  • 00:50:00 이 섹션에서 강사는 데이터 세트의 예제 수와 학습 알고리즘의 복잡성을 측정하는 VC 차원 간의 관계에 대해 설명합니다. 그는 여러 그래프를 사용하여 VC 차원이 증가함에 따라 알고리즘의 성능이 어떻게 변하는지 설명하고 특정 수준의 성능을 달성하는 데 필요한 예제의 수가 VC 차원에 비례한다고 강조합니다. 그러나 그는 또한 성능의 한계가 특정 단조성을 따르도록 보장되지만 실제 성능은 항상 그렇지 않을 수 있으며 이는 실무자에게 좌절의 원인이 될 수 있다고 지적합니다.

  • 00:55:00 이 섹션에서 강사는 VC 차원의 관찰 및 실제 적용에 대해 논의합니다. 첫 번째 교훈은 VC 차원과 특정 수준의 성능을 달성하는 데 필요한 예제 수 사이에 비례 관계가 있다는 것입니다. 강사는 확률문이 의미가 있는 VC 부등식의 안전 영역에 도달하기 위해 VC 차원의 10배가 필요한 경험 법칙을 제공합니다. 두 번째 실제 관찰은 합리적인 엡실론 및 델타의 광범위한 범위에 대해 경험 법칙도 적용된다는 것입니다. 그런 다음 강사는 VC 부등식 공식을 단순화하고 공식 자본 오메가라고 부르며 성장 함수에 의존하며 VC 차원이 커질수록 오메가 공식이 나빠진다고 설명합니다.
  • 01:00:00 이 섹션에서 화자는 일반화의 개념과 더 많은 예제가 성장 함수 및 다항식 동작에 어떤 영향을 미칠 수 있는지에 대해 논의합니다. 그는 나쁜 사건을 특성화하는 대신 긍정적인 진술인 일반화 범위의 개념을 도입합니다. 1 빼기 델타보다 크거나 같은 확률로 E_in은 E_out을 추적합니다. 즉, 이들이 Omega 내에 있음을 의미하며, 이는 예의 수와 가설 세트의 VC 차원에 따라 다릅니다. 화자는 E_out이 E_in과 Omega로 묶여 있음을 보여주기 위해 재정렬하여 묶인 일반화를 단순화합니다. 그는 이 경계가 어떻게 가설 세트의 크기와 좋은 일반화 사이의 절충점을 설명하여 기계 학습의 정규화 개념으로 이어지는지 설명합니다.

  • 01:05:00 이 섹션에서 교수는 VC 차원이 첫 번째 중단점 바로 직전의 가장 큰 값이라고 설명합니다. 즉, 중단점 역할을 하는 더 큰 지점도 계산됩니다. 중단점의 개념은 많은 값을 포함하지만 VC 차원은 눈에 띄는 고유한 차원입니다. 그는 또한 N 포인트 산산조각에 대해 논의할 때 개인이 산산조각낼 포인트를 선택하게 된다고 설명합니다. 교수는 엡실론과 델타가 학습의 두 가지 성능 매개변수라고 설명합니다. 여기서 엡실론은 E_in이 E_out을 추적하도록 보장하는 근사 매개변수이고 델타는 확률 진술이 실패할 가능성을 결정하는 확률 측정입니다. 오류 측정이 선택 포인트 수에 미치는 영향을 묻자 교수는 오류 측정을 이진법으로 다룰 때는 상한이 있기 때문에 분산에 대해 걱정할 필요가 없지만 다른 방법을 사용할 때는 공동 도메인 또는 오류 측정, 수정이 필요합니다.

  • 01:10:00 이 섹션에서 교수는 VC 차원을 정확히 얻는 것은 드물지만 퍼셉트론에 대한 정확한 차원을 알고 있다고 설명합니다. 신경망의 경우 VC 차원 추정치는 중복 및 취소로 인해 특정 수치를 초과할 수 없습니다. 교수는 VC 차원 경계가 느슨한 추정치이지만 여전히 개념적 의미를 유지하고 모델을 비교하고 필요한 예의 수를 추정하는 지침으로 사용할 수 있다고 강조합니다. 경험 법칙은 고객이 원하는 정확도 수준에 따라 달라지는 VC 부등식의 흥미로운 영역에 도달하기 위해 VC 차원의 최소 10배를 사용하는 것입니다. 교수는 이 자료와 실험 설계 주제 사이에 공통점이 있으며 학습 원리가 엄격한 학습 시나리오를 넘어 다른 상황으로 확장된다고 지적합니다.
Lecture 07 - The VC Dimension
Lecture 07 - The VC Dimension
  • 2012.04.26
  • www.youtube.com
The VC Dimension - A measure of what it takes a model to learn. Relationship to the number of parameters and degrees of freedom. Lecture 7 of 18 of Caltech's...
 

강의 8 - 편향-분산 트레이드오프



Caltech의 기계 학습 과정 - CS 156. 강의 08 - 편향-분산 교환

교수는 기계 학습의 편향-분산 트레이드오프에 대해 논의하고 가설 세트의 복잡성이 일반화와 근사치 사이의 트레이드오프에 어떤 영향을 미치는지 설명합니다. 강사는 기계 학습 알고리즘이 생성하는 가설의 평균과 실제 목표 함수 간의 편차를 측정하는 바이어스 및 분산의 개념과 주어진 모델의 가설 분포가 서로 다른 데이터 세트에 따라 얼마나 달라지는지를 각각 소개합니다. 트레이드 오프 결과 더 작은 편향을 갖는 더 큰 가설 세트가 있지만 더 큰 분산이 있는 반면, 더 작은 가설 세트는 더 큰 편향을 갖지만 더 작은 분산을 갖습니다. 강사는 가설 세트를 효과적으로 탐색하기 위해 충분한 데이터 리소스를 확보하는 것의 중요성을 강조하고 편향-분산 분석과 VC 분석 간의 규모 차이를 강조합니다.

또한 그는 간단한 모델이 필요한 적은 수의 예제와 더 복잡한 모델이 필요한 더 많은 예제 리소스를 사용하여 근사화 및 일반화 능력 측면에서 단순 모델과 복잡한 모델 간의 장단점에 대해 논의합니다. 편향-분산 분석은 선형 회귀에만 해당되며 대상 함수에 대한 지식을 가정하고 검증은 모델 선택을 위한 금본위제입니다. 앙상블 학습은 부트스트래핑을 사용하여 여러 데이터 세트를 평균화하여 분산을 줄이는 Bagging을 통해 논의됩니다. 앙상블 학습에서 분산과 공분산의 균형에 대해서도 설명하고 선형 회귀는 학습의 첫 번째 부분으로 피팅을 하는 학습 기법으로 분류되는 반면 이론에서는 좋은 out-of-sample 성능을 강조합니다.

  • 00:00:00 이 섹션에서는 일반화를 이해하는 또 다른 접근 방식인 바이어스-분산 트레이드오프로 초점을 이동합니다. 이전 강의에서 VC 분석은 가설 집합의 VC 차원을 통해 선택된 가설의 일반화 능력을 확립했습니다. VC 범위는 모든 학습 알고리즘, 모든 입력 데이터 및 모든 대상 함수에 적용됩니다. VC 분석의 한 측면은 실용적인 척도를 제공한다는 것입니다. 오류 확률 대 예제 수를 플로팅하여 필요한 예제 수가 VC 차원 또는 경험 법칙에 비례한다는 것을 발견했습니다. 흥미로운 일반화 속성을 얻으려면 VC 차원의 10배가 필요합니다. 마지막으로 VC 분석을 정규화와 같은 이후 기술에서 사용할 일반화 범위로 요약했습니다.

  • 00:05:00 이 섹션에서 강사는 학습과 관련하여 근사치와 일반화 사이의 장단점에 대해 논의합니다. 학습은 작은 E_out을 달성하는 것을 목표로 합니다. 즉, 가설이 대상 함수를 잘 근사하고 이 근사치가 샘플 외에서 유지된다는 것을 의미합니다. 그러나 더 복잡한 가설을 설정하면 f를 잘 근사할 가능성이 높아지지만 적합한 가설을 식별하는 데 문제가 있습니다. 학습을 위한 이상적인 가설 중 하나는 목표 함수가 되는 단일 가설입니다. 그래도 목표 함수를 모르기 때문에 충분히 큰 가설이 필요합니다. 또한 강사는 편향-분산 분석이 E_out을 분해하는 방법에 대해 논의하는 반면 VC 분석은 트레이드오프를 정량화하는 데 중점을 둡니다.

  • 00:10:00 이 섹션에서 연사는 편향-분산 트레이드오프와 이것이 제곱 오차를 사용하는 실제 값 함수 및 회귀와 어떻게 관련되는지 소개합니다. 목표는 샘플 외 오류를 근사와 일반화라는 두 가지 개념적 구성 요소로 분해하는 것입니다. 이를 위해 화자는 최종 가설이 사용된 데이터 세트에 의존하기 때문에 특정 데이터 세트에 대한 오류의 예상 값을 사용하지만 데이터 세트를 통합하여 종속성을 제거하는 것을 목표로 합니다. 결과는 작업할 특정 수의 데이터 포인트가 주어졌을 때 오류의 일반적인 동작을 분석하는 방법입니다.

  • 00:15:00 이 섹션에서 강사는 100가지 예의 가능한 모든 구현과 관련하여 동작의 예상 값을 계산하는 방법을 설명합니다. 통합의 순서를 역전시키고 기대를 제거함으로써 강사는 깨끗한 분해를 얻습니다. 다음 단계는 가능한 모든 가설의 기대값을 얻어 평균 가설을 도출하는 것입니다. 이것은 분명히 불가능한 작업이지만 분석을 위한 개념적 도구를 제공합니다. 궁극적으로 g bar를 정의해야 하는 선형 항을 얻기 위해 상단 표현식을 확장할 때 g bar의 기술적 유용성을 이해하는 것이 중요해집니다.

  • 00:20:00 이 섹션에서 강사는 기계 학습 알고리즘이 주어진 데이터 세트에서 파생된 가설이 목표 함수에서 얼마나 멀리 벗어나는지 결정하는 두 단계로 수량을 분해합니다. 첫 번째 단계는 이 가설이 주어진 데이터 세트에서 알고리즘이 생성할 수 있는 최상의 가설에서 얼마나 벗어나는지 평가하는 반면, 두 번째 단계는 이 최상의 가설이 실제 목표 함수에서 얼마나 벗어나는지 평가합니다. 강사는 이 두 단계를 나타내기 위해 바이어스와 분산이라는 두 가지 수량에 도달합니다. 편향은 기계 학습 알고리즘이 생성하는 가설의 평균과 알고리즘의 가설 집합에 대해 유한을 설정하는 실제 목표 함수 사이의 편차를 측정합니다. 한편 분산은 주어진 모델의 가설 분포가 다른 데이터 세트에 따라 얼마나 달라지는지를 측정합니다.

  • 00:25:00 이 섹션에서 교수는 기계 학습의 편향-분산 절충에 대해 논의합니다. 그는 바이어스가 가설 세트의 한계이고 분산은 다른 데이터 세트를 사용할 때 결과의 차이라고 설명합니다. 그런 다음 그는 가설 집합의 크기를 변경할 때 일반화와 근사화 사이에 트레이드오프가 있는지 보여주고 작은 가설 집합과 큰 가설 집합을 비교하여 이 아이디어를 설명합니다. 그는 가설 집합이 클수록 편향은 작지만 분산은 크고, 가설 집합이 작을수록 편향은 크지만 분산은 작다고 주장합니다.

  • 00:30:00 이 섹션에서 연사는 가설 집합이 커질수록 편향이 감소하고 분산이 증가하는 편향-분산 트레이드오프(bias-variance tradeoff)의 개념을 소개합니다. 이를 이해하기 위해 화자는 대상 함수가 정현파인 구체적인 예를 설정하고 상수 모델과 선형 모델이라는 두 가지 가설 세트가 제공됩니다. 그런 다음 화자는 선형 모델이 사인곡선에 대해 더 나은 근사치를 제공하지만 약간의 오류가 있음을 보여줍니다. 이것은 학습 상황이 아니지만 대상 함수의 근사치에서 편향과 분산 사이의 균형을 보여 주어 더 복잡한 학습 문제를 위한 길을 닦습니다.

  • 00:35:00 이 섹션에서 강사는 기계 학습의 편향-분산 트레이드 오프를 설명합니다. 그는 선을 두 점에 맞추는 예를 사용합니다. 첫 번째는 대상 함수를 근사화하고 두 번째는 예에서 학습하는 것입니다. 편향-분산 분석은 어떤 두 점을 사용하든 관계없이 모델의 성능을 평가하고 데이터 세트에 대한 종속성을 극복하기 위해 필요합니다. 그런 다음 강사는 크기가 2포인트인 데이터 세트를 생성하고 여기에 라인을 맞추고 예상되는 샘플 외 오류가 주로 편향과 분산의 합계임을 보여줍니다. 매우 밝은 녹색 선인 x의 g 막대는 그가 이 게임을 반복하여 얻은 평균 가설입니다. 그러나 다른 데이터 세트는 다른 추정치를 제공하기 때문에 학습 프로세스의 출력이 아닙니다.

  • 00:40:00 비디오의 이 섹션에서는 기계 학습의 맥락에서 편향-분산 절충의 개념에 대해 설명합니다. 분산은 학습 프로세스 출력의 표준 편차로 계산되는 반면 편향은 예측 출력과 목표 함수 간의 오차입니다. 편향과 분산 사이의 절충은 작은 편향과 큰 분산이 있는 모델과 큰 편향과 작은 분산이 있는 모델의 두 가지 모델을 사용하여 설명됩니다. 학습 상황에서 모델 복잡도는 목표 복잡도가 아닌 사용 가능한 데이터 리소스와 일치해야 함을 이해합니다.

  • 00:45:00 이 섹션에서 연사는 학습의 편향-분산 절충에 대해 논의하고 학습 곡선의 개념을 소개합니다. 학습 곡선은 데이터 세트의 크기인 N의 함수로 E_out(샘플 외 오류) 및 E_in(샘플 내 오류)의 예상 값을 플로팅합니다. N이 증가하면 일반적으로 샘플 외 오류가 감소하지만 이러한 추세는 사용 중인 모델의 복잡성에 의해 영향을 받을 수 있습니다. 발표자는 가설 집합을 효과적으로 탐색하기 위해 충분한 데이터 리소스를 확보하는 것이 중요하다고 강조하고 시끄러운 데이터가 이러한 탐색을 더욱 어렵게 만들 수 있다고 지적합니다. 학습 곡선은 편향-분산 트레이드오프와 N이 증가함에 따라 어떻게 변하는지 시각적으로 보여줍니다.

  • 00:50:00 이 섹션에서 강사는 학습 곡선을 사용하여 바이어스-분산 분석과 VC 분석 간의 관계에 대해 설명합니다. 그는 두 이론 모두 근사치를 논의하고 일반화 측면에서 일어나는 일을 고려한다고 설명합니다. 강사는 두 이론 사이의 규모 차이를 강조하고 편향은 가설 세트에 따라 다르다고 언급합니다. 마지막으로 강사는 선형 회귀 사례에 대한 분석을 간략하게 다루고 선형 회귀에 대한 통찰력을 얻기 위한 좋은 연습으로 권장합니다.

  • 00:55:00 이 섹션에서 강사는 특히 학습 곡선을 사용하여 샘플 내 오류 패턴과 샘플 외 오류 패턴을 설명합니다. 강사는 선형 회귀 및 노이즈를 사용하여 예상되는 샘플 내 오류에 대한 간단한 공식을 설명합니다. 거의 완벽하며 d + 1의 비율로 완벽보다 더 잘하고 있습니다. 강사는 다음을 보여주는 매우 구체적인 곡선을 강조합니다. 데이터 포인트가 많을수록 노이즈가 오류율에 미치는 영향이 줄어듭니다. 그러나 샘플 데이터에 과대적합하면 결국 노이즈를 맞추게 되고 이는 장기적으로 도움이 되기는커녕 해를 끼칠 것입니다.

  • 01:00:00 이 섹션에서 교수는 간단한 모델과 복잡한 모델 사이의 장단점과 근사화 및 일반화 능력에 대해 이야기합니다. 복잡한 모델은 목표 함수와 학습 예제를 더 잘 근사할 수 있지만 단순 모델은 일반화 능력 측면에서 더 좋습니다. 이것은 둘 사이에 트레이드 오프가 있고 두 수량의 합이 어느 방향으로든 갈 수 있기 때문입니다. 핵심은 모델의 복잡성을 사용 가능한 데이터 리소스와 일치시키는 것입니다. 예제가 적다는 것은 단순한 모델을 사용해야 함을 의미하는 반면 예제 리소스가 많으면 더 나은 성능을 위해 복잡한 모델이 필요합니다. 예상되는 일반화 오류는 VC 차원을 예제 수로 나눈 공식을 사용하여 찾을 수 있습니다.

  • 01:05:00 이 섹션에서 교수는 편향-분산 분석이 선형 회귀에 특정한 방식과 대상 함수를 알고 있다고 가정하는 방식에 대해 설명합니다. 유용한 가이드이고 편향과 분산에 영향을 미치는 방법을 이해하는 데 사용할 수 있지만 모델이 무엇인지 알려주기 위해 연결할 수 있는 것은 아닙니다. 그는 또한 모델 선택의 황금 표준은 부스팅과 같은 앙상블 방법을 포함하는 검증을 통한 것이라고 언급합니다. 그런 다음 교수는 분석을 위한 이론적 도구로서 g bar의 아이디어를 간략하게 소개하지만 이 강의의 초점은 아니라고 지적합니다.

  • 01:10:00 이 섹션에서 교수는 Bagging을 통한 앙상블 학습에 대해 이야기합니다. Bagging은 부트스트래핑 및 평균화를 통해 데이터 세트를 사용하여 많은 수의 다양한 데이터 세트를 생성하는 프로세스입니다. 이것은 앙상블 학습에 대해 약간의 배당금을 제공하고 많은 것을 평균화하여 분산을 줄이는 데 도움이 될 수 있습니다. 그런 다음 중재자는 바이어스-분산이 베이지안 접근 방식을 통해 여전히 나타나는지 묻습니다. 교수는 베이지안 접근법이 특정한 가정을 하지만 편향 분산이 여전히 존재한다고 설명합니다. 마지막으로 수치 함수 근사와 기계 학습에서의 외삽의 관계 및 편향-분산 공분산 딜레마에 대해 이야기합니다.

  • 01:15:00 강의의 이 섹션에서 교수는 앙상블 학습의 맥락에서 분산과 공분산 사이의 균형에 대해 논의합니다. 그는 바이어스-분산 분석에서 독립적으로 생성된 데이터 세트를 선택하고 독립적인 모델을 생성한 다음 평균화하는 사치를 누렸다고 설명합니다. 그러나 실제로는 데이터 세트의 변형을 기반으로 모델을 구성할 때 모델 간의 공분산이 역할을 하기 시작합니다. 나중에 선형 회귀가 학습 기법인지 함수 근사인지 묻는 질문에 교수는 선형 회귀가 학습 기법이고 피팅이 학습의 첫 번째 부분이라고 말합니다. 추가된 요소는 모델이 이론에 관한 것인 샘플 외부에서 잘 수행되도록 하는 것입니다.
Lecture 08 - Bias-Variance Tradeoff
Lecture 08 - Bias-Variance Tradeoff
  • 2012.04.28
  • www.youtube.com
Bias-Variance Tradeoff - Breaking down the learning performance into competing quantities. The learning curves. Lecture 8 of 18 of Caltech's Machine Learning...
 

강의 9 - 선형 모델 II



Caltech의 기계 학습 과정 - CS 156. 강의 09 - 선형 모델 II

이 강의에서는 바이어스-분산 분해, 학습 곡선, 퍼셉트론, 선형 회귀 및 로지스틱 회귀와 같은 선형 모델에 대한 기술을 포함하여 선형 모델의 다양한 측면을 다룹니다. 연사는 복잡성과 일반화 성능 사이의 균형을 강조하고 과적합에 대해 경고하고 유효한 보증을 위해 가설 공간의 VC 차원을 적절하게 청구하는 것의 중요성을 강조합니다. 비선형 변환의 사용과 일반화 동작에 미치는 영향에 대해서도 설명합니다. 이 강의는 확률 추정에서 로지스틱 함수와 그 응용을 다루고 로지스틱 회귀의 맥락에서 우도 및 교차 엔트로피 오류 측정의 개념을 소개합니다. 마지막으로 기울기 하강법과 같은 오류 함수를 최적화하기 위한 반복적인 방법을 설명합니다.

또한 강의는 기계 학습의 선형 모델 및 최적화 알고리즘과 관련된 다양한 주제를 다룹니다. 교수는 기울기 하강법 최적화에서 학습률과 속도 사이의 절충안을 설명하고 로지스틱 회귀 알고리즘을 소개하고 오류 측정 및 학습 알고리즘에 대해 논의합니다. 경사 하강법 및 다중 클래스 분류의 종료 문제도 해결됩니다. 기계 학습에서 기능의 파생 및 선택의 역할이 강조되고 VC 차원의 관점에서 청구되는 응용 분야의 기술로 논의됩니다. 전반적으로 이 강의는 기계 학습을 위한 선형 모델 및 최적화 알고리즘에 대한 포괄적인 개요를 제공합니다.

  • 00:00:00 이 섹션에서 Yaser Abu-Mostafa는 샘플 외 오류의 편향-분산 분해에 대해 설명하고 가설 집합과 어떻게 상쇄되는지 설명합니다. 그는 또한 일반화 오류를 설명하는 학습 곡선과 VC 차원에 비례하는 예제 수가 어떻게 일반화 속성을 결정하는지 설명합니다. 선형 모델에 대한 기술에 대해서도 설명합니다.

  • 00:05:00 강의의 이 섹션에서 화자는 이전 강의에서 다룬 선형 분류 및 선형 회귀 측면에서 선형 모델을 간략하게 요약한 다음 선형 모델의 세 번째 유형인 로지스틱 회귀로 이동합니다. 로지스틱 회귀를 시작하기 전에 연사는 비선형 변환 및 일반화 문제 측면에서 느슨한 끝을 묶습니다. 비선형 변환은 Z 공간(특징 공간)에 학습 알고리즘을 적용하기 위한 플랫폼을 제공하며 최종 가설은 여전히 X 공간(입력 공간)에 있습니다. 비선형 변환의 경우, 화자는 일반화 문제가 생략되었으며 부족한 부분은 강의에서 제공할 것이라고 강조합니다.

  • 00:10:00 이 섹션에서 강사는 X 공간에서 일반화 동작과 관련하여 비선형 변환을 수행하는 대가에 대해 논의합니다. X 공간에서 선형 모델을 사용하면 d+1 자유 매개변수의 가중치 벡터를 얻을 수 있습니다. 그러나 기능 공간의 VC 차원은 잠재적으로 X 공간의 VC 차원보다 훨씬 클 수 있습니다. VC 차원이 너무 크면 17차 다항식을 맞출 수 있지만 실제로 일반화할 기회는 없습니다. 첫 번째 경우가 거의 선형적으로 분리 가능한 경우와 두 번째 경우가 완전히 비선형인 경우 두 가지 경우가 논의됩니다. E_in을 0으로 만들기 위해서는 고차원 공간으로 가야하는데, 분류할 포인트가 2개뿐이기 때문에 문제가 됩니다.

  • 00:15:00 강의의 이 섹션에서 강사는 선형 모델을 다룰 때 근사화-일반화 절충에 대해 논의합니다. 그는 4차 표면과 같은 더 복잡한 모델을 사용하면 어떻게 데이터를 더 잘 근사화할 수 있지만 잘 일반화되지 않을 수 있는지에 대해 이야기합니다. 그는 또한 비선형 공간으로의 변환을 사용하는 아이디어를 언급하지만 매개변수의 수를 줄이는 것에 대해 주의를 줍니다. 강사는 VC 부등식이 제공하는 보증이 유효하기 위해서는 마음에서 탐구한 전체 가설 공간의 VC 차원을 충전하는 것이 중요하다고 설명합니다.

  • 00:20:00 이 섹션에서는 데이터를 보기 전에 모델을 선택할 때 데이터 스누핑의 위험을 중심으로 논의합니다. 이 관행은 오염된 가설 세트로 이어질 수 있으며, 이는 데이터가 실제 성능을 반영하는 데 더 이상 신뢰할 수 없음을 의미합니다. 고유한 모델, 오류 측정 및 학습 알고리즘과 함께 로지스틱 회귀의 개념을 소개합니다. 이 선형 모델은 이전에 논의된 퍼셉트론 및 선형 회귀 모델을 크게 보완하는 것으로 간주되며 기계 학습 내에 존재하는 복잡성과 변형의 유용한 예를 제공합니다.

  • 00:25:00 이 섹션에서 강사는 선형 모델과 퍼셉트론, 선형 회귀 및 로지스틱 회귀와 같이 사용할 수 있는 다양한 방법에 대해 설명합니다. 선형 분류의 경우 가설은 신호의 직접 임계값인 +1 또는 -1의 결정입니다. 선형 회귀의 경우 출력은 입력과 동일하지만 로지스틱 회귀는 로지스틱 함수라는 비선형성을 신호에 적용하여 어떤 일이 발생할 확률로 해석됩니다. 강사는 신용 카드 신청과 같은 다양한 문제에 대한 확률 추정에서 물류 기능의 모양과 응용 프로그램을 설명합니다.

  • 00:30:00 이 섹션에서는 로지스틱 함수의 맥락에서 소프트 임계값 또는 시그모이드의 개념을 소개합니다. 이 함수는 선형 신호를 입력으로 받아 확률을 출력합니다. 여러 요인이 이벤트 발생 가능성에 기여하는 심장 마비의 위험과 같은 결과를 예측하는 데 특히 유용합니다. 로지스틱 회귀의 출력은 입력 데이터가 해당 정보를 직접 제공하지 않더라도 학습 과정에서 실제 확률로 처리됩니다.

  • 00:35:00 이 섹션에서는 의료 데이터의 지도 학습과 숨겨진 목표 함수를 근사화하는 모델을 생성하는 방법에 대해 설명합니다. 예제는 확률의 영향을 받는 이진 출력으로 제공되므로 잡음이 많은 경우입니다. 대상은 d차원 유클리드 공간에서 x의 f라는 확률 해석을 사용하여 0,1까지입니다. x의 가설 g는 가중치를 찾아 x로 내적함으로써 찾을 수 있습니다. 목적은 로지스틱 회귀 가설이 그럴듯하고 옵티마이저에 친숙한 가능성으로 구성된 오류 측정을 사용하여 목표 함수를 반영하는 방식으로 가중치를 선택하는 것입니다. 오류 측정은 실제로 데이터를 생성한 대상일 가능성에 따라 서로 다른 가설의 등급을 매깁니다.

  • 00:40:00 강의의 이 섹션에서 연사는 가능성의 사용과 그 적용에 대한 논란에 대해 논의합니다. 그는 우도의 사용은 주어진 데이터에서 가장 그럴듯한 가설을 찾는 것이라고 설명합니다. 그러나 가능도는 필요한 확률이 아니므로 완전히 깨끗한 프로세스는 아닙니다. 그런 다음 연사는 가능성에 대한 공식을 소개하고 완전한 오류 측정을 유도하는 데 어떻게 사용할 수 있는지 설명합니다. 그런 다음 공식을 사용하여 개별 데이터 포인트의 가능성의 곱인 전체 데이터 세트의 가능성을 찾습니다. 그는 한 가지 예를 선호하면 다른 예를 망칠 수 있으므로 가설을 선택할 때 항상 타협이 있을 것이라고 결론을 내립니다.

  • 00:45:00 강의의 이 섹션에서 연사는 데이터 세트에서 가설의 가능성을 최대화하는 것이 오류 측정을 최소화하는 방법을 설명합니다. 자연 로그를 취하면 최대화가 최소화가 되어 훈련 세트에서 오류 측정이 발생합니다. 수식을 단순화한 후 화자는 오류 측정을 로지스틱 회귀의 표본 내 오류라고 부르고, x_n에 적용된 w에 의존하는 가설과 해당 예제에 대한 레이블로 제공된 값 사이의 오류 측정으로 정의합니다. , 이는 y_n입니다. 연사는 또한 w 전치된 x_n의 부호를 기반으로 심장 마비의 위험이 있는 사람들을 식별하는 위험 점수의 흥미로운 해석에 대해 논의합니다.

  • 00:50:00 이 섹션에서는 이진 예측의 정확도를 측정하는 방법으로 교차 엔트로피 오류 측정을 소개합니다. 목표는 모델의 예측을 개선하기 위해 이 오류 측정을 최소화하는 것입니다. 그러나 선형 회귀와 달리 로지스틱 회귀에 대한 오류 측정을 최소화하기 위한 폐쇄형 솔루션이 없습니다. 대신 경사 하강법을 통해 달성되는 반복 솔루션이 필요합니다. 이 방법은 표면의 가장 가파른 경사면을 따라 한 걸음 내딛고 최소값에 도달할 때까지 반복하는 것입니다. 로지스틱 회귀에 대한 오류 측정의 볼록성으로 인해 경사 하강법은 최적화를 위한 좋은 선택입니다.

  • 00:55:00 강의의 이 섹션에서 교수는 선형 모델에서 오류 함수의 최소값을 찾는 데 사용되는 반복 방법에 대해 설명합니다. 그는 이러한 방법이 작은 단계로 표면을 따라 이동하고 미적분학, 특히 Taylor 시리즈를 사용하여 로컬 근사치를 만드는 것과 관련이 있다고 설명합니다. 그런 다음 기울기 하강법의 개념을 소개합니다. 여기서 다음 가중치는 현재 가중치와 특정 방향으로의 이동에 의해 결정되며, 이는 가장 가파른 내리막 방향의 단위 벡터를 해결하여 결정됩니다. 교수는 계속해서 벡터와 단위 벡터 사이의 내적에 대해 가장 음의 값을 얻는 방향을 이동 방향으로 선택하는 방법을 설명합니다.

  • 01:00:00 이 섹션에서 강사는 경사 하강법 최적화에서 단계 크기 또는 학습 속도 사이의 절충안을 논의합니다. 매우 작은 단계를 밟으면 결국 최소값에 도달하지만 시간이 오래 걸리고 더 큰 단계를 밟으면 더 빠르지만 선형 근사를 적용하지 않을 수 있습니다. 그래프를 분석한 후 가장 좋은 절충안은 가파른 경사를 활용하기 위해 초기에 큰 학습률을 갖고 최소값에 가까워지면 오버슈팅을 방지하기 위해 더 주의를 기울이는 것입니다. 그런 다음 강사는 학습률이 그래디언트 크기에 비례하는 고정 학습률에 대한 공식을 제시합니다. 그런 다음 로지스틱 회귀 알고리즘이 도입되어 샘플 내 오류 공식을 사용하여 그래디언트를 계산하고 현재 가중치에서 학습률 곱하기 그래디언트를 빼서 다음 가중치를 얻습니다. 마지막으로 세 가지 선형 모델인 퍼셉트론, 선형 회귀 및 로지스틱 회귀가 모두 하나의 슬라이드에 요약되어 신용 도메인에 적용됩니다.

  • 01:05:00 이 섹션에서 교수는 신용 분석에서 구현할 수 있는 다양한 유형의 선형 모델과 사용되는 해당 오류 측정 및 학습 알고리즘에 대해 설명합니다. 예를 들어 퍼셉트론은 이진 분류에 사용되고 로지스틱 회귀는 디폴트 확률을 계산하는 데 사용됩니다. 퍼셉트론에 대한 이진 분류 오류 및 로지스틱 회귀에 대한 교차 엔트로피 오류와 같이 각 모델에 대해 서로 다른 오류 측정이 사용되었습니다. 사용된 학습 알고리즘은 분류 오류에 대한 퍼셉트론 학습 알고리즘 및 교차 엔트로피 오류에 대한 경사 하강법과 같이 선택된 오류 측정에 따라 다릅니다. 마지막으로 교수는 오류 표면의 많은 미지수로 인해 적절하게 분석된 종료가 약간 까다롭기 때문에 경사 하강법에서 종료와 함께 발생하는 종료 기준 및 문제에 대해 간략하게 설명합니다.

  • 01:10:00 이 섹션에서 화자는 경사 하강법이 효과적이지만 완벽한 최적화 알고리즘은 아니라고 설명합니다. 최적화 알고리즘이 탐색하려는 표면에 여러 로컬 최소값이 있는 경우 알고리즘은 최상의 결과를 제공하는 전역 최소값 대신 로컬 최소값만 찾을 수 있습니다. 화자는 최적화 알고리즘을 종료하기 위해 기준 조합을 사용할 것을 제안하고 켤레 기울기가 기울기 하강법에 대한 유효한 대안임을 언급합니다. 연사는 로컬 최소값이 응용 프로그램에서 실제 문제가 되는 경우 이 문제를 해결하기 위한 최적화 분야의 많은 접근 방식이 있다고 제안합니다.

  • 01:15:00 이 섹션에서 교수는 대수와 기대 값을 사용하여 두 확률 분포 사이의 관계를 얻는 방법인 교차 엔트로피의 개념을 설명합니다. 교수는 또한 최적화에서 이진 검색 및 2차 방법의 한계에 대해 논의하며 더 정교한 방법이 더 나은 결과로 이어질 수 있지만 CPU 주기 측면에서 너무 비쌀 수 있음을 강조합니다. 마지막으로 질문에 대한 답변으로 교수는 숫자 인식의 예에서 설명한 것처럼 다중 클래스 설정에 로지스틱 회귀를 적용할 수 있음을 확인합니다.

  • 01:20:00 강의의 이 섹션에서 교수는 서수 회귀 및 트리 기반 이진 결정을 포함하여 다중 클래스 분류를 위한 다양한 방법에 대해 논의합니다. 교수는 또한 신경망에서 신경 기능으로 사용될 tanh 함수의 사용을 소개합니다. 학습률의 개념도 논의되며 교수는 적응형 학습률에 사용할 수 있는 휴리스틱이 있다고 언급하고 학습률을 선택하는 경험 법칙을 제시합니다. 또한 의미 있는 기능과 특정 데이터 세트를 살펴봄으로써 파생된 기능이 구분되며, 전자는 VC 보증을 상실할 가능성이 적습니다.

  • 01:25:00 이 섹션에서 교수는 기계 학습에서 기능을 파생시키는 과정에 대해 논의하고 응용 도메인에 의존하는 예술임을 강조합니다. 데이터를 기반으로 기능을 도출할 수 있지만 최종 가설 세트는 여전히 일반화 동작을 결정합니다. 교수는 또한 기계 학습에서 기능 선택이 자동으로 수행되지만 학습의 일부가 되며 VC 차원에서 요금이 부과된다는 점에 주목합니다. 특징 선택에 대한 주제는 신경망과 은닉층에 대한 향후 강의에서 더 자세히 다룰 것입니다.
Lecture 09 - The Linear Model II
Lecture 09 - The Linear Model II
  • 2012.05.02
  • www.youtube.com
The Linear Model II - More about linear models. Logistic regression, maximum likelihood, and gradient descent. Lecture 9 of 18 of Caltech's Machine Learning ...
 

강의 10 - 신경망



Caltech의 기계 학습 과정 - CS 156. 강의 10 - 신경망

California Institute of Technology의 Yaser Abu-Mostafa 교수는 이번 강의에서 로지스틱 회귀와 신경망에 대해 논의합니다. 로지스틱 회귀는 제한된 실수 값 함수의 확률 해석을 계산하는 선형 모델입니다. 오류 측정을 직접 최적화할 수 없으므로 충분히 매끄럽고 두 번 미분할 수 있는 임의의 비선형 함수를 최소화하기 위해 경사 하강법이 도입되었습니다. 폐쇄형 솔루션은 없지만 오차 측정은 볼록 함수이므로 경사 하강법을 사용하여 비교적 쉽게 최적화할 수 있습니다.

확률적 경사하강법은 신경망에서 사용되는 경사하강법의 확장입니다. 신경망은 생물학적 관점에서 동기를 부여하고 퍼셉트론과 관련된 가설을 구현하는 모델입니다. 역전파 알고리즘은 신경망과 함께 사용되며 모델을 특히 실용적으로 만드는 효율적인 알고리즘입니다. 이 모델에는 사람들을 흥분시키고 알고리즘을 사용하여 구현하기 쉬운 생물학적 연결이 있습니다. 오늘날 선택되는 모델은 아니지만 신경망은 실제 응용 분야에서 성공적이었고 은행 및 신용 승인과 같은 많은 산업에서 여전히 표준으로 사용되고 있습니다.

간단한 요약:

  • 로지스틱 회귀는 제한된 실수 값 함수의 확률 해석을 계산하는 선형 모델입니다.
  • 기울기 하강법은 로지스틱 회귀를 최적화하기 위해 도입되었지만 오차 측정을 직접 최적화할 수는 없습니다.
  • 확률적 경사하강법은 신경망에서 사용되는 경사하강법의 확장입니다.
  • 신경망은 생물학적 관점에서 동기를 부여하고 퍼셉트론과 관련된 가설을 구현하는 모델입니다.
  • 역전파 알고리즘은 신경망과 함께 사용되며 모델을 특히 실용적으로 만드는 효율적인 알고리즘입니다.
  • 오늘날 신경망은 선택 모델이 아니지만 은행 및 신용 승인과 같은 많은 산업에서 여전히 표준으로 사용되고 있습니다.
Lecture 10 - Neural Networks
Lecture 10 - Neural Networks
  • 2012.05.06
  • www.youtube.com
Neural Networks - A biologically inspired model. The efficient backpropagation learning algorithm. Hidden layers. Lecture 10 of 18 of Caltech's Machine Learn...
 

강의 11 - 과대적합



Caltech의 기계 학습 과정 - CS 156. 강의 11 - 과적합

머신러닝에서 오버피팅의 개념과 중요성을 소개하는 강의입니다. 과적합은 모델이 신호 대신 잡음에 대해 학습될 때 발생하며, 결과적으로 샘플 적합도가 좋지 않습니다. 강의에는 노이즈 수준 및 대상 복잡도와 같은 다양한 매개변수가 과적합에 미치는 영향을 설명하기 위한 다양한 실험이 포함됩니다. 강사는 과적합을 조기에 감지하고 이를 방지하기 위해 정규화 및 검증 기술을 사용하는 것이 중요하다고 강조합니다. 결정론적 및 확률적 노이즈가 과적합에 미치는 영향에 대해서도 논의하고 정규화 및 검증을 통한 과적합 방지에 대한 다음 두 강의를 소개하며 강의를 마칩니다.

과적합의 개념에 대해 논의하고 이를 방지하기 위한 정규화의 중요성을 강조합니다. 교수는 과적합과 과소적합 사이의 절충점을 강조하고 과적합에서 VC 차원의 역할을 설명합니다. 여기서 동일한 수의 예제가 주어진 VC 차원의 불일치는 샘플 외 오류와 샘플 내 오류의 불일치를 초래합니다. 모델 검증의 실질적인 문제와 이것이 과적합 및 모델 선택에 미치는 영향도 다룹니다. 또한 교수는 과적합을 방지하기 위한 조각별 선형 함수의 역할을 강조하고, 모델의 자유도를 고려하고 정규화를 통해 제한하는 것이 중요하다고 강조합니다.

  • 00:00:00 이 섹션에서 강사는 기계 학습에서의 과적합 주제와 그 중요성을 소개하며 과적합을 처리하는 능력이 해당 분야의 전문가와 아마추어를 구분한다는 점에 주목합니다. 과적합의 주범은 노이즈로 파악하고 강사는 과적합에 대처하기 위한 기법으로 정규화와 검증의 개념을 소개한다. 이 섹션은 다음 세 강의에서 다룰 새로운 주제에 대한 소개 역할을 합니다.

  • 00:05:00 이 섹션에서 강사는 노이즈가 추가된 2차 대상 함수에 4차 다항식을 피팅할 때 과적합이 어떻게 발생할 수 있는지 보여줌으로써 과적합의 개념을 설명합니다. 그 결과 훈련 오류가 0이 되고 샘플 외 적합도가 낮아지며, 이는 모델이 필요 이상으로 진행되는 과적합의 전형적인 예입니다. 이 점은 신경망에서 과적합을 논의할 때 E_in이 훈련 중에 내려가고 E_out이 높게 유지되기 때문에 더욱 강조됩니다. 강사는 또한 과대적합은 더 나은 다른 상황이 있어야 하고 동일한 모델 내에서 과대적합이 발생할 수 있으므로 비교용 용어라고 지적합니다.

  • 00:10:00 이 섹션에서 Abu-Mostafa 교수는 E_in이 낮아지지만 신호 대신 노이즈를 피팅하여 E_out이 증가하는 오버피팅에 대해 설명합니다. 효과적인 VC 차원은 시간이 지남에 따라 증가하지만 일반화 오류는 매개변수의 수가 증가함에 따라 점점 더 심해진다고 설명합니다. 과적합은 두 개의 서로 다른 모델 또는 동일한 모델 내의 인스턴스를 비교할 때 발생할 수 있습니다. 이를 해결하는 한 가지 방법은 과적합을 방지하기 위한 정규화 역할을 하는 검증 기반 조기 중지 알고리즘을 사용하여 과적합을 감지하는 것입니다. 과적합이 발생할 때 잡음을 맞추지 않으려면 E_in을 계속 최소화하기보다 조기에 감지하고 중지하는 것이 중요합니다.

  • 00:15:00 이 섹션에서 강사는 데이터의 노이즈로 인해 과적합이 발생할 수 있는 방법에 대해 설명합니다. 사례 연구는 두 가지 다른 모델로 제시됩니다. 하나는 시끄러운 저차 타겟이 있는 모델이고 다른 하나는 노이즈가 없는 고차 타겟이 있는 모델입니다. 2차 다항식과 10차 다항식을 사용하여 데이터를 피팅합니다. 2차 적합의 경우 표본 내 오차는 0.05이고 표본 외 오차는 약간 더 높습니다. 반대로 10차 적합은 2차 적합보다 표본 내 오차가 작은 문제가 있습니다. 그러나 out-of-sample 오차가 급격히 증가하여 노이즈가 모델에 피팅된 경우가 과적합된 경우를 나타냅니다.

  • 00:20:00 이 섹션에서 강사는 모델이 다른 유형의 노이즈를 피팅할 때 노이즈가 없는 상황에서도 오버피팅이 어떻게 발생할 수 있는지에 대해 설명합니다. 그는 10차 노이즈 대상에 10차 모델을 피팅하는 예와 그 결과 어떻게 과적합이 발생했는지 설명합니다. 그리고 목표 복잡도가 아닌 데이터 자원에 모델의 복잡도를 맞추면 단순한 모델임에도 불구하고 더 나은 성능을 낼 수 있음을 보여준다. 강사는 일반화 문제는 데이터 세트의 크기와 품질에 따라 달라지며 단순히 모델의 복잡성을 대상 함수에 일치시키는 것이 항상 최선의 접근 방식은 아니라고 강조합니다.

  • 00:25:00 이 섹션에서는 기계 학습의 과적합 개념을 살펴봅니다. 이 강의에서는 학습 곡선을 사용하여 어떻게 더 복잡한 모델의 샘플 내 오류가 더 작고 샘플 외 오류가 더 큰지 보여 과적합이 발생하는 회색 영역을 정의합니다. 강의는 또한 노이즈 없이 50차 목표에 맞추기 위해 10차를 선택하고 다른 하나는 2차를 선택하는 두 명의 학습자를 사용한 실험을 보여줍니다. 노이즈가 없음에도 불구하고 두 학습자는 여전히 과대적합을 경험하므로 실제 노이즈의 정의와 실제 기계 학습 문제에서 주의가 필요합니다. 강의는 대부분의 경우 과적합이 발생한다고 결론을 내리며 이 문제를 이해하고 해결하는 것의 중요성을 강조합니다.

  • 00:30:00 이 섹션에서 강사는 노이즈 수준, 대상 복잡도 및 데이터 포인트 수를 포함하여 과적합에 영향을 미치는 매개변수에 대해 설명합니다. 복잡도가 높은 흥미로운 대상 함수를 생성하기 위해 강사는 서로 직교하는 특정 계수가 있는 표준 Legendre 다항식 세트를 사용합니다. 신호를 에너지 1로 정규화함으로써 강사는 시그마 제곱이 잡음의 양이라고 말할 수 있습니다. 실험 인스턴스를 생성할 때 강사는 노이즈, 대상 복잡성 및 데이터 포인트 수의 다양한 조합을 사용하여 과적합의 지속성을 관찰합니다.

  • 00:35:00 이 섹션에서 강사는 2차 다항식과 10차 다항식의 두 가지 다른 모델의 샘플 외 오차를 비교하는 과적합 측정 방법에 대해 설명합니다. 측정값은 복합 모델의 표본 외 오차와 단순 모형의 표본 외 오차 간의 차이입니다. 복잡한 모델의 표본 외 오류가 더 커서 측정값이 양수가 되면 과적합이 있는 것입니다. 그런 다음 강사는 다양한 수준의 잡음과 대상 복잡도에 따라 과적합 측정이 어떻게 변하는지 보여줍니다. 노이즈 레벨이 증가하고 목표 복잡성이 증가함에 따라 과적합이 악화됩니다. 강사는 또한 과적합이 중요한 문제이며 반드시 해결해야 한다고 지적합니다.

  • 00:40:00 이 섹션에서는 오버피팅에서의 노이즈 개념을 기존 노이즈를 넘어 확장하여 확률적 노이즈와 결정적 노이즈로 구분합니다. 데이터가 많을수록 일반적으로 과적합이 줄어들고 확률적 또는 결정론적 노이즈가 증가하면 과적합이 많아집니다. 결정론적 잡음은 가설 집합이 캡처할 수 없는 대상 함수의 일부로 정의되며 가설 집합이 처리할 수 없기 때문에 노이즈로 레이블이 지정됩니다. 캡처할 수 없는 것이 노이즈라는 개념은 숫자에 대한 이해가 제한된 어린 형제자매에게 복소수를 설명하는 것과 관련된 가상 시나리오를 사용하여 더 자세히 탐구합니다.

  • 00:45:00 강의의 이 섹션에서는 결정론적 노이즈와 확률론적 노이즈의 차이점을 설명하고 결정론적 노이즈가 과적합에 미치는 영향을 분석합니다. 결정론적 노이즈는 사용된 가설 세트에 따라 달라지며 목표 복잡성이 증가함에 따라 결정론적 노이즈와 과적합도 증가한다는 점을 강조합니다. 그러나 이는 대상 복잡성이 일정 수준을 초과할 때까지 발생하지 않습니다. 유한 N의 경우 제한된 샘플 크기로 인해 일부를 캡처할 수 있다는 점에서 확률적 노이즈와 동일한 문제가 결정적 노이즈에 적용됩니다. 또한 더 복잡한 가설 세트를 사용하는 것이 항상 더 나은 것은 아니며 과적합으로 이어질 수 있다고 언급됩니다.

  • 00:50:00 이 섹션에서 강사는 한정된 샘플이 주어졌을 때 과적합 문제에 대해 논의합니다. 그는 한정된 샘플이 주어지면 확률적 및 결정론적 노이즈를 맞출 수 있어 성능이 저하될 수 있다고 설명합니다. 강사는 확률적 및 결정론적 노이즈의 역할에 대한 통찰력을 얻기 위해 대상에 노이즈를 추가하는 정량적 분석을 제공합니다. 그는 분산 항, 편향 항 및 추가 항으로 이어지는 제곱 항과 교차 항을 얻기 위한 준비로 중심과 입실론을 더하고 뺍니다. 추가된 용어는 잡음의 분산인 시그마 제곱입니다.

  • 00:55:00 강의의 이 섹션에서 연사는 기대값을 편향과 분산으로 분해하고 이들이 결정론적 및 확률론적 노이즈와 어떻게 관련되는지에 대해 논의합니다. 둘 다 목표 함수에 대한 최상의 근사치와 예측할 수 없는 노이즈를 각각 나타냅니다. 예의 수의 증가는 분산을 감소시키지만 가설이 주어지면 편향과 분산 모두 불가피합니다. 결정론적 노이즈와 확률론적 노이즈는 둘 다 과적합에 더 취약하도록 맞춤을 만들어 분산에 영향을 미치는 데이터 포인트에 유한 버전이 있습니다. 연사는 두 가지 접근 방식인 정규화 및 검증에 대해 논의하여 과적합 방지에 대한 다음 두 강의를 안내합니다. 정규화는 과적합을 피하기 위해 제동을 거는 것과 같고 유효성 검사는 과적합을 피하기 위해 최종선을 확인하는 것과 같습니다.

  • 01:00:00 이 섹션에서 교수는 제한된 적합 또는 정규화를 사용하여 과적합에 제동을 거는 개념에 대해 논의합니다. 그는 4차 다항식에 점을 맞추는 예를 사용하지만 약간의 마찰을 가하여 끝까지 맞추는 것을 방지합니다. 적용되는 브레이크의 양은 최소화되지만 여전히 환상적인 핏을 달성하면서 오버피팅이 크게 감소합니다. 교수는 과적합을 방지하기 위해 정규화와 정규화를 선택하는 방법을 이해하는 것이 중요하다고 지적합니다. Q&A 세션에서는 확률적 경사 하강법에서 무작위화의 중요성과 신경망 플롯에서 표본 외 오류를 도출하는 방법을 다룹니다.

  • 01:05:00 이 섹션에서 교수는 학습 시나리오에서 결정론적 노이즈와 확률론적 노이즈가 동일하다고 설명합니다. 왜냐하면 결정론적 노이즈는 목표 함수에 더 가까워지지 않도록 설정된 가설이 불가능하기 때문에 발생하기 때문입니다. 실제 학습 문제에서 대상 함수의 복잡성은 일반적으로 알려지지 않았으며 노이즈를 식별할 수 없습니다. 과적합을 개념적으로 이해하는 목표는 노이즈의 세부 사항 없이 과적합을 피하는 것입니다. 오버 트레이닝은 동일한 모델에 비해 오버피팅과 동의어입니다. 부동 소수점 숫자와 같은 다른 오류 원인은 언급되지 않은 과적합에 제한된 영향을 미칩니다. 3차 선형 모델(로지스틱 회귀)의 관점에서 교수는 선형적으로 분리 가능한 데이터에 적용할 때 로컬 최소값과 샘플 내 오차가 0이 될 수 있다고 설명합니다.

  • 01:10:00 이 섹션에서 교수는 과적합 문제와 유한 샘플의 확률적 요인과 결정론적 요인 모두에서 노이즈의 기여로 인해 발생하는 유한 샘플 버전에 대해 논의합니다. 이렇게 하면 알고리즘이 해당 노이즈에 적합하게 되며, 이는 H_10과 같은 더 큰 모델에 적합할 때 유해합니다. 과적합을 방지하기 위해 조각별 선형 함수를 사용하는 것에 대해 논의할 때 교수는 모델의 자유도를 고려하고 정규화를 통한 피팅 측면에서 모델을 제한하는 조치를 취하는 것의 중요성을 강조합니다. 마지막으로 교수는 모델 검증에 대한 실질적인 질문과 이것이 과적합 및 모델 선택에 미치는 영향을 다룹니다.

  • 01:15:00 이 섹션에서 교수는 과적합과 과소적합 사이의 균형에 대해 논의하고 더 나은 가설에 도달하기 위해 훈련에 사용될 수 있는 리소스를 스스로 박탈해야 할 수도 있다고 설명합니다. 교수는 또한 VC(Vapnik-Chervonenkis) 차원과 그것이 과적합과 어떻게 관련되는지 자세히 설명하면서 동일한 수의 예가 주어졌을 때 VC 차원의 불일치가 out-of-sample과 - 샘플 오류. 교수는 또한 색상 플롯에서 목표 복잡성을 설명했지만 목표 복잡성이 명시적으로 측정되지 않았으며 이를 결정론적 노이즈의 에너지로 매핑할 명확한 방법이 없다고 설명합니다. 마지막으로 교수는 목표 복잡성이 편향-분산 분해에서 어떤 것으로 변환될 수 있고 과적합 및 일반화에 영향을 미치는 방법에 대해 논의합니다.
Lecture 11 - Overfitting
Lecture 11 - Overfitting
  • 2012.05.10
  • www.youtube.com
Overfitting - Fitting the data too well; fitting the noise. Deterministic noise versus stochastic noise. Lecture 11 of 18 of Caltech's Machine Learning Cours...
 

강의 12 - 정규화



Caltech의 기계 학습 과정 - CS 156. 강의 12 - 정규화

정규화에 대한 이번 강의는 오버피팅과 그것이 머신러닝 모델의 일반화에 미치는 부정적인 영향에 대한 설명으로 시작합니다. 정규화에 대한 두 가지 접근 방식인 수학 및 휴리스틱이 논의됩니다. 그런 다음 강의에서는 Legendre 다항식의 예를 확장 구성 요소로 사용하여 정규화가 선형 모델의 편향 및 분산에 미치는 영향에 대해 자세히 설명합니다. 정규화에서 C와 람다 사이의 관계도 다루어지며, 일반화를 위해 정규화를 정당화하는 오류 및 오류의 역할을 소개합니다. 가중치 감쇠/성장 기술과 과적합을 방지하기 위해 올바른 정규화기를 선택하는 것의 중요성에 대해서도 설명합니다. 강의는 휴리스틱 연습으로 좋은 오메가를 선택하는 데 중점을 두고 람다가 정규화를 위한 구원의 은총으로 작용하기를 희망하는 것으로 끝납니다.

두 번째 부분에서는 네트워크의 단순성과 기능의 균형을 맞추는 방법으로 가중치 감쇠에 대해 설명합니다. 강사는 다양한 노이즈 수준에 대한 최적의 정규화 매개변수를 결정하기 위해 유효성 검사 사용을 강조하면서 과도한 정규화 및 최적이 아닌 성능에 대해 주의를 기울입니다. 정규화는 이론과 실습을 기반으로 실험적인 것으로 논의됩니다. L1/L2, 조기 중지 및 드롭아웃과 같은 일반적인 유형의 정규화를 소개하고 다양한 문제에 대한 적절한 정규화 방법을 결정하는 방법을 설명합니다. 정규화 구현과 관련된 일반적인 하이퍼파라미터에 대해서도 설명합니다.

  • 00:00:00 이 섹션에서 Yaser Abu-Mostafo는 모델이 데이터에 너무 잘 맞을 때 발생하는 오버피팅에 대해 자세히 설명합니다. 데이터에 노이즈가 없더라도 모델의 한계로 인해 결정론적 노이즈가 발생할 수 있으며, 이는 out-of-sample 오류를 해치고 과적합을 유발하는 패턴으로 이어집니다. 그러나 Abu-Mostafo는 과적합에 대한 첫 번째 치료법으로 정규화를 소개합니다. 이는 거의 모든 기계 학습 응용 프로그램에서 사용되는 기술이며 이해하는 것이 중요합니다.

  • 00:05:00 이 섹션에서 강사는 기계 학습의 정규화에 대한 두 가지 접근 방식에 대해 설명합니다. 첫 번째 접근 방식은 수학적 접근 방식으로 부자연스러운 문제를 해결하기 위해 매끄러움 제약 조건이 부과되지만 이러한 개발 과정에서 만들어진 가정이 실제 적용에 항상 현실적인 것은 아닙니다. 두 번째 접근 방식은 휴리스틱(heuristic)이며 적합에 제동을 걸어 샘플 내 오류를 최소화하여 과적합을 방지하는 데 도움이 됩니다. 강사는 정현파와 선 맞춤을 사용하여 예를 들어 선의 오프셋과 기울기를 정규화하고 제어함으로써 샘플 외부에서 더 나은 성능을 얻을 수 있음을 보여줍니다.

  • 00:10:00 이 섹션에서 강사는 정규화가 선형 모델의 편향 및 분산에 미치는 영향에 대해 설명합니다. 정규화를 사용하면 분산이 줄어들고 불완전한 적합으로 인해 편향이 약간 증가합니다. 강사는 Legendre 다항식을 확장 구성 요소로 사용하는 다항식 모델의 예를 사용하여 정규화가 편향과 분산에 미치는 영향을 보여줍니다. 정규화를 사용하면 선형 모델이 비정규화 모델과 심지어 상수 모델보다 성능이 뛰어납니다. 이 강의는 실제 상황을 다루기 위해 배울 수 있는 구체적인 결론과 교훈에 중점을 두고 기계 학습에서 가장 유명한 정규화 기술 중 하나의 수학적 개발에 대해 자세히 설명합니다.

  • 00:15:00 이 섹션에서 강사는 Legendre 다항식을 소개하고 다항식 회귀에 대한 가설 설정을 구성하는 데 어떻게 사용할 수 있는지 설명합니다. 직교하고 서로 다른 좌표를 다루는 이러한 다항식을 사용하면 관련 매개변수가 개별 가중치가 아닌 가중치의 조합입니다. 가설 집합은 매개변수화되고 선형 형식으로 표시될 수 있으므로 쉽게 분석 솔루션을 사용할 수 있습니다. 목표 함수는 알 수 없으며 목표는 유한 훈련 세트를 사용하여 이에 대한 좋은 근사치를 얻는 것입니다. 강사는 또한 선형 회귀를 사용하여 샘플 내 오류를 최소화하기 위한 비제약 및 제약 솔루션에 대해 설명합니다.

  • 00:20:00 이 섹션에서 강사는 가설 집합의 가중치에 적용되는 제약 조건인 정규화의 개념에 대해 설명합니다. 정규화에는 가중치의 총 크기 제곱에 대한 예산 C 설정이 포함되며 이는 모든 가중치를 너무 크게 가질 수 없음을 의미합니다. 문제는 이 제약 조건에 따라 샘플 내 오류를 최소화하는 것입니다. 해는 w_reg라는 새로운 해를 제공하는 라그랑주 승수 또는 KKT를 사용하여 얻습니다. 강사는 목표는 샘플 내 오류를 최소화하는 원 내의 점을 선택하는 것이며, 이를 위해서는 제약 조건을 위반하지 않고 가능한 한 멀리 나가야 한다고 설명합니다.

  • 00:25:00 이 섹션에서는 정규화의 개념에 대해 설명합니다. 여기서 목표는 보이지 않는 데이터로 잘 일반화되는 모델을 파생시키는 것입니다. 선형 회귀 솔루션은 제약 조건을 충족하는 최소 절대값입니다. 주요 초점은 목표와 제약 조건 사이의 절충점을 찾기 위해 제약 조건에 따라 E_in의 최소값을 달성하기 위한 분석 조건을 도출하는 것입니다. 목적 함수의 기울기는 타원에 직교해야 하며 벡터 w는 빨간색 표면 방향입니다. w_reg에 대한 분석 조건은 기울기가 해의 음수에 비례해야 한다는 것입니다. 해의 방정식을 최소화하면 무조건 E_in의 최소값을 얻습니다.

  • 00:30:00 이 섹션에서는 정규화에서 매개변수 C와 람다 간의 관계에 대해 강의합니다. C 값이 클수록 정규화 기간이 덜 강조되므로 람다 값이 작아집니다. 반대로 C가 감소하면 정규화 기간이 더 중요해지고 조건을 적용하려면 람다 값이 증가해야 합니다. 오차함수와 정규화항의 합인 Augmented Error도 소개한다. 이는 제약 조건에 따라 오류 함수를 최소화하는 제약 없는 최적화 문제와 동일합니다. 이 서신은 일반화 측면에서 정규화를 정당화하며 모든 정규화기에 적용할 수 있습니다. 마지막으로 증분오차를 최소화하는 공식을 제시하고 해결책을 제시하는 것으로 강의를 마친다.

  • 00:35:00 이 섹션에서 화자는 정규화 문제에 대한 해결책에 대해 논의합니다. 해는 정규화 항이 추가된 의사 역 해의 수정인 w_reg로 표시됩니다. 깨끗한 가정 하에서 정규화를 포함한 원스텝 학습이 있습니다. 즉, 제한된 최적화를 수행하지 않고도 완전히 솔루션을 얻을 수 있습니다. 솔루션의 정규화 항은 람다가 증가함에 따라 우세해지며, 이는 w_reg를 0으로 낮추어 점점 더 작은 솔루션을 생성합니다. 그런 다음 발표자는 친숙한 문제에 정규화를 적용하여 람다 선택이 중요하고 정규화 유형에 대한 휴리스틱 선택이 필요함을 보여줍니다.

  • 00:40:00 이 섹션에서는 정규화의 개념과 가중치 감쇠로 알려진 관련 방법을 소개합니다. 가중치 감쇠는 w 전치 w를 최소화하고 "감쇠"라는 이름이 지정되도록 가중치가 작은지 확인하는 것과 관련된 기계 학습의 유명한 정규화입니다. 신경망을 사용할 때 가중치 감소는 배치 경사하강법을 통해 구현할 수 있습니다. 여기서 이 항을 추가하면 가중치 공간에서 이동하기 전에 가중치가 축소되어 λ가 클 때 함수에 대해 배울 수 있는 양이 제한됩니다. 가중치 감쇠의 변형에는 특정 가중치에 중요 요소를 할당하고 다른 상수를 사용하여 사용 중인 정규화 유형을 실험하는 것이 포함됩니다.

  • 00:45:00 이 섹션에서 강사는 모델에서 사용하는 가중치 범위를 제한하기 위해 기계 학습에서 사용되는 제약 조건인 가중치 감쇠 및 가중치 증가 기술에 대해 설명합니다. 가중치 감쇠는 더 작은 가중치를 사용하도록 모델을 제한하는 것과 관련되며 가중치 증가는 더 큰 가중치를 제한합니다. 강사는 최상의 out-of-sample 성능을 달성하기 위해 두 기술 모두에 대해 최적의 람다 값을 선택해야 한다고 설명합니다. 또한 강사는 올바른 정규화기를 선택하는 방법에 대해 설명하고 정규화기 선택을 안내하는 지침을 사용하여 과적합을 피하는 것의 중요성을 강조합니다. 궁극적으로 강사는 고주파 확률적 노이즈를 피하는 것과 같은 최적의 규칙화기를 찾는 데 도움이 되는 실용적인 규칙을 사용할 것을 권장합니다.

  • 00:50:00 강의의 이 섹션에서 강사는 과적합으로 이어질 수 있는 다양한 유형의 노이즈와 더 부드러운 가설을 선택하는 경향이 있는 정규화를 선택하는 것이 중요한 이유를 설명합니다. 그는 정규화의 일반적인 형태와 최소화되는 증가 오차를 정의하며 이는 VC 분석에서 사용되는 방정식과 유사합니다. 그는 또한 개별 가설의 복잡성과 개체 집합의 복잡성 사이의 대응 관계와 E_aug가 E_in보다 E_out에 대한 더 나은 추정치인 방법에 대해 논의합니다.

  • 00:55:00 정규화에 대한 강의의 이 섹션에서는 샘플 외 오류에 대한 더 나은 프록시로서 증가된 오류에 대한 아이디어가 논의됩니다. 정규화는 과적합을 줄이는 것을 목표로 합니다. 이는 기본적으로 신호보다 잡음을 더 많이 맞추는 것입니다. regularizer를 선택하는 기본 원칙은 노이즈가 매끄럽지 않고 더 매끄러운 솔루션이 피팅 신호보다 노이즈에 더 많은 피해를 주는 경향이 있기 때문에 더 매끄러운 방향으로 이동하는 것입니다. smoother가 잘 적용되지 않는 경우에도 simple의 개념이 도입됩니다. 좋은 오메가를 선택하는 것은 휴리스틱 연습이며 관련된 수학은 기반이 되는 가정만큼만 좋습니다. 강의는 람다가 regularizer를 선택하는 데 도움이 될 것이라는 희망으로 끝납니다.

  • 01:00:00 강의의 이 섹션에서는 신경망에 대한 가중치 감쇠의 개념을 살펴봅니다. 가중치가 작으면 함수가 단순해지고 가중치가 커지면 모든 기능을 구현할 수 있도록 논리적 종속성이 생깁니다. 정규화의 또 다른 형태는 가중치 제거로, 네트워크 내의 일부 가중치가 0이 되도록 강제하여 VC 차원을 더 작게 만들어 일반화를 개선하고 과적합 가능성을 낮춥니다. 소프트 가중치 제거가 도입되어 연속 함수가 네트워크에 적용되어 일부 가중치를 다른 가중치보다 강조합니다. 마지막으로 조기정지는 regularizer의 한 형태로 논의되는데, 이는 기능에 간접적으로 단순함을 제공하는 방법이기 때문에 훈련이 끝나기 전에 중지하는 것을 추천한다.

  • 01:05:00 이 부분에서 교수는 정규화는 옵티마이저를 통해 이루어지며 목적 함수를 변경하지 않는다고 설명합니다. 대신 샘플 내 오류인 목적 함수를 옵티마이저에 넘겨주고 최소화하라고 지시합니다. 그런 다음 교수는 옵티마이저에 정규화 장치를 두는 것에 대해 경고합니다. 올바르게 수행하지 않으면 과도한 정규화 및 최적이 아닌 성능으로 이어질 수 있습니다. 그는 목적 함수에서 가능한 한 많이 캡처한 다음 검증을 사용하여 정규화 매개변수 람다의 최적 값을 결정하는 것의 중요성을 강조합니다. 그런 다음 교수는 잡음 수준에 따라 람다 선택이 어떻게 변하는지, 검증을 사용하면 잡음이 주어진 최상의 결과를 결정하는 데 어떻게 도움이 되는지 보여줍니다. 마지막으로 그는 성능에 따라 매개변수가 다른 여러 유형의 regularizer를 사용하는 방법에 대해 설명합니다.

  • 01:10:00 이 섹션에서 교수는 완전히 원칙적인 활동이 아닌 실험적 활동인 기계 학습에서 정규화 도구의 사용에 대해 논의합니다. 기계 학습 접근 방식은 이론과 실제 사이의 어딘가에 있으며, 이는 두 가지 모두에 강력한 기반을 가지고 있음을 의미합니다. 교수는 Legendre 다항식을 직교 함수로 사용합니다. 흥미로운 수준의 일반성을 제공하고 솔루션이 간단하기 때문입니다. 정규화를 통해 사용자는 두 개의 개별 단계 사이에 있을 수 있는 최상의 성능을 위한 스윗 스팟을 찾을 수 있습니다. 추가된 정규화 용어는 데이터 세트에 명시적으로 의존하지 않습니다. 그러나 최적의 매개변수인 람다(lambda)는 검증을 통해 결정되는 트레이닝 세트에 따라 달라집니다.

  • 01:15:00 이 섹션에서는 기계 학습 모델에서 과적합을 방지하기 위해 손실 함수에 페널티 항을 추가하는 정규화 개념을 소개합니다. 정규화의 두 가지 가장 일반적인 유형인 L1 및 L2에 대해 각각의 장단점과 함께 설명합니다. 또한 대체 정규화 기술로 조기 중지 및 드롭아웃을 사용하는 방법도 설명합니다. 강의는 주어진 문제에 대한 적절한 정규화 방법을 결정하는 방법과 정규화를 구현할 때 고려해야 할 일반적인 하이퍼파라미터에 대한 개요로 마무리됩니다.
Lecture 12 - Regularization
Lecture 12 - Regularization
  • 2012.05.14
  • www.youtube.com
Regularization - Putting the brakes on fitting the noise. Hard and soft constraints. Augmented error and weight decay. Lecture 12 of 18 of Caltech's Machine ...
 

강의 13 - 검증




Caltech의 기계 학습 과정 - CS 156. 강의 13 - 검증

강의 13에서는 모델 선택을 위한 기계 학습의 중요한 기술인 유효성 검사에 중점을 둡니다. 이 강의는 유효성 검사라고 하는 이유와 모델 선택에 중요한 이유를 포함하여 유효성 검사의 세부 사항에 대해 설명합니다. 교차 유효성 검사는 교육 및 유효성 검사에 사용 가능한 모든 예제를 사용할 수 있는 유효성 검사 유형으로도 논의됩니다. 강사는 표본 외 점을 취하고 가설과 목표 값의 차이를 계산하는 확률 변수를 사용하여 표본 외 오차를 추정하는 방법을 설명합니다. 이 강의에서는 특정 모델을 선택하기 위해 추정치를 사용할 때 도입되는 편향도 설명합니다. 검증 세트를 기반으로 선택되었기 때문에 더 이상 신뢰할 수 없기 때문입니다. 서로 다른 가설에 대한 표본 외 오류를 평가하는 방법으로 교차 검증의 개념이 도입되었습니다.

또한 "leave one out" 및 10-fold 교차 검증에 중점을 두고 과적합을 방지하기 위한 모델 선택 및 검증을 위한 교차 검증의 사용을 다룹니다. 교수는 샘플 외 불일치 및 데이터 스누핑을 설명하는 것의 중요성을 설명하고 샘플링 편향을 피하기 위해 무작위화 방법을 포함할 것을 제안합니다. 그는 교차 검증이 복잡성을 더할 수 있지만 이를 정규화와 결합하면 최상의 모델을 선택할 수 있으며 검증에는 가정이 필요하지 않기 때문에 독특하다고 설명합니다. 교수는 교차 검증이 서로 다른 시나리오와 모델을 비교할 때에도 원칙에 입각한 선택을 하는 데 어떻게 도움이 되는지, 총 검증 포인트가 오차 막대와 편향을 어떻게 결정하는지 설명합니다.

  • 00:00:00 이 섹션에서는 모델 선택에 사용되는 기계 학습의 또 다른 중요한 기술인 유효성 검사에 중점을 둡니다. 이 프로세스에는 검증 세트 크기를 선택하고 이를 사용하여 모델 선택 프로세스를 검증하는 작업이 포함됩니다. 이 강의는 유효성 검사라고 하는 이유와 모델 선택에 중요한 이유를 포함하여 유효성 검사의 세부 사항에 대해 설명합니다. 또한 학습 및 유효성 검사에 사용 가능한 모든 예제를 사용할 수 있는 유효성 검사 유형인 교차 유효성 검사에 대해서도 설명합니다. 강의는 통제에 관한 한 검증과 정규화를 대조합니다.

  • 00:05:00 이 섹션에서 강사는 모델의 복잡성으로 인한 표본 내 오차와 표본 외 오차의 차이를 다루는 잘 알려진 방정식의 맥락에서 검증 및 정규화에 대해 논의합니다. 정규화는 과적합 복잡성에 대한 페널티를 추정하는 반면 검증은 샘플 외 오류를 직접 추정하려고 시도합니다. 강사는 표본 외 점을 취하고 가설과 목표 값의 차이를 계산하는 확률 변수를 사용하여 표본 외 오차를 추정하는 방법을 설명합니다. 강사는 분산이 추정치의 품질에 어떤 영향을 미치는지 강조하고 하나의 포인트 대신 전체 포인트 세트를 사용할 것을 제안합니다.

  • 00:10:00 이 섹션에서는 유효성 검사 집합의 개념과 샘플 외 오류의 편향되지 않은 추정치로서의 유효성 검사 오류를 소개합니다. 유효성 검사 오류의 예상 값은 E_out이며 이는 단일 지점에서 예상 값의 또 다른 형식입니다. 유효성 검사 오류의 분산을 분석하여 단일 지점에 비해 E_val을 기반으로 한 추정에 개선이 있음을 보여줍니다. 분산은 결국 1/K에 비례하므로 K를 높이면 오류 막대가 줄어들고 추정의 신뢰도가 향상됩니다. 그러나 검증 포인트 수는 무료가 아니며 훈련에 사용할 수 있는 포인트 수에 직접적인 영향을 미칩니다.

  • 00:15:00 이 섹션에서는 유효성 검사 프로세스에 중점을 둡니다. 여기서 K 포인트는 유효성 검사 목적으로 N 포인트에서 가져오고 나머지 하위 집합 D_train은 교육에 사용됩니다. 또한 최종 가설이 신뢰할 수 있음을 보장하기 위해 검증 세트의 신뢰할 수 있는 추정치를 갖는 것이 유용하다는 점에 주목하는 것도 중요합니다. 그러나 불량 수량에 대한 신뢰할 수 있는 추정치를 갖는 것이 목적이 되어서는 안 됩니다. K 값이 증가할수록 추정의 신뢰도는 높아지지만 가설의 질은 떨어집니다. 따라서 K의 증가에 따른 대가를 치르지 않는 방법을 찾는 것이 중요합니다. 한 가지 방법은 오류를 추정한 후 데이터 세트를 복원하고 전체 세트로 훈련하여 더 나은 결과를 얻는 것입니다.

  • 00:20:00 이 섹션에서는 훈련 중에 검증 세트를 사용할 때 성능 저하에 중점을 둡니다. 축소된 D_train 세트는 전체 훈련 세트 D에 비해 더 적은 예를 가지게 되며 이를 사용하여 최종 가설 g 빼기를 얻습니다. 추정치를 얻기 위해 검증 세트 D_val에서 g 마이너스를 평가한 다음 나머지 예제를 다시 냄비에 추가하고 g를 보고합니다. 그러나 큰 K는 g 마이너스와 g 사이의 차이가 더 크다는 것을 의미하며 이는 우리가 보고하는 추정치의 신뢰도에 영향을 미칩니다. 따라서 두 세계의 장점을 모두 얻기 위해 유효성 검사에 1/5을 사용하는 경험 법칙이 있습니다. 학습 과정에 영향을 미치고 선택에 도움이 되기 때문에 검증이라고 합니다.

  • 00:25:00 이 섹션에서는 테스트 오류와 유효성 검사 오류의 차이점을 이해하는 데 중점을 둡니다. 테스트 세트가 편향되지 않고 E_out을 추정하는 데 사용되는 경우 추정값에 변동이 있습니다. 조기 중지를 사용하면 추정치의 편향이 변경됩니다. 미니 학습 시나리오에서는 최소값의 기대값이 0.5 미만이므로 낙관적 편향임을 쉽게 알 수 있습니다. 조기 중지를 위해 지점을 선택할 때도 같은 일이 발생합니다. 선택한 지점은 실현에서 최소이며 낙관적 편향이 도입됩니다.

  • 00:30:00 이 섹션에서는 기계 학습에서 모델 선택을 위한 유효성 검사 집합의 사용에 대해 설명합니다. 이 프로세스에는 교육 및 검증 세트로 분할된 데이터 세트를 사용하여 M 모델을 교육한 다음 검증 세트에서 각 모델의 성능을 평가하여 샘플 외 오류의 추정치를 얻습니다. 검증 오류가 가장 작은 모델이 선택되지만 이 선택 프로세스로 인해 편향이 도입될 위험이 있습니다. 그럼에도 불구하고 편향은 일반적으로 실제로는 미미하며 표본 외 오류의 신뢰할 수 있는 추정치를 얻기 위해 허용될 수 있습니다.

  • 00:35:00 이 섹션에서 강사는 검증 세트를 기반으로 선택되었기 때문에 더 이상 신뢰할 수 없기 때문에 특정 모델을 선택하기 위해 추정치를 사용할 때 도입된 편향에 대해 설명합니다. 추정기의 기대값은 표본 외 오차의 편향된 추정치가 됩니다. 두 모델을 사용한 실험에서 한 모델 또는 다른 모델에 대한 체계적 편향을 나타내는 곡선이 생성되었습니다. 그래프의 곡선은 학습 곡선의 역방향과 교육을 위한 더 많은 예제로 샘플 외 오류가 어떻게 감소하는지 나타냅니다. 검증 세트의 크기가 커질수록 추정치의 신뢰성이 높아지고 모델의 오류를 나타내는 곡선이 수렴됩니다.

  • 00:40:00 이 섹션에서는 특수 가설 세트에 대한 교육과 검증 세트를 사용하여 최종 가설을 찾는 것 사이의 불일치 또는 편향을 추정하는 방법을 설명합니다. 유효성 검사 세트는 최종 가설 세트에 대한 학습 오류로 간주되며 VC 차원 및 유효 복잡도와 관련된 약간의 수학을 통해 샘플 외 오류의 추정치를 얻을 수 있습니다. 더 많은 예가 추정치를 향상시키겠지만 증가된 가설 중에서 선택할 때 로그 기여도를 고려해야 합니다. 그럼에도 불구하고 단일 매개변수를 처리할 때 유효 복잡도는 VC 차원이 1이므로 처리하기 어렵지 않습니다. 따라서 적절한 집합이 있는 경우 샘플 외 오류를 추정해도 실제 값과 크게 다르지 않습니다.

  • 00:45:00 이 섹션에서 발표자는 특히 유효성 검사와 관련하여 결정을 내리기 위해 오류 추정을 사용할 때 데이터 오염의 개념에 대해 논의합니다. 훈련 세트는 완전히 오염된 것으로 간주되는 반면 테스트 세트는 완전히 깨끗하고 편향되지 않은 추정치를 제공합니다. 그러나 검증 세트는 몇 가지 결정을 내리는 데 사용되기 때문에 약간 오염되어 있으므로 필요에 따라 다른 검증 세트로 이동하지 않고 이동하는 것이 중요합니다. 그런 다음 화자는 프로세스에서 편향되지 않는 한 더 작은 오류 막대로 더 나은 추정치를 얻을 수 있는 유효성 검사 체계로 교차 유효성 검사를 도입합니다.

  • 00:50:00 이 섹션에서 교수는 교차 유효성 검사를 통한 유효성 검사의 개념, 특히 "leave one out" 방법을 소개합니다. 이 방법에서는 데이터 세트를 두 개로 나누어 한 지점은 검증에 사용하고 나머지는 교육에 사용합니다. 이 프로세스는 다른 지점에 대해 반복되어 여러 편향되지 않은 불완전한 추정을 초래합니다. 모든 추정은 N 빼기 1 데이터 포인트를 사용한 교육을 기반으로 하므로 공통 스레드가 있습니다. 불완전함에도 불구하고 반복된 추정은 모델의 동작에 대한 통찰력을 제공하고 최상의 샘플 외 성능을 위해 모델을 최적화하는 데 도움이 됩니다.

  • 00:55:00 이 섹션에서는 다양한 가설에 대한 표본 외 오류를 평가하는 방법으로 교차 검증의 개념을 소개합니다. 데이터 세트를 훈련 세트와 검증 세트로 나누면 보이지 않는 데이터에 대한 모델의 성능을 추정할 수 있습니다. 프로세스를 설명하기 위해 "leave one out" 방법이 사용됩니다. 교차 검증의 효과에 대해 논의하며 N-1 포인트를 훈련에 사용하고 N 포인트를 검증에 사용하는 것이 정확한 결과를 얻는 데 매우 효율적이라는 것을 보여줍니다.

  • 01:00:00 이 섹션에서 교수는 모델 선택을 위한 교차 검증 사용에 대해 논의합니다. 그는 선형 모델과 상수 모델을 3점으로 비교하여 이를 입증하고 상수 모델이 어떻게 승리하는지 보여줍니다. 그런 다음 그는 20개의 특징이 있는 5차 비선형 변환을 사용하여 손으로 쓴 숫자의 분리 표면을 찾는 문제에 교차 검증을 적용합니다. 그는 교차 검증 "leave one out"을 사용하여 20개의 모델을 비교하고 기능 추가를 중지할 위치를 선택합니다. 그는 교차 검증 오류가 샘플 외 오류와 밀접하게 추적되며 이를 모델 선택의 기준으로 사용하면 검증 없이 전체 모델을 사용하는 것에 비해 향상된 성능으로 6개의 기능에서 최소값으로 이어진다는 것을 보여줍니다.

  • 01:05:00 이 섹션에서 교수는 과적합을 방지하기 위한 유효성 검사 사용과 이것이 정규화와 유사한 것으로 간주되는 방식에 대해 논의합니다. 그는 "leave one out" 유효성 검사가 대부분의 실제 문제에 실용적이지 않은 이유를 설명하고 대신 10겹 교차 유효성 검사를 사용할 것을 제안합니다. 그는 또한 데이터 세트의 크기에 따라 사용할 매개변수 수에 대한 지침을 제공하고 검증을 통한 모델 선택이 데이터 스누핑으로 간주되지 않는 이유를 설명합니다.

  • 01:10:00 이 섹션에서 교수는 검증 세트를 사용하여 모델을 선택할 때 샘플 외 불일치 및 데이터 스누핑을 설명하는 것의 중요성에 대해 논의합니다. 그는 샘플링 편향을 피하기 위해 동전 뒤집기와 같은 무작위화 방법을 사용하고 많은 실제 사례에서 정규화 매개변수를 선택하기 위해 교차 검증 기술을 사용할 필요성을 강조합니다. 교차 유효성 검사는 계산 복잡성을 추가할 수 있지만 정규화와 결합하여 모델에 대한 최상의 가설을 선택할 수도 있습니다. 교수는 모델 선택을 위한 다른 방법이 있지만 검증은 가정이 필요하지 않다는 점에서 독특하다고 지적합니다.

  • 01:15:00 이 섹션에서 교수는 선택의 특성에 관계없이 모델을 선택할 때 유효성 검사가 원칙적인 선택을 돕는 방법과 시간 변화 또는 추적 시스템의 경우 모델을 업데이트하는 데 사용할 수 있는 방법에 대해 논의합니다. 진화. 유효성 검사와 교차 유효성 검사를 비교할 때 그는 두 방법 모두 편향이 있지만 교차 유효성 검사를 통해 교육 및 유효성 검사 모두에 더 많은 예를 사용할 수 있으므로 오차 막대가 작아지고 편향에 대한 취약성이 적다고 설명합니다. 데이터 세트가 너무 커서 교차 검증이 필요하지 않을 수도 있지만 교수는 데이터의 특성으로 인해 1억 개의 포인트가 있어도 교차 검증이 여전히 유익한 예를 제공합니다.

  • 01:20:00 이 섹션에서 교수는 교차 유효성 검사가 유용한 시나리오에 대해 논의하고 잠재적인 문제를 해결합니다. 그는 대규모 데이터 세트에서 가장 관련성이 높은 부분이 전체 세트보다 작을 때 교차 검증이 관련성이 있다고 설명합니다. 경쟁 모델 사이에서 결정할 때 표본 외 오차의 유의성을 결정하기 위해서는 통계적 증거가 필요합니다. 교수는 더 작은 데이터 세트의 경우 교차 검증을 위해 세트를 다시 샘플링하는 것이 더 나은지 또는 세트를 청크로 나누는 것이 더 나은지에 대한 결정적인 답이 없다고 말합니다. 교수는 또한 수업 간 균형의 역할과 누락된 점수를 늘릴 때 편향이 어떻게 작용하는지에 대해 논의합니다. 마지막으로 교수는 총 검증 포인트 수가 오차 막대를 결정하고 편향은 교차 검증이 사용되는 방식의 함수라고 설명합니다.

  • 01:25:00 이 섹션에서 교수는 오류 막대에 대해 설명하고 추정치의 편향에 대한 취약성을 표시하는 방법에 대해 설명합니다. 두 시나리오에 비슷한 오류 막대가 있는 경우 한 시나리오가 편향에 더 취약하다고 믿을 이유가 없습니다. 그러나 한 번에 하나의 시나리오를 취하는 것과 상관 관계를 고려하는 것의 차이를 보려면 자세한 분석이 필요합니다. 교수는 접기가 여러 번 수행되고 모든 예가 교차 검증 추정치에 정확히 한 번만 나타나는 한 편향 측면에서 시나리오 간에 선호가 없다고 결론을 내립니다.
Lecture 13 - Validation
Lecture 13 - Validation
  • 2012.05.17
  • www.youtube.com
Validation - Taking a peek out of sample. Model selection and data contamination. Cross validation. Lecture 13 of 18 of Caltech's Machine Learning Course - C...
 

강의 14 - 서포트 벡터 머신



Caltech의 기계 학습 과정 - CS 156. 강의 14 - 지원 벡터 기계

강의에서는 유효성 검사의 중요성과 기계 학습에서의 사용, 유효성 검사에 대한 교차 유효성 검사의 이점을 다룹니다. 강의의 초점은 분류를 위한 가장 효과적인 학습 모델인 SVM(Support Vector Machine)에 있으며, 제한적 최적화를 통한 마진 최대화, 공식화 및 분석 솔루션과 관련된 섹션에 대한 자세한 개요가 제시됩니다. 강의는 SVM에서 점과 초평면 사이의 거리를 계산하는 방법, SVM의 최적화 문제를 해결하는 방법, 이중 공식에서 SVM 최적화 문제를 공식화하는 방법 등 다양한 기술을 다룹니다. 강사는 또한 최적화 문제를 해결하기 위해 2차 계획법을 사용하는 실제적인 측면과 지원 벡터 식별의 중요성에 대해 논의합니다. 강의는 SVM의 비선형 변환 사용에 대한 간략한 설명으로 끝납니다.

서포트 벡터 머신(SVM)에 대한 이 강의의 두 번째 부분에서 강사는 어떻게 서포트 벡터의 수를 예의 수로 나눈 값이 샘플 외 점을 분류할 때 오류 확률의 상한을 제공하는지 설명합니다. 비선형 변환이 가능한 서포트 벡터 사용. 교수는 또한 w 전치된 x 더하기 b를 1로 정규화하고 최적화의 필요성과 오류를 허용하고 벌점을 부과하는 SVM의 소프트 마진 버전에 대해 논의합니다. 또한 지원 벡터의 수와 VC 차원의 관계를 설명하고 노이즈 데이터의 경우 사용되는 소프트 버전의 방법과 함께 노이즈에 대한 방법의 저항을 언급합니다.

  • 00:00:00 이 섹션에서 강사는 특히 기계 학습에서의 사용 측면에서 검증의 중요성에 대해 논의합니다. 유효성 검사 오류의 결과로 편향되지 않은 낙관적 편향의 개념과 모델 선택에 미치는 영향에 대해서도 설명합니다. 유효성 검사에 비해 교차 유효성 검사의 이점은 섹션에서 더 강조됩니다. 또한 강사는 학습 모델의 중요한 장점으로 직관적인 해석, 원리에 따른 유도 및 최적화 패키지를 언급하면서 분류를 위한 가장 효과적인 학습 모델로 서포트 벡터 머신을 소개합니다. 제한된 최적화를 통한 마진, 공식 및 분석 솔루션의 극대화와 관련된 섹션의 자세한 개요도 제공됩니다.

  • 00:05:00 이 섹션에서는 선형 분리에서 마진을 최대화하는 개념을 설명했습니다. 선형으로 분리 가능한 데이터를 구분하는 모든 라인은 샘플 내 오류가 0이지만 일부 라인은 일반화를 허용하는 더 나은 여백을 가질 수 있습니다. 시끄러운 상황에서 새로운 포인트가 올바르게 분류될 가능성이 더 높기 때문에 마진이 클수록 더 좋다고 설명합니다. 이는 성장 함수와 관련이 있으며 성장 함수가 클수록 기계 학습에서 일반화하는 데 얼마나 불리한지 알 수 있습니다. 여백을 최대화하면 데이터를 올바르게 분리할 뿐만 아니라 해당 데이터 포인트에 대해 가능한 최대 여백을 갖는 선을 검색하여 일반화에 도움이 될 수 있음을 보여줍니다.

  • 00:10:00 이 섹션에서 강사는 뚱뚱한 마진과 분류기의 성능을 개선할 수 있는 방법에 대해 설명합니다. 분류기가 특정 크기의 마진을 갖도록 요구함으로써 가능한 이분법의 수가 줄어들어 더 작은 성장 함수와 더 작은 VC 차원으로 이어집니다. 마진이 클수록 분류기의 샘플 외 성능이 더 좋습니다. 그런 다음 강사는 초평면과 가장 가까운 데이터 포인트 사이의 거리를 찾고 벡터 w를 정규화하여 분석을 단순화하여 가능한 가장 큰 마진을 해결하는 방법을 설명합니다. 신호, 즉 초평면과 데이터 점 사이의 거리는 유클리드 거리가 아니라 가장 가까운 점과 가장 먼 점의 순서이며 유클리드 거리를 얻으려면 변환해야 합니다.

  • 00:15:00 이 섹션에서 강사는 서포트 벡터 머신 분석과 관련된 몇 가지 기술을 설명합니다. 첫째, 서로 다른 평면의 성능을 비교하기 위해 유클리드 거리를 척도로 사용합니다. 둘째, 서포트 벡터머신을 좀 더 편리하게 분석하기 위해 벡터 X에서 w를 추출하고, 이제 새로운 역할을 하는 w 벡터와 혼동되지 않도록 w₀을 빼낸다. 목표는 xₙ(가장 가까운 점)과 평면 사이의 거리를 계산하는 것입니다. 강사는 벡터 w가 평면과 평면의 모든 벡터에 직교한다는 것을 보여줍니다. 즉, 평면의 모든 법선 벡터에 직교하므로 이제 xₙ와 평면 사이의 거리를 얻을 수 있습니다.

  • 00:20:00 이 섹션에서 발표자는 SVM에서 점과 초평면 사이의 거리를 계산하는 방법에 대해 설명합니다. 이는 점에서 초평면의 일반 점으로 이동하는 벡터를 초평면에 직교하는 방향으로 투영하여 수행할 수 있습니다. 이 방향의 단위 벡터는 벡터의 길이를 정규화하여 계산됩니다. 일부 대수학을 사용하여 화자는 누락된 용어를 추가하여 단순화된 거리에 대한 공식을 도출합니다. 이 공식은 최상의 마진을 제공하는 w의 조합을 선택하는 데 사용할 수 있습니다. 이로 인해 발생하는 최적화 문제는 제약 조건이 최소이기 때문에 사용자에게 친숙하지 않습니다. 그러나 몇 가지 간단한 관찰을 통해 이 문제를 보다 친숙한 2차 방정식으로 재구성할 수 있습니다.

  • 00:25:00 이 섹션에서는 강사가 SVM(Support Vector Machine)에 대한 최적화 문제를 해결하는 방법을 설명합니다. 그들은 SVM이 선형 부등식 제약 조건에 따라 목적 함수를 최소화해야 하는 제약 최적화 문제로 어떻게 공식화될 수 있는지 보여줌으로써 시작합니다. 그들은 라그랑주 승수를 사용하여 부등식 제약 조건을 상등 제약 조건으로 변환한 다음 새 라그랑주를 푸는 것이 가능함을 증명합니다. 그들은 이 접근 방식이 Karush와 Kuhn-Tucker에 의해 독립적으로 발견되었으며 KKT Lagrangian이라고 합니다. 강사는 그 과정이 정규화를 위한 과정과 유사하다고 강조하고, 솔루션에 대한 기울기 조건을 상기합니다.

  • 00:30:00 이 섹션에서 강사는 SVM과 정규화 및 라그랑주 공식 간의 관계를 설명합니다. 기울기가 0인 제약 없는 문제와 달리 제약 조건은 기울기가 0이 아니라는 점에 유의하는 것이 중요합니다. 라그랑주 공식은 w 및 b와 같은 변수에 따라 달라지며 새로운 변수인 알파 벡터와 같은 라그랑주 승수가 있습니다. . 당면한 문제는 형식의 제약 조건에 따라 목적 함수를 최소화한 다음 라그랑지안 이름을 지정하는 것입니다. 흥미로운 부분은 알파가 음수가 아니어야 하지만 실제로 알파와 관련하여 최대화하고 있다는 것입니다. 따라서 이에 주의해야 합니다. 이 섹션은 w와 b에 대한 라그랑지안 기울기를 최소화해야 하는 구속되지 않은 부분에 대한 간략한 설명으로 결론을 내립니다.

  • 00:35:00 강의의 이 섹션에서 연사는 이중 공식에서 SVM 최적화 문제를 공식화하는 방법을 설명합니다. 그는 먼저 w와 b와 관련하여 문제를 최적화하여 원래의 라그랑지안으로 다시 대체하는 두 가지 조건을 생성하여 문제의 이중 공식화로 이어지며, 이는 라그랑주 승수 알파만의 관점에서 볼 때 좋은 공식입니다. 그런 다음 알파에 대한 제약 조건을 음수가 아닌 것으로 설정하고 이러한 제약 조건에 따라 최대화 문제를 해결하여 서포트 벡터를 결정하는 최적의 알파 값을 도출합니다.

  • 00:40:00 이 섹션에서 발표자는 이전에 지원 벡터 머신에 대해 제시된 최적화 문제를 해결하기 위해 2차 계획법을 사용하는 실용적인 측면에 대해 논의합니다. 목적 및 제약 조건은 최소화를 위해 2차 프로그래밍 패키지로 전달되는 계수로 변환됩니다. 행렬 차원은 예의 수에 따라 다르며 이는 대규모 데이터 세트에 대한 실질적인 고려 사항이 됩니다. 발표자는 예제의 수가 많으면 2차 계획법이 솔루션을 찾는 데 어려움을 겪고 휴리스틱스를 사용해야 할 수 있다고 경고합니다.

  • 00:45:00 이 섹션에서는 강의에서 2차 계획법, 특히 알파가 가져온 솔루션과 가중치, 표면, 여백 및 b를 결정하는 원래 문제와 어떻게 관련되는지 자세히 살펴봅니다. 강의는 평면과 여백을 정의하는 점인 지원 벡터를 식별하는 것의 중요성을 강조합니다. 양수 람다(이 경우 알파) 이면의 수학은 양수 값을 가진 점만 고려하므로 지원 벡터를 식별하는 방법을 제공합니다. 즉, 이러한 알파 값은 두 분류 사이의 경계를 정의하는 데 중요하며 위치를 식별하는 것은 가중치를 최적화하고 최대 마진을 생성하는 데 중요합니다.

  • 00:50:00 이 섹션에서는 SVM(Support Vector Machine) 알고리즘의 맥락에서 지원 벡터의 개념을 소개하고 논의합니다. 지원 벡터는 데이터 클래스를 구분하는 결정 경계 또는 초평면에 가장 가까운 데이터 포인트로 정의됩니다. SVM 알고리즘은 2차 계획법 문제를 최적화하여 지원 벡터와 결정 함수의 매개변수를 결정합니다. 매개변수의 값은 임계점인 서포트 벡터에만 의존하므로 모델이 잘 일반화될 수 있습니다. 비선형 변환도 비분리 데이터를 처리하는 방법으로 간략하게 설명합니다. 데이터를 고차원 공간으로 변환해도 최적화 문제가 복잡해지지 않으며 동일한 기법을 사용하여 지원 벡터와 결정 함수를 찾을 수 있습니다.

  • 00:55:00 비디오의 이 섹션에서 강사는 SVM의 비선형 변환 사용에 대해 설명합니다. 비선형 변환은 X 공간의 경우와 같이 데이터가 선형으로 분리되지 않을 때 사용됩니다. 강사는 비선형 변환을 사용하는 방법과 Z 공간에서 작업하여 선형적으로 분리 가능한 결과를 얻는 방법을 보여줍니다. 그는 솔루션이 쉽고 알파의 수는 작업 중인 공간의 차원이 아니라 데이터 포인트의 수에 따라 다르다고 설명합니다. 핵심 아이디어는 비용을 지불하지 않고 엄청난 공간에 갈 수 있다는 것입니다. 최적화 측면에서. 서포트 벡터는 Z 공간에서 식별되지만 X 공간에서는 데이터 포인트처럼 보입니다.

  • 01:00:00 이 섹션에서 강사는 비선형 변환이 가능한 지원 벡터를 사용하는 일반화 결과에 대해 논의합니다. 유효 매개변수의 수를 나타내는 서포트 벡터의 수를 예의 수로 나눈 값은 표본 외 지점을 분류할 때 오류 확률의 상한을 제공합니다. 이 기계의 여러 실행의 예상 값이 유지되면 특정 경우에 얻게 될 실제 E_out은 친숙한 유형의 경계(예: 매개변수의 수, 자유도 및 VC 치수를 예의 수). 이 결과는 사람들이 비선형 변환과 함께 지원 벡터와 지원 벡터를 사용하게 합니다. 더 높은 차원으로 이동하는 계산이나 그에 수반되는 일반화에 대한 비용을 지불하지 않기 때문입니다.

  • 01:05:00 이 섹션에서 교수는 w 전치된 x 더하기 b를 1로 정규화하기로 선택한 이유와 이 정규화가 최적화에 필요한 이유를 설명합니다. 그는 또한 SVM이 비선형 변환을 통해 비선형적으로 분리 가능한 점을 처리하는 방법과 SVM의 소프트 마진 버전이 오류를 허용하고 그에 대한 벌칙을 적용하는 방법에 대한 질문에 답합니다. 또한 교수는 지원 벡터 수와 VC 차원 간의 관계와 알파가 SVM에서 매개 변수를 나타내는 방법에 대해 간략하게 설명합니다.

  • 01:10:00 이 섹션에서 강사는 0이 아닌 매개변수의 수와 정의에 따른 지원 벡터의 수와 동일한 VC 차원 간의 관계에 대해 설명합니다. 마진 척도는 사용된 규범에 따라 달라질 수 있지만 성능 측면에서 어느 하나를 다른 것보다 선호할 강력한 이유는 없습니다. 서포트 벡터를 잘라내는 직접적인 방법은 없지만 하위 집합을 취하고 서포트 벡터의 서포트 벡터를 얻는 것은 가능한 계산 고려 사항입니다. SVM 방식은 노이즈에 특별히 민감하지 않으며, 노이즈가 있는 데이터의 경우에는 non-noisy의 경우와 현저하게 유사한 소프트 버전의 방법을 사용합니다.
Lecture 14 - Support Vector Machines
Lecture 14 - Support Vector Machines
  • 2012.05.18
  • www.youtube.com
Support Vector Machines - One of the most successful learning algorithms; getting a complex model at the price of a simple one. Lecture 14 of 18 of Caltech's...
 

강의 15 - 커널 방법



Caltech의 기계 학습 과정 - CS 156. 강의 15 - 커널 방법

커널 방법에 대한 이 강의에서는 마진을 최대화한다는 개념 때문에 기존의 선형 회귀 모델보다 성능 중심의 선형 모델로 SVM(Support Vector Machine)을 소개합니다. 데이터를 선형적으로 분리할 수 없는 경우 비선형 변환을 사용하여 복잡한 비용을 많이 들이지 않고도 복잡한 가설을 가능하게 하는 흔들리는 표면을 만들 수 있습니다. 이 비디오는 개별 벡터를 계산하지 않고 내적을 계산하는 방법을 설명하면서 고차원 Z 공간으로 이동하는 커널 방법을 설명합니다. 이 비디오는 또한 분류 문제에 대한 유효한 커널을 얻기 위한 다양한 접근 방식을 설명하고 분리할 수 없는 데이터에 SVM을 적용하는 방법을 설명합니다. 마지막으로 비디오는 슬랙의 개념을 설명하고 SVM에서 마진 위반을 정량화하며 마진 위반에 페널티를 부여하는 변수 xi를 도입하고 알파를 해결하기 위한 라그랑주 공식을 검토합니다.

두 번째 부분에서는 SVM(Support Vector Machine) 및 커널 방법 사용의 실용적인 측면을 다룹니다. 그는 소프트 마진 서포트 벡터 머신의 개념과 넓은 마진을 유지하면서 일부 오분류를 허용하는 방법을 설명합니다. 그는 얼마나 많은 위반이 발생할 수 있는지를 결정하는 매개변수 C의 중요성에 대해 이야기하고 그 값을 결정하기 위해 교차 유효성 검사를 사용할 것을 제안합니다. 그는 또한 변환된 데이터의 상수 좌표에 대한 우려를 해결하고 편향 항과 동일한 역할을 한다는 것을 사용자에게 확신시킵니다. 또한 그는 커널을 결합하여 새로운 커널을 생성할 수 있는 가능성에 대해 논의하고 너무 많은 데이터 포인트가 있는 SVM을 해결하는 데 2차 프로그래밍이 실패할 때 사용할 수 있는 휴리스틱 방법을 제안합니다.

  • 00:00:00 커널 방법 강의의 이 섹션에서 Yaser Abu-Mostafa는 지원 벡터 머신(SVM)의 개념을 소개합니다. SVM은 가장 단순한 형태의 선형 모델에 불과하지만 더 성능 지향적이라는 점에 주목합니다. 마진을 극대화하려는 생각 때문입니다. 2차 계획법 패키지를 사용하여 SVM 문제를 해결하고 지원 벡터를 식별하는 데 도움이 되는 알파를 다시 얻을 수 있습니다. 데이터를 선형적으로 분리할 수 없는 경우 비선형 변환을 사용할 수 있지만 결과적으로 흔들리는 표면으로 인해 높은 복잡성 비용을 지불하지 않고도 복잡한 가설을 얻을 수 있습니다. 샘플 내 수량인 서포트 벡터의 수를 기반으로 샘플 외 오류를 예측할 수 있습니다.

  • 00:05:00 이 섹션에서 비디오는 커널 방법의 개념과 선형 분리 가능한 경우를 넘어 서포트 벡터 머신을 확장하는 역할에 대해 설명합니다. 커널 방법의 기본 아이디어는 복잡성에 대한 비용을 지불하지 않고 고차원 Z 공간으로 이동하는 것입니다. 동영상에서는 이를 달성하기 위한 핵심이 해당 공간에서 개별 벡터를 실제로 계산하지 않고 Z 공간에서 내적을 계산할 수 있는 것이라고 설명합니다. 명시적 입력만 사용하여 내적을 계산할 수 있으므로 커널이 들어오는 곳입니다. 비디오는 계속해서 비선형 변환 및 소프트 마진을 처리하기 위한 이러한 방법의 의미와 복잡한 문제를 처리하기 위해 실제로 어떻게 사용할 수 있는지 설명합니다.

  • 00:10:00 이 섹션에서는 Z 공간에서 내적을 사용하는 방법과 커널 방법과의 관계에 대해 설명합니다. 내적은 라그랑지안을 형성하고 제약 조건을 2차 계획법으로 전달하는 데 필요하지만 지원 벡터 기계를 수행하기 위해 내적만 사용하여 계산할 수 있습니다. Z 공간에 해당하는 일반화된 내적 또는 커널을 사용하여 두 점 x 및 x 대시를 커널이라고 하는 x 및 x 대시에 의해 결정되는 함수로 변환할 수 있습니다. 2차 다항식 변환을 사용하는 2차원 유클리드 공간의 예가 제공됩니다.

  • 00:15:00 이 섹션에서 강사는 커널 메서드의 개념과 x 및 x 대시를 변환하지 않고 커널을 계산하는 방법에 대해 설명합니다. 강사는 사물을 Z 공간으로 변환하지 않는 커널을 즉흥적으로 만들고 청중에게 커널이 일부 Z 공간으로의 변환에 해당하고 그곳에서 내적을 취한다고 확신시킵니다. 강사는 1 + x_xdash를 Q-power로 올려서 커널을 제곱함으로써 이것이 어떻게 어떤 공간에서 내부 곱이 되어 유효한 커널이 되는지 설명합니다. 또한 강사는 동일하게 유지되는 Q의 복잡성에 관계없이 이를 수행하는 데 필요한 계산량을 다른 차원과 비교합니다.

  • 00:20:00 이 섹션에서 강사는 실제로 다항식을 확장하지 않고 수행할 수 있는 다항식 변환을 위한 커널 방법을 설명합니다. 대수를 취하고 지수화함으로써 다항식은 큰 확장이 필요하지 않은 간단한 연산이 됩니다. 이것은 2D로 시각화하고 다른 경우에 대해 외삽할 수 있는 쉬운 다항식입니다. 고차원 공간에 매핑되는 커널은 해당 공간에서 내적을 취함으로써 얻을 수 있습니다. 강사는 X 또는 Z 공간에서는 내적 항이 없지만 무한 차원 공간에서는 내적에 해당하는 커널의 예를 소개합니다. 무한 차원 공간으로 이동하는 문제에도 불구하고 커널 방법은 여전히 유용하며 서포트 벡터의 수는 모델의 일반화를 결정하는 데 사용할 수 있습니다.

  • 00:25:00 이 섹션에서 강사는 무한 차원 공간에 해당하는 정교한 커널인 방사형 기본 함수 커널을 시연하고 약간 분리할 수 없는 경우를 통해 작동 방식을 보여줍니다. 강사는 무작위로 100개의 점을 생성하고 이를 구분할 선이 없음을 보여줍니다. 그런 다음 강사는 X를 무한 차원 공간으로 변환하고 단순 지수인 커널을 계산합니다. 강사는 이를 2차 계획법에 전달하여 지원 벡터를 다시 제공합니다. 강사가 지원 벡터를 어둡게 하면 두 클래스를 더 쉽게 볼 수 있습니다.

  • 00:30:00 이 섹션에서 발표자는 커널 방법의 아이디어와 분류에 사용할 수 있는 방법에 대해 설명합니다. 그는 포인트를 선형 평면으로 분리할 수 있는 무한 차원 공간으로 변환하기 위해 포인트 데이터 세트에서 커널을 사용하는 예를 제시합니다. 결과 마진 및 지원 벡터는 일반화 속성을 안내하는 샘플 내 수량을 결정하는 데 사용됩니다. 그런 다음 연사는 일부 Z 공간의 내적에 해당하는 유효한 커널이 문제를 공식화하고 가설을 구성하는 데 어떻게 사용될 수 있는지 설명합니다. 전반적으로 그는 커널 방법의 유용성과 분류 문제 해결에 적용할 수 있는 방법을 강조합니다.

  • 00:35:00 이 섹션에서는 선형 모델을 커널 형식으로 변환하는 방법을 배웁니다. 여기서 서포트 벡터 머신은 커널을 선택할 수 있는 모델이 됩니다. 내적을 Z 공간으로 가져온 후 커널이 내적을 대신합니다. 결과 모델은 커널 선택에 따라 달라지며 지원 벡터를 연결하여 b를 해결할 수도 있습니다. 그러나 커널은 Z 공간을 방문하지 않고는 유효성을 확인할 수 없으므로 결정하기 어렵습니다. 그럼에도 불구하고 서로 다른 커널의 기능적 형태를 살펴봄으로써 접근 방식을 비교할 수 있는 방법을 설명합니다.

  • 00:40:00 이 섹션에서는 강사가 커널 메서드에서 유효한 커널을 얻기 위한 조건을 설명합니다. 세 가지 접근 방식이 있습니다. 생성(construction): 커널이 개념적 또는 명시적 변환 집합에서 구성됩니다. 주어진 커널이 대칭이고 커널 값으로 구성된 행렬이 양의 준정부호가 되어야 하는 Mercer의 조건 마지막으로 커널의 실행 가능성이 매우 실용적인 문제이며 두 가지 조건이 동시에 충족되어야 하는 임시변통 접근 방식입니다. 이들은 커널이 대칭이고 커널 값으로 구성된 행렬이 Mercer의 조건에서 요구하는 대로 포인트 선택에 대해 양의 준정부호여야 한다는 것입니다.

  • 00:45:00 이 섹션에서 강사는 데이터가 선형적으로 분리되지 않는 상황과 이러한 경우 서포트 벡터 머신 알고리즘을 적용하는 방법을 설명합니다. 비분리 데이터에는 두 가지 시나리오가 있을 수 있습니다. 하나는 비분리성이 미미한 경우이고 다른 하나는 비분리성이 중요한 경우입니다. 비선형 분리 가능한 데이터를 처리하기 위해 모든 데이터 포인트를 포함하는 복잡하고 과도하게 높은 차원의 공간을 사용하려고 시도하는 대신 일반화를 통해 오류를 만들고 학습하여 오류를 낮게 유지할 수 있습니다. 심각한 비분리성의 경우 비선형 변환을 수행하고 커널 또는 소프트 마진 지원 벡터 시스템을 사용해야 합니다. 그런 다음 강사는 여백 위반의 개념과 분류 오류를 설명하기 위해 이를 정량화하는 방법에 대해 이야기합니다.

  • 00:50:00 이 섹션에서 강사는 슬랙의 개념을 소개하고 SVM에서 마진 위반을 정량화합니다. 그는 마진 위반을 측정하는 모든 포인트에 대해 슬랙을 도입하고 이러한 슬랙을 합산하여 전체 위반에 대해 벌점을 부과할 것이라고 설명합니다. 그는 다른 것 대신 합리적이고 마진 위반을 측정하는 이 오류 측정을 선택합니다. 그런 다음 마진 최대화와 함께 마진 위반 오류 항을 최소화하는 새로운 최적화를 소개합니다. 상수 C는 마진을 최대화하는 이전 항에 비해 이 마진 위반 항의 상대적 중요성을 제공합니다. C의 값에 따라 최종 결과는 선형적으로 분리 가능한 데이터이거나 마진과 여유 사이의 절충안을 나타내는 절충안일 수 있습니다. 마지막으로 그는 새로운 용어를 추가하여 라그랑지 공식을 검토합니다.

  • 00:55:00 이 섹션에서 강사는 여백 위반에 페널티를 부여하기 위해 변수 xi를 추가하여 도입된 새로운 2차 계획법 문제를 설명합니다. 라그랑주에는 라그랑주 승수 베타를 사용하기 위해 해결해야 하는 xi에 대한 새로운 제약 조건이 포함됩니다. 그런 다음 강사는 w와 b의 최소화가 어떻게 변경되지 않고 유지되는지 보여주고 xi에 대한 풀이는 항상 0인 양을 초래한다는 것을 발견합니다. 이 발견으로 인해 베타가 라그랑지안에서 빠져나와 이전과 동일한 솔루션이 남고 유일한 결과는 알파가 이제 0보다 크거나 같을 뿐만 아니라 C보다 작거나 같다는 것입니다.

  • 01:00:00 비디오의 이 섹션에서 강사는 여전히 넓은 마진을 유지하면서 약간의 오분류를 허용하는 소프트 마진 지원 벡터 머신의 개념을 설명합니다. 솔루션에는 이미 존재하는 등식 제약 조건과 함께 알파가 최대 C여야 하는 추가 제약 조건이 포함됩니다. 소프트 마진 지원 벡터 시스템에는 마진 및 비마진 지원 벡터가 모두 포함되며, 후자는 마진을 위반하는 지점으로 xi 값으로 표시되는 여유를 유발합니다. C 값은 얼마나 많은 위반이 발생할 수 있는지를 결정하는 중요한 매개변수이며 이는 일반적으로 교차 검증을 통해 결정됩니다.

  • 01:05:00 이 섹션에서는 강사가 SVM(Support Vector Machine) 및 커널 방법 사용에 대한 실용적인 사항에 대해 설명합니다. 그는 데이터가 선형적으로 분리되지 않으면 2차 계획법이 수렴되지 않아 실현 가능한 솔루션이 없는 상황이 발생할 수 있다고 설명합니다. 그러나 그는 사용자가 게으르지 않고 여전히 2차 계획법의 알파를 솔루션으로 다시 전달하여 데이터를 분리하는지 여부를 평가하도록 권장합니다. 또한 그는 데이터로 변환되는 상수 좌표 1에 대한 우려를 다루며 편향 항 b와 동일한 역할을 효과적으로 수행하며 사용자가 동일한 역할을 하는 여러 좌표를 갖는 것에 대해 걱정할 필요가 없다고 설명합니다.

  • 01:10:00 이 섹션에서 교수는 SVM(Support Vector Machine)의 선형성이 특정 가정에 따라 달라지며 경우에 따라 선형보다 더 나을 수 있다고 설명합니다. 데이터의 차원은 SVM의 효율성에 영향을 미칠 수 있지만 RBF 커널은 고차 항이 빠르게 붕괴되는 경우 무한 차원을 처리할 수 있습니다. 유효한 커널은 수렴에 의존하는 잘 정의된 내적을 가져야 합니다. 교수는 회귀 사례로 일반화된 SVM은 더 많은 기술적 세부 사항이 필요하므로 건드리지 않으며 SVM의 주요 성공은 분류에 있습니다. 마지막으로 양의 정부호가 아니라는 2차 계획법 패키지의 불만이 있을 수 있지만 솔루션은 여전히 특정 신뢰성으로 괜찮을 수 있습니다.

  • 01:15:00 이 섹션에서 교수는 새로운 커널을 생성하기 위해 커널을 결합할 가능성과 Z 공간에서 내적을 유지하기 위해 결합에 대한 요구 사항에 대해 논의합니다. 그는 또한 2차 계획법 문제가 SVM으로 문제를 해결하는 데 있어 병목 현상이라고 언급하고 2차 계획법으로 처리할 수 있는 포인트 수의 추정치를 제공합니다. 또한 그는 너무 많은 데이터 포인트가 있는 SVM을 풀 때 2차 계획법이 실패할 때 사용할 수 있는 휴리스틱 방법을 제안합니다.
Lecture 15 - Kernel Methods
Lecture 15 - Kernel Methods
  • 2012.05.24
  • www.youtube.com
Kernel Methods - Extending SVM to infinite-dimensional spaces using the kernel trick, and to non-separable data using soft margins. Lecture 15 of 18 of Calte...