머신 러닝 및 신경망 - 페이지 71

 

8.2 편향과 분산에 대한 직관(L08: 모델 평가 파트 1)



8.2 편향과 분산에 대한 직관(L08: 모델 평가 파트 1)

여러분, 안녕하세요! 잘 지내고 계시길 바랍니다. 여러분 모두와 공유할 흥미로운 소식이 있습니다. 먼저 귀사의 프로젝트 제안서 평가 작업을 완료했습니다. 남은 학기 동안 여러분의 훌륭한 아이디어와 계획을 모두 읽게 되어 기쁩니다. 여러분 각자가 앞으로 몇 주 동안 프로젝트 프레젠테이션 및 보고서로 이어지는 잘 정의된 로드맵을 가지고 있다는 것은 정말 인상적입니다.

추가 피드백이 필요하다고 느끼거나 특정 측면에 대한 설명이 필요한 경우 주저하지 말고 이메일이나 다른 수단을 통해 저에게 연락하십시오. 귀하의 프로젝트와 관련이 있을 수 있는 추가 기술에 대한 추가 지침과 포인터를 제공하게 되어 기쁩니다.

이제 다음 좋은 소식으로 넘어 갑시다. 앙상블 방법 강의를 성공적으로 마쳤으며 이제 새롭고 흥미로운 주제로 뛰어들 시간입니다. 다음 강의 시리즈에서 우리는 모델 평가라는 주제를 탐구할 것입니다. 다양한 기계 학습 분류기와 알고리즘을 소개했던 이전 강의와 달리 이번에는 이러한 알고리즘을 공정하게 평가하는 데 중점을 둘 것입니다.

모델 평가에 대한 강의는 여러 측면을 다룰 것입니다. 과소적합 및 과적합의 개념과 손실 함수의 편향 및 분산 분해와의 관계를 이해하는 것으로 시작하겠습니다. 그런 다음 모델을 효과적으로 비교할 수 있는 교차 검증 방법을 살펴보겠습니다. 나중에 다양한 기계 학습 알고리즘과 특정 데이터 세트에서의 성능을 비교하는 기술에 대해 논의할 것입니다.

잘 맞는 알고리즘을 선택하는 것과 관련된 모델 선택에 대해서도 더 자세히 설명한다는 점에 유의하는 것이 중요합니다. 모델 평가와 어떻게 다른지 살펴보겠습니다. 이제 모델 평가에 대한 소개로 여정을 시작하고 거기서부터 지식을 계속 쌓아 갑시다.

새로운 주제에 대해 알아보기 전에 잠시 이 과정의 진행 상황을 요약해 보겠습니다. 소개부터 시작하여 Python, NumPy 및 scikit-learn과 같은 중요한 계산 측면을 다루었습니다. 우리는 또한 업계에서의 관련성에 대한 몇 가지 흥미로운 토론을 촉발시킨 트리 기반 방법을 탐색했습니다.

이제 모델 평가 단계에 들어가면서 과소적합 및 과적합과 관련된 몇 가지 하위 주제를 살펴보겠습니다. 이 특정 강의(Lecture Eight)에서는 바이어스 및 분산 분해와 과적합 및 과소적합과의 연결에 초점을 맞출 것입니다. 바이어스 및 분산 구성 요소가 모델의 일반화 성능에 어떤 영향을 미치는지 살펴보겠습니다.

또한 분류 문제와 더 관련이 있는 0-1 손실의 편향 및 분산 분해를 살펴볼 것입니다. 이 분석은 분류 작업의 맥락에서 과적합 및 과소적합에 대한 더 깊은 이해를 제공할 것입니다.

이 강의를 마무리하기 위해 앞서 논의한 통계적 편향을 넘어 기계 학습의 다양한 유형의 편향에 대해 간략하게 다룰 것입니다.

이제 과대적합과 과소적합의 주요 개념으로 관심을 옮겨 보겠습니다. 기계 학습에서 우리의 궁극적인 목표는 우수한 일반화 성능을 보여주는 모델(회귀 또는 분류)을 개발하는 것입니다. 이것은 모델이 일반적으로 테스트 세트에서 오는 보이지 않는 데이터에서 잘 수행되어야 함을 의미합니다. 테스트 세트에 대한 성능도 고려하지만 이는 본 적이 없는 데이터에 대한 일반화 성능의 추정치 역할을 합니다.

모델을 피팅하거나 교육하지 않으면 교육 오류가 테스트 오류와 유사할 것으로 예상됩니다. 그러나 훈련 세트에 모델을 맞추면 훈련 오류가 테스트 오류보다 낮은 경우가 많습니다. 이것은 과적합의 결과로, 모델이 노이즈를 포함하여 훈련 데이터에 너무 가깝게 맞춤화되어 낙관적인 성능 추정으로 이어집니다.

반대로, 과소적합은 모델이 데이터의 기본 패턴을 캡처하지 못하여 교육 오류와 테스트 오류가 모두 높아지는 경우에 발생합니다. 이 경우 모델이 부족합니다.

기능과 대상 변수 간의 진정한 관계를 나타내기에 충분한 복잡성.

과대적합과 과소적합을 더 잘 이해하기 위해 편향-분산 절충을 고려해 봅시다. 바이어스는 단순화된 모델로 실제 문제를 근사화하여 발생하는 오류를 나타냅니다. 편향이 높은 모델은 데이터의 기본 패턴을 지나치게 단순화하는 경향이 있어 과소적합이 발생할 수 있습니다. 반면에 분산은 훈련 데이터의 변동에 대한 모델의 민감도에 의해 도입된 오류를 나타냅니다. 고분산 모델은 학습 데이터의 노이즈 및 무작위 변동을 캡처하여 과적합을 유발합니다.

편향-분산 트레이드 오프는 예상되는 테스트 오류를 세 가지 구성 요소(환원 오류, 편향 항 및 분산 항)로 분해하여 설명할 수 있습니다. 감소 불가능한 오류는 어떤 모델로도 줄일 수 없는 데이터의 고유한 노이즈를 나타냅니다. 바이어스 항은 단순화된 모델로 실제 문제를 근사화하여 발생하는 오류를 측정하고 분산 항은 훈련 데이터의 변동에 대한 모델의 민감도로 인해 발생하는 오류를 측정합니다.

수학적으로 예상 테스트 오류를 다음과 같이 표현할 수 있습니다.

예상 테스트 오류 = 감소 불가능한 오류 + Bias^2 + 분산

이상적으로는 예상되는 테스트 오류를 최소화하는 편향과 분산 사이의 균형을 찾고자 합니다. 그러나 한 구성 요소를 줄이면 종종 다른 구성 요소가 증가합니다. 이 절충은 모델 선택 및 평가에서 매우 중요합니다.

분류 문제의 맥락에서 분류 작업에 사용되는 일반적인 손실 함수인 0-1 손실의 편향-분산 분해도 검사할 수 있습니다. 0-1 손실은 잘못 분류된 인스턴스의 비율로 오류를 측정합니다. 0-1 손실의 바이어스-분산 분해는 분류 모델의 오류 원인에 대한 통찰력을 제공합니다.

통계적 편향 외에도 기계 학습 모델에 영향을 줄 수 있는 다른 유형의 편향이 있습니다. 이러한 편향은 샘플링 편향, 측정 편향 및 알고리즘 편향을 비롯한 다양한 소스에서 발생할 수 있습니다. 이러한 편향을 이해하는 것은 공정하고 신뢰할 수 있는 기계 학습 시스템을 구축하는 데 필수적입니다.

다음 강의에서는 모델의 일반화 성능을 추정하기 위한 강력한 기술인 교차 검증에 대해 더 깊이 파고들 것입니다. 교차 유효성 검사를 통해 데이터의 다른 하위 집합에 대한 교육 및 테스트 프로세스를 시뮬레이션하여 보이지 않는 데이터에서 모델이 얼마나 잘 수행되는지 평가할 수 있습니다. k-겹 교차 검증 및 층화 교차 검증과 같은 다양한 유형의 교차 검증 방법을 살펴보고 장점과 한계에 대해 논의합니다.

오늘 강의는 여기까지입니다. 다룬 자료를 검토하고 다음 세션에 대한 질문이 있으면 준비하시기 바랍니다. 감사합니다. 좋은 하루 보내세요!

 

8.3 제곱 오차의 바이어스-분산 분해(L08: 모델 평가 1부)



8.3 제곱 오차의 바이어스-분산 분해(L08: 모델 평가 1부)

이전 강의에서 편향과 분산에 대한 직관을 얻었고 손실 함수의 편향-분산 분해에 대해 간략하게 다루었습니다. 이제 이 강의에서는 제곱 오차 손실에 초점을 맞춰 편향-분산 분해에 대해 더 깊이 파고들 것입니다. 제곱 오차 손실로 시작하면 과적합 및 과소적합과의 관계를 탐색하기 전에 더 간단하고 직관적입니다. 또한 0-1 손실의 바이어스-분산 분해에 대해 간략하게 논의할 것입니다. 그러나 보다 직접적인 이해를 제공하는 제곱 오차 사례를 먼저 살펴보겠습니다.

간단히 요약하자면 편향과 분산은 이전 비디오에서 더 자세히 다루었지만 설정을 다시 살펴보는 데 시간을 할애하는 것이 좋습니다. 주어진 모델과 특정 훈련 세트에 대한 예측 대상을 나타내는 점 추정기에서 예측을 뺀 값을 보고 있습니다. 기대치는 동일한 분포 또는 모집단에서 가져온 다른 훈련 세트에 대해 수행됩니다. 이 기대치는 테스트 세트의 주어진 데이터 포인트에 대한 평균 예측을 나타냅니다.

편향은 평균 예측이 실제 목표 값에서 얼마나 떨어져 있는지를 측정하는 반면, 분산은 각 개별 예측이 평균 예측에서 벗어난 양을 정량화합니다. 분산 항은 부호를 무시하고 평균 주변의 예측의 전반적인 확산에 초점을 맞추기 위해 제곱됩니다.

제곱 오차 손실은 (theta - theta hat)^2로 나타낼 수 있습니다. 여기서 theta는 실제 값이고 theta hat은 특정 데이터 포인트에 대한 예측 값입니다. 이 강의에서는 편향과 분산 항만 고려하고 노이즈 항은 무시하고 제곱 오차 손실의 편향-분산 분해에 중점을 둘 것입니다.

편향-분산 분해를 진행하기 위해 시나리오에 대한 몇 가지 표기법과 설정을 소개합니다. 레이블(y)을 생성하는 참 함수를 고려하고 실제 데이터 생성 함수에 근사하는 모델로 가설(h)을 가집니다. y hat을 사용하여 예측을 나타냅니다. 이러한 용어를 사용하여 제곱 오차 손실을 (y - y 모자)^2로 표현할 수 있습니다. 기대 기호(E)와의 혼동을 피하기 위해 제곱 오차를 (s)로 표시합니다.

이제 제곱 오차를 바이어스 및 분산 구성 요소로 분해해 보겠습니다. 이를 달성하기 위해 예측의 기대값을 삽입하고 빼는 수학적 트릭을 사용합니다. 이렇게 함으로써 우리는 이차식을 확장하고 (y^2, -2yy 모자, y 모자^2)의 세 항으로 분리합니다.

다음으로 방정식의 양쪽에 기대치를 적용합니다. 첫 번째 항에 기대치를 적용하면 y^2가 산출되며 y는 상수이므로 변경되지 않습니다. 두 번째 항인 -2yy hat의 기대값은 자체에서 반복적으로 동일한 값(y hat의 기대값)을 빼기 때문에 0입니다. 세 번째 항의 경우 y hat^2의 기대값은 예측의 평균값을 나타냅니다.

기대치를 적용한 후에는 제곱 편향과 분산이라는 두 가지 용어가 남습니다. 제곱 바이어스는 (y - E[y 모자])^2이며 실제 레이블과 평균 예측 간의 차이를 측정합니다. 분산은 E[(y hat - E[y hat])^2]이며 평균 예측에서 개별 예측의 평균 제곱 편차를 정량화합니다.

기대값을 적용할 때 -2yy 모자라는 용어가 제거되었음을 보여주기 위해 단계를 세분화합니다. 기대값을 -2yy 모자에 적용하면 2E[yy 모자]가 됩니다. 식을 더 확장하면 y가 상수이므로 yy 모자의 기대치가 E[y]E[y 모자]와 같다는 것을 알 수 있습니다. 결과적으로 -2yy 모자의 기대치는 -2E[y]E[y 모자]로 단순화됩니다.

제곱 오차에서 이 항을 빼면 다음과 같습니다.

s = y^2 - 2yy 모자 + y 모자^2 = y^2 - 2yy 모자 + y 모자^2 - 2E[y]E[y 모자] + 2E[y]E[y 모자]

이제 용어를 재정렬해 보겠습니다.

s = (y - E[y 모자])^2 + 2(E[y]E[y 모자] - yy 모자)

E[y]E[y 모자]가 c로 표시되는 상수 값임을 인식하여 식을 더 단순화할 수 있습니다. 따라서 다음이 있습니다.

s = (y - E[y 모자])^2 + 2(c - yy 모자)

마지막으로 두 번째 항인 2(c - yy 모자)에 초점을 맞추겠습니다. 이 용어는 다음과 같이 분해할 수 있습니다.

2(c - yy 모자) = 2c - 2yy 모자

첫 번째 항 2c는 상수이며 예측 y hat에 의존하지 않습니다. 두 번째 항인 -2yy hat은 실제 레이블 y와 예측 y hat 간의 상호 작용을 나타냅니다.

이제 제곱 오차 손실의 바이어스-분산 분해를 다음과 같이 요약할 수 있습니다.

s = (y - E[y 모자])^2 + 2c - 2yy 모자

첫 번째 항(y - E[y 모자])^2는 제곱 편향에 해당합니다. 실제 레이블 y와 평균 예측 E[y hat] 사이의 불일치를 측정합니다.

두 번째 항인 2c는 상수이며 제곱 바이어스를 나타냅니다. 예측 y 모자의 선택에 영향을 받지 않습니다.

세 번째 항인 -2yy 모자는 분산을 나타냅니다. 평균 E[y 모자] 주변의 개별 예측 y 모자의 변동성을 캡처합니다. 예측 y 모자의 선택에 직접적인 영향을 받습니다.

따라서 제곱 오차 손실을 제곱 바이어스 항, 상수 제곱 바이어스 항 및 분산 항으로 분해할 수 있다는 결론을 내릴 수 있습니다.

바이어스-분산 분해를 이해하면 모델의 동작에 대한 통찰력을 얻을 수 있습니다. 바이어스가 높으면 모델이 데이터의 기본 패턴을 캡처할 수 없는 과소 적합을 나타냅니다. 분산이 높으면 모델이 교육 데이터에 너무 민감하고 보이지 않는 데이터에 잘 일반화되지 않는 과적합을 나타냅니다.

바이어스 및 분산 구성 요소를 분석하여 모델 복잡성, 정규화 기술 및 데이터 수집 전략에 대한 정보에 입각한 결정을 내려 모델 성능을 최적화할 수 있습니다.

다음 강의에서는 바이어스-분산 분해를 0-1 손실로 확장하고 그 의미에 대해 논의할 것입니다.

 

8.4 바이어스 및 분산 대 과적합 및 과소적합(L08: 모델 평가 파트 1)



8.4 바이어스 및 분산 대 과적합 및 과소적합(L08: 모델 평가 파트 1)

이번 영상에서 제 목표는 이 과정에서 가장 짧은 영상 기록을 세우는 것입니다. 간결하게 유지하고 주제를 너무 오래 끌지 않기를 원합니다. 슬라이드가 두 개뿐이므로 시간이 많이 걸리지 않습니다. 이 비디오에서는 편향-분산 분해와 과소적합 및 과적합의 개념 사이의 관계를 살펴봅니다.

이 강의 앞부분에 표시된 그래프부터 살펴보겠습니다. 이것은 간단한 스케치이며 실제 숫자를 기반으로 하지 않습니다. 실제로 이러한 용어 간의 관계는 실제 데이터 세트를 처리할 때 노이즈가 될 수 있습니다. 그래프는 모델의 복잡성 또는 훈련 데이터에 맞는 능력과 관련된 모델의 용량에 대해 플로팅된 제곱 오차 손실을 보여줍니다.

용량은 모델이 훈련 세트에 얼마나 잘 맞을 수 있는지를 나타냅니다. 용량이 클수록 모델이 데이터를 더 잘 맞출 수 있음을 의미합니다. 예를 들어 회귀와 같은 매개변수 모델에서 용량은 종종 매개변수 또는 항의 수에 의해 결정됩니다. 용량이 증가하면 더 복잡한 모델이 훈련 데이터에 더 잘 맞을 수 있기 때문에 훈련 오류가 감소합니다.

그러나 훈련 오류가 낮다고 해서 새 데이터에서 좋은 성능을 보장하는 것은 아닙니다. 훈련 데이터를 너무 가깝게 피팅하여 과적합할 수 있으며, 이로 인해 일반화 오류로 알려진 새 데이터에 대한 오류가 증가할 수 있습니다. 일반화 오류는 독립적인 테스트 세트를 사용하여 추정할 수 있습니다. 처음에는 용량이 증가함에 따라 일반화 오류가 어느 정도 개선됩니다. 그러나 특정 지점에 도달하면 오류가 다시 증가하기 시작하여 과적합을 나타냅니다.

훈련 오차와 일반화 오차 사이의 차이는 과적합 정도를 나타냅니다. 모델의 용량이 증가함에 따라 데이터의 노이즈를 포함하여 모델이 데이터를 너무 가깝게 맞추기 때문에 간격이 증가합니다. 과적합 정도는 모델이 훈련 데이터에 과대적합되고 새 데이터에 잘 일반화되지 못하는 정도를 나타냅니다.

이제 이러한 개념을 편향 및 분산과 연관시켜 보겠습니다. 그래프에서 편향과 분산이라는 용어를 빨간색으로 추가했습니다. 모델의 용량이 증가하면 분산도 증가합니다. 이는 짧은 결정 트리에 비해 깊은 결정 트리의 경우에서 관찰할 수 있습니다. 분산이 높은 모델은 과적합되기 쉽습니다. 분산이 높을수록 과적합 정도가 크며, 이는 교육 오류와 일반화 오류 사이의 간격으로 나타납니다.

반대로 분산이 증가하면 바이어스가 감소합니다. 더 복잡한 모델은 일반적으로 편향이 더 낮습니다. 그래프는 편향이 아래로 갔다가 다시 위로 가는 것처럼 보일 수 있지만 이는 잘못 그린 결과일 뿐입니다. 실제로 편향은 모델의 용량이 증가하면 분산이 증가함에 따라 점근적으로 감소합니다.

반면에 모델의 용량이 작으면(예: 단순 모델) 데이터에 과소적합되어 훈련 세트와 테스트 세트 모두에서 성능이 저하됩니다. 이것은 높은 바이어스와 관련이 있습니다. 과소적합은 모델이 데이터의 기본 패턴을 캡처하기에 너무 단순할 때 발생합니다.

요약하면 높은 편향은 과소적합과 상관관계가 있고 높은 분산은 과적합과 상관관계가 있습니다. 다음 비디오에서는 분류 작업과 더 관련이 있는 0-1 손실의 바이어스-분산 분해를 간략하게 살펴보겠습니다. 제곱 오차 손실을 분해하는 것보다 직관적이지 않지만 분류 컨텍스트에서 바이어스 및 분산 구성 요소에 대한 통찰력을 제공합니다.

 

8.5 0/1 손실의 바이어스-분산 분해(L08: 모델 평가 파트 1)


8.5 0/1 손실의 바이어스-분산 분해(L08: 모델 평가 파트 1)

이 토론에서는 제곱 오차 손실의 편향-분산 분해와 과적합 및 과소적합과의 관계에 대해 자세히 살펴보았습니다. 이제 우리는 0/1 손실의 편향-분산 분해로 초점을 옮길 것입니다. 이는 부분적 특성으로 인해 좀 더 복잡합니다. 0/1 손실은 실제 레이블이 예측 레이블과 일치하면 0 값을 할당하고 그렇지 않으면 1을 할당합니다. 이 손실 함수는 연속 함수가 아니기 때문에 분석이 까다롭습니다.

0/1 손실의 맥락에서 바이어스-분산 분해를 탐색하기 위해 Pedro Domingo 및 Common Dieterich의 작업을 참조할 것입니다. Pedro Domingo의 논문 "The Unified Bias Variance Decomposition"은 0/1 손실과 관련된 다양한 바이어스-분산 분해를 통합하는 것을 목표로 했습니다. 여러 저자가 서로 다른 분해를 제안했지만 각각 중요한 단점이 있습니다.

이 수업에서는 바이어스-분산 분해와 0/1 손실 사이의 다리 뒤에 있는 직관에 주로 초점을 맞출 것입니다. 우리는 1995년의 조합 연구와 이 연구에 대한 Pedro Domingo의 설명에 대해 간략하게 논의할 것입니다. 보다 자세한 이해를 위해 참조 문서를 참조할 수 있습니다.

참값과 예측값 사이의 차이 제곱으로 정의한 제곱 오차 손실을 다시 살펴보는 것으로 시작하겠습니다. 이전에 우리는 다양한 훈련 세트에 대한 이 손실의 기대치를 살펴보고 편향 및 분산 항으로 분해했습니다. 이제 손실을 나타내고 이 함수의 기대치를 취하기 위해 함수 L을 사용하는 일반화된 표기법을 소개합니다.

제곱 오차 손실의 편향-분산 분해를 논의할 때 편향 및 분산 항으로 분해했습니다. Bias(Y)로 표시되는 편향 항은 실제 레이블(Y)과 평균 예측(E[Y_hat]) 간의 차이를 나타냅니다. Var(Y_hat)로 표시되는 분산 항은 평균 예측 주변의 예측 변동성을 측정합니다. 이러한 용어는 각각 예측이 실제 레이블에서 얼마나 벗어나고 분산되는지를 캡처합니다.

이제 주요 예측이라는 새로운 용어를 정의하겠습니다. 제곱 오차 손실의 경우 주요 예측은 서로 다른 훈련 세트에 대한 평균 예측입니다. 그러나 0/1 손실을 처리할 때 예측의 모드, 즉 가장 빈번한 예측을 취하여 주요 예측을 얻습니다. 이 구별은 분류 맥락에서 바이어스-분산 분해를 이해하는 데 중요합니다.

편향과 분산이 0/1 손실 측면에서 어떻게 정의될 수 있는지 살펴보겠습니다. 이전 슬라이드의 정리된 버전을 참조하겠습니다. 오른쪽에는 편향 항을 소개합니다. Kong과 Dieterich의 논문에서 편향은 기본 예측(E[Y_hat])이 실제 레이블(Y)과 같지 않으면 1로 정의되고 그렇지 않으면 0으로 정의됩니다. 이 정의는 기본 예측이 실제 레이블과 일치하는지 여부를 캡처합니다.

다음으로 바이어스가 0인 경우에 초점을 맞추겠습니다. 이는 기본 예측이 실제 레이블과 일치함을 나타냅니다. 이 시나리오에서 손실은 분산과 같습니다. 정의에 따라 손실은 예측이 실제 레이블과 일치하지 않을 확률을 나타냅니다. 따라서 분산을 예측(Y_hat)이 기본 예측(E[Y_hat])과 같지 않을 확률로 해석할 수 있습니다. 이 확률은 바이어스가 0일 때 예측의 변동성을 반영합니다.

이제 편향이 1인 경우를 살펴보겠습니다. 이는 약간 더 복잡합니다. 손실을 1에서 예측이 실제 레이블과 일치할 확률을 뺀 값으로 다시 작성하는 것으로 시작합니다. 이것은 1에서 정확도를 뺀 것과 같습니다. 우리는 Y가 주요 예측과 같지 않을 때와 Y가 주요 예측과 같을 때 두 가지 측면을 고려할 것입니다.

Y가 기본 예측과 같지 않으면 손실이 1이 되어 오분류를 나타냅니다. 이 경우 기본 예측이 실제 레이블과 다르기 때문에 분산 항은 손실에 기여하지 않으며 예측의 가변성은 관련이 없습니다. 전체 손실은 기본 예측이 실제 레이블과 일치하지 않는다는 사실을 포착하는 편향 항에 기인할 수 있습니다.

반면에 Y가 기본 예측과 같을 때 손실은 1에서 다른 모든 예측이 기본 예측과 다를 확률을 뺀 것과 같습니다. 이 확률은 편향이 1일 때 예측의 변동성을 나타냅니다. 따라서 분산 항은 이 경우 손실을 설명하며 주요 예측 주변 예측의 불확실성을 반영합니다.

요약하면, 0/1 손실의 바이어스-분산 분해에서 바이어스 항은 기본 예측이 실제 레이블과 일치하지 않을 때 오분류 오류를 캡처합니다. 분산 항은 기본 예측이 실제 레이블과 일치할 때 예측의 변동성을 설명합니다.

0/1 손실에 대한 바이어스-분산 분해는 손실 함수의 이산 특성으로 인해 제곱 오차 손실에 비해 더 미묘하고 복잡하다는 점에 유의하는 것이 중요합니다. 편향 및 분산 항은 기본 예측의 개념을 기반으로 정의되며 분류 성능의 다양한 측면을 포착합니다.

0/1 손실의 맥락에서 바이어스-분산 트레이드 오프를 이해하는 것은 분류 모델을 평가하고 개선하는 데 중요합니다. 바이어스 및 분산 구성 요소를 분석하여 오류의 원인에 대한 통찰력을 얻고 정보에 입각한 결정을 내려 과소적합 또는 과적합 문제를 완화할 수 있습니다.

0/1 손실에 대한 바이어스-분산 분해에 대한 보다 자세한 탐색에 관심이 있는 경우 Pedro Domingo의 논문 "The Unified Bias Variance Decomposition"과 Kong 및 Dieterich의 관련 작업을 읽는 것이 좋습니다. 이러한 논문은 분해에 대한 심층적인 설명과 수학적 형식을 제공합니다.

편향-분산 절충은 과소적합과 과적합 간의 균형을 맞추는 모델의 능력과 관련된 기계 학습의 기본 개념입니다. 편향 항은 모델의 가정 또는 단순화로 인한 오류를 나타내며 모델이 너무 단순하여 데이터의 기본 패턴을 포착할 수 없는 과소적합 시나리오로 이어집니다. 반면에 분산 항은 훈련 데이터의 작은 변동에 대한 모델의 민감도로 인한 오류를 나타내므로 모델이 너무 복잡하고 일반화 가능한 패턴이 아닌 노이즈를 캡처하는 과적합 시나리오가 발생합니다.

0/1 손실의 경우 바이어스 항은 기본 예측이 실제 레이블과 다를 때 오분류 오류를 캡처합니다. 높은 편향은 모델이 지속적으로 잘못된 예측을 하고 있으며 데이터에서 실제 기본 패턴을 캡처할 수 없음을 나타냅니다. 이는 모델이 너무 단순하거나 문제의 복잡성을 포착하는 데 필요한 복잡성이 부족한 경우에 자주 발생합니다.

반면에 분산 항은 기본 예측이 실제 레이블과 일치할 때 예측의 변동성을 캡처합니다. 다양한 학습 데이터 샘플에 대한 모델의 민감도와 예측의 불안정성을 반영합니다. 분산이 높으면 모델이 훈련 데이터의 작은 변화에 지나치게 민감하고 과적합 가능성이 있음을 나타냅니다. 이는 모델이 교육 데이터에서 잘 수행할 수 있지만 보이지 않는 데이터로 일반화하지 못한다는 것을 의미합니다.

이상적으로는 바이어스와 분산 사이의 균형을 달성하여 두 가지 유형의 오류를 모두 최소화하는 모델을 찾고자 합니다. 그러나 종종 둘 사이에 절충안이 있습니다. 편향을 줄이면 분산이 증가할 수 있으며 그 반대의 경우도 마찬가지입니다. 이를 바이어스-분산 트레이드 오프라고 합니다.

올바른 균형을 유지하기 위해 다양한 기술을 사용할 수 있습니다. L1 또는 L2 정규화와 같은 정규화 방법은 모델의 복잡성을 줄이고 분산을 제어하는 데 도움이 될 수 있습니다. 교차 검증을 사용하여 데이터의 서로 다른 하위 집합에서 모델의 성능을 평가하고 잠재적인 과적합을 식별할 수 있습니다. 배깅 또는 부스팅과 같은 앙상블 방법을 사용하여 여러 모델을 결합하여 분산을 줄일 수도 있습니다.

바이어스-분산 트레이드 오프를 이해하는 것은 모델 선택 및 하이퍼파라미터 튜닝에 매우 중요합니다. 이를 통해 모델의 일반화 성능을 평가하고 정보에 입각한 결정을 내려 정확성과 신뢰성을 향상시킬 수 있습니다.

 

8.6 "바이어스"라는 용어의 다양한 용도(L08: 모델 평가 파트 1)



8.6 "바이어스"라는 용어의 다양한 용도(L08: 모델 평가 파트 1)

강의는 기계 학습의 편향 및 분산 분해라는 주제를 다루었기 때문에 특별히 흥미롭지는 않았습니다. 연사는 주제의 지루함을 인정했습니다. 그러나 연사가 기계 학습의 다양한 형태의 편향과 관련하여 마지막으로 말하고 싶은 중요한 점이 하나 있었습니다.

"머신 러닝 편향"이라는 용어는 오버로드된 용어로 설명되었는데, 이는 다른 맥락에서 다른 것을 지칭하는 데 사용된다는 의미입니다. 이전에 연사가 가르친 기계 학습 과정에서 편향 단위와 신경망에 대해 논의했지만 이번 강의에서 논의한 통계적 편향과는 달랐습니다. 기계 학습의 맥락에서 편향은 귀납적 편향이라고도 하는 기계 학습 알고리즘의 선호도 또는 제한 사항을 나타냅니다.

연사는 귀납적 편향을 설명하기 위해 결정 트리 알고리즘의 예를 들었습니다. 의사결정나무는 큰 나무보다 작은 나무를 선호합니다. 두 개의 결정 트리가 훈련 세트에서 동일한 성능을 갖는 경우 알고리즘은 더 작은 트리를 선호하고 개선할 수 없는 경우 트리 성장을 중지합니다. 더 작은 트리에 대한 이러한 선호는 결정 트리 알고리즘에 영향을 미치는 귀납적 편향의 예입니다.

연사는 기계 학습 편향과 통계적 편향을 대조하는 Dieterich와 Khan의 논문을 언급했습니다. 절대 편향과 관련하여 적절하고 부적절한 편향이 논의되었습니다. 부적절한 편향은 대상 함수에 대한 좋은 근사치를 포함하지 않습니다. 즉, 알고리즘이 문제에 적합하지 않습니다. 반면에 적절한 바이어스를 사용하면 대상 함수에 대한 좋은 근사치를 얻을 수 있습니다.

상대적 편향은 너무 강하거나 너무 약한 것으로 설명되었습니다. 편향이 너무 강하면 좋은 근사치를 배제할 수는 없지만 대신 더 좋지 않은 가설을 선호합니다. 반대로 너무 약한 편향은 너무 많은 가설을 고려하여 잠재적으로 과적합으로 이어집니다.

연사는 편향과 분산 사이의 상호 작용을 보여주기 위해 결정 트리 모델과 관련된 시뮬레이션 연구의 예를 공유했습니다. 이 연구는 평균 오류율을 평가하고 일부 오류는 편향으로 인한 반면 다른 오류는 분산으로 인한 것임을 발견했습니다.

논의된 또 다른 중요한 유형의 편향은 공정성 편향으로, 이는 사회적 이유로 거부할 수 있는 알고리즘 시스템의 인구학적 불균형을 나타냅니다. 기계 학습 모델은 특정 인구 통계를 부당하게 취급할 수 있으며 이러한 편향은 불균형 데이터 세트 또는 기타 요인에서 비롯될 수 있습니다. 발표자는 기계 학습의 공정성에 대한 자세한 내용은 Fair ML Book을 참조할 것을 권장했습니다.

연사는 매칭 정확도를 유지하면서 얼굴 이미지에서 부드러운 생체 정보를 숨기는 것과 관련하여 작업한 프로젝트에 대해 간략하게 언급했습니다. 목표는 알고리즘이 얼굴 이미지에서 성별 정보를 추출하는 것을 방지하여 개인 정보를 보호하는 것이었습니다. 연사는 피부색을 기반으로 하는 상업용 소프트웨어의 이진 성별 분류기의 편향에 주목하면서 시스템 및 상업용 안면 일치 알고리즘의 성능을 평가했습니다.

연사는 편향을 최소화하고 분류기가 다양한 인구 통계에서 수행하는 방식을 염두에 두는 것의 중요성을 강조했습니다. 그들은 편향을 해결하고 더 공정한 결과를 보장하기 위해 오버샘플링과 같은 기술의 필요성을 강조했습니다.

강의는 귀납적 편향, 통계적 편향, 공정성 편향 등 기계 학습의 다양한 형태의 편향을 다루었습니다. 예제와 토론은 편향을 완화하고 기계 학습 알고리즘의 공정성을 촉진하는 것과 관련된 문제와 고려 사항을 조명합니다.

 

9.1 소개(L09 모델 평가 2: 신뢰 구간)



9.1 소개(L09 모델 평가 2: 신뢰 구간)

여러분, 안녕하세요! 오늘 우리는 매우 흥미롭고 유익한 강의를 앞두고 있습니다. 설정 및 편향-분산 분해라는 다소 무미건조한 주제를 다루었던 이전 강의와 달리 이번 세션은 더욱 흥미로운 내용이 될 것입니다. 다양한 리샘플링 기술에 대해 논의하고 다양한 데이터 세트에 대한 시뮬레이션을 수행하여 리샘플링이 알고리즘 교육에 어떤 영향을 미치는지 관찰할 것입니다. 데이터 세트를 교육 및 테스트 세트로 나누면 사용 가능한 교육 크기가 줄어들어 잠재적으로 모델 성능에 영향을 미칠 수 있습니다.

또한 신뢰 구간과 신뢰 구간을 구성하는 다양한 방법을 살펴보겠습니다. 여기에는 정규 근사 간격 및 다양한 부트스트래핑 기술 사용이 포함됩니다. 신뢰 구간은 머신 러닝에서 중요성을 얻었으며 최근 제출된 논문에서 신뢰 구간을 포함해야 합니다. 리뷰어들은 또한 이제 신뢰 구간을 더 심각하게 받아들입니다. 그들은 현장 내에서 기대치를 제공하고 검토자뿐만 아니라 모델을 검토하는 다른 독자에게도 유용합니다.

이제 강의 주제에 대해 알아보겠습니다. 소개부터 시작하여 모델 평가를 위한 홀드아웃 방법에 대해 설명합니다. 그런 다음 홀드아웃 방법을 모델 선택에 사용할 수 있는 방법을 살펴보겠습니다. 앞으로 정규 근사 구간부터 시작하여 다양한 기술을 사용하여 신뢰 구간을 구성하는 방법을 자세히 살펴보겠습니다.

리샘플링 방법도 주요 초점이 될 것입니다. 훈련 세트의 리샘플링된 버전에 홀드아웃 방법이 적용되는 반복 홀드아웃 방법을 분석합니다. 또한 리샘플링 기술에 의존하는 경험적 신뢰 구간을 조사합니다. 여기에서 배깅 및 앙상블 모델 강의에서 논의된 친숙한 부트스트랩 기술을 접하게 됩니다.

부트스트랩 방법을 사용하여 경험적 신뢰 구간을 생성하는 방법을 이해한 후에는 포인트 632 부트스트랩과 포인트 632 플러스 부트스트랩의 두 가지 향상된 버전을 살펴보겠습니다. 모델 평가의 더 넓은 틀 내에서 이 강의의 맥락을 주목하는 것이 중요합니다. 우리는 새로운 기계 학습 알고리즘을 소개하지 않고 대신 모델을 비교하고 선택하기 위한 필수 기술에 중점을 둡니다.

이러한 기술은 주어진 데이터 세트에서 어떤 기계 학습 알고리즘이 잘 수행되는지 결정하기 어렵기 때문에 중요합니다. 가장 성능이 좋은 알고리즘을 찾기 위해 종종 수많은 알고리즘을 시도하고 비교해야 합니다. 또한 이미지 레이블을 정확하게 예측하는 것이 중요한 iPhone의 이미지 인식과 같은 애플리케이션을 개발하려면 모델 성능을 평가하는 것이 중요합니다.

보이지 않는 데이터에 대한 일반화 성능을 추정하는 것 외에도 다양한 모델을 비교합니다. 동일한 알고리즘과 학습 세트를 사용하여 하이퍼파라미터 설정이 다른 여러 모델을 얻을 수 있습니다. 이러한 모델을 비교하여 최상의 모델을 선택합니다. 또한 다양한 알고리즘을 사용하고 이미지나 텍스트와 같은 특정 데이터 유형에 대한 성능을 평가하고자 할 수 있습니다.

최상의 모델을 선택하기 위해 절대 일반화 성능을 정확하게 추정하거나 절대 성능 값 없이 모델의 순위를 매길 수 있습니다. 후자의 접근 방식은 동일한 테스트 세트를 여러 번 사용할 때 도입되는 편향을 피하는 데 도움이 됩니다. 순위 시스템을 사용하면 일반화 성능의 정확한 추정에 의존하지 않고 최상의 모델을 선택할 수 있습니다.

앞으로의 강의에서는 교차 검증 기법, 모델 평가를 위한 통계적 테스트, 정밀도, 재현율, ROC(Receiver Operating Characteristic) 곡선과 같은 정확도를 넘어선 평가 지표에 대해 다룰 것입니다.

이러한 강의는 서로 다른 기계 학습 알고리즘을 비교하고 가장 적합한 모델을 선택할 수 있는 수단을 제공하기 때문에 중요합니다. 새로운 알고리즘을 도입하지는 않지만 모델 성능을 평가하기 위한 실용적인 통찰력과 기술을 제공합니다.

요약하면 오늘 강의에서는 리샘플링 기술, 신뢰 구간 및 기계 학습과의 관련성을 다룰 것입니다. 이 강의 시리즈가 끝나면 기계 학습에서 정보에 입각한 결정을 내리는 데 필요한 도구와 모델 평가에 대해 포괄적으로 이해하게 됩니다. 이러한 주제에 대한 탐구를 시작하겠습니다!

 

9.2 홀드아웃 평가(L09 모델 평가 2: 신뢰 구간)



9.2 홀드아웃 평가(L09 모델 평가 2: 신뢰 구간)

이 비디오에서는 모델 평가를 위한 홀드아웃 방법에 대해 설명합니다. 이 방법이 새로운 것은 아니지만 이전에 살펴보지 않은 몇 가지 흥미로운 측면이 있습니다. 홀드아웃 방법은 데이터 세트를 훈련 세트와 테스트 세트로 나누는 것입니다. 훈련 세트는 모델을 훈련하거나 맞추는 데 사용되고 테스트 세트는 모델의 성능을 평가하는 데 사용됩니다.

그러나 염두에 두어야 할 몇 가지 고려 사항이 있습니다. 첫째, 훈련 세트 오류는 일반화 오류의 낙관적으로 편향된 추정치입니다. 이는 훈련 데이터가 과적합될 수 있기 때문에 훈련 오류가 모델의 성능을 안정적으로 추정하지 못할 수 있음을 의미합니다. 반면에 테스트 세트는 훈련 세트와 독립적인 경우 일반화 오류의 편향되지 않은 추정치를 제공합니다. 그러나 개념적 관점에서 테스트 세트는 비관적으로 편향될 수 있습니다. 이러한 편향은 데이터 세트를 훈련 세트와 테스트 세트로 나눌 때 귀중한 데이터가 손실되기 때문에 발생합니다. 데이터 세트가 작더라도 평가를 위해 데이터의 30%를 제거하면 모델 성능에 상당한 영향을 미칠 수 있습니다.

이 점을 설명하기 위해 간단한 예를 들어 보겠습니다. 단 10개의 데이터 포인트로 구성된 데이터 세트가 있다고 상상해 보십시오. 평가를 위해 데이터의 30%를 제거하면 모델은 데이터의 70%만 학습됩니다. 기계 학습 모델은 일반적으로 더 많은 데이터에서 이점을 얻으므로 이 제한된 교육 데이터는 모델 성능을 저하시킬 수 있습니다. 학습 곡선을 그리면 일반적으로 데이터 세트 크기가 증가함에 따라 일반화 성능이 향상되는 것을 관찰할 수 있습니다. 따라서 평가를 위해 데이터의 상당 부분을 보류하면 모델이 더 나빠질 수 있습니다.

이러한 단점에도 불구하고 모델 평가가 필요합니다. 학계에서는 일반적으로 테스트 세트 성능을 보고하고 작업이 완료된 것으로 간주합니다. 그러나 업계에서는 종종 테스트 세트에서 모델을 평가한 후 전체 데이터 세트에서 모델을 훈련합니다. 이를 통해 프로젝트 관리자와 같은 이해 관계자에게 모델의 성능을 정확하게 보고할 수 있습니다. 그러나 전체 데이터 세트에 대한 교육은 테스트 세트 성능 추정치에서 비관적 편향으로 이어질 수 있습니다. 예를 들어 모델이 테스트 세트에서 95%의 정확도를 달성한 경우 전체 데이터 세트에서 훈련하면 모델의 성능이 96%로 향상될 수 있습니다. 이 경우 95% 정확도의 초기 추정치는 비관적으로 편향되어 있습니다.

홀드아웃 방법만 사용하는 것이 항상 이상적인 것은 아닙니다. 훈련 데이터의 분산을 고려하지 않는 것과 같은 제한이 있습니다. 데이터를 무작위로 분할할 때 서로 다른 분할로 인해 모델 성능이 달라질 수 있습니다. 이 가변성은 점 추정만 제공하므로 테스트 세트 추정의 신뢰성을 떨어뜨립니다. 또한 홀드아웃 방법은 테스트 세트가 모델 튜닝 및 비교를 위해 여러 번 사용될 때 낙관적 편향의 가능성을 고려하지 않습니다.

편향의 영향을 더 이해하기 위해 비관적 편향의 개념을 살펴보겠습니다. 모델 선택 측면에서 10%의 비관적 편향은 예측 정확도를 기반으로 한 모델 순위에 영향을 미치지 않습니다. h2, h1 및 h3의 세 가지 모델이 있다고 가정합니다. 모든 정확도 추정치가 비관적으로 10% 편향되더라도 순위는 동일하게 유지됩니다. 모델 선택의 목표는 사용 가능한 최상의 모델을 선택하는 것이며 모든 모델에서 일관된 비관적 편향이 상대적 순위를 변경하지 않습니다.

마찬가지로 테스트 세트 오류가 낙관적으로 편향된 경우가 있을 수 있습니다. 이는 동일한 테스트 세트를 여러 번 사용하여 서로 다른 모델을 조정하고 비교할 때 발생합니다. 테스트 세트를 반복적으로 사용하면 테스트 세트에서 잘 수행되는 모델만 고려되는 생존자 편향이 발생할 수 있습니다. 이에 대한 예는 "CIFAR-10 분류기가 CIFAR-10으로 일반화됩니까?"입니다. CIFAR-10 이미지 데이터 세트에서 훈련되고 평가된 분류기의 과적합 및 낙관적 편향을 조사하는 논문.

결론적으로, 홀드아웃 방법은 모델 평가에 일반적으로 사용되는 접근 방식이지만 한계와 잠재적 편향이 있습니다. 이러한 한계를 극복하기 위해 교차 검증 및 부트스트래핑과 같은 대체 기술이 개발되었습니다.

교차 유효성 검사는 데이터 집합을 여러 하위 집합 또는 접기로 나누는 방법입니다. 모델은 이러한 접기의 조합에 대해 훈련되고 나머지 접기에 대해 평가됩니다. 이 프로세스는 여러 번 반복되며 각 접기는 한 번 테스트 세트로 사용됩니다. 교차 유효성 검사는 교육 및 테스트를 위해 데이터의 서로 다른 하위 집합을 활용하므로 모델 성능에 대한 보다 포괄적인 평가를 제공합니다. 무작위 데이터 분할의 영향을 완화하고 모델의 일반화 성능에 대한 보다 신뢰할 수 있는 추정치를 제공합니다.

부트스트래핑은 홀드아웃 방법의 한계를 해결하는 또 다른 리샘플링 기술입니다. 여기에는 여러 부트스트랩 샘플을 생성하기 위해 데이터 세트를 교체하여 무작위로 샘플링하는 작업이 포함됩니다. 각 부트스트랩 샘플은 훈련 세트로 사용되고 나머지 데이터는 테스트 세트로 사용됩니다. 교체를 통해 반복적으로 샘플링함으로써 부트스트래핑은 여러 훈련-테스트 분할을 생성하여 모델의 성능을 보다 강력하게 평가할 수 있습니다.

교차 검증과 부트스트래핑 모두 홀드아웃 방법과 관련된 편향을 완화하는 데 도움이 됩니다. 사용 가능한 데이터를 보다 효율적으로 활용하고 교육-테스트 분할의 가변성을 설명하여 모델 성능에 대한 보다 신뢰할 수 있는 추정치를 제공합니다.

홀드아웃 방법은 모델 평가를 위한 간단한 접근 방식이지만 한계와 잠재적 편향이 있습니다. 이러한 문제를 완화하기 위해 교차 검증 및 부트스트래핑과 같은 기술은 모델 성능에 대한 보다 강력하고 신뢰할 수 있는 추정치를 제공합니다. 당면한 문제의 특정 요구 사항 및 제약 조건에 따라 이러한 대체 방법을 고려하는 것이 중요합니다.

 

9.3 홀드아웃 모델 선택(L09 모델 평가 2: 신뢰 구간)



9.3 홀드아웃 모델 선택(L09 모델 평가 2: 신뢰 구간)

이전 비디오에서는 모델 평가를 위한 홀드아웃 방법에 대해 설명했습니다. 이제 모델 선택을 위해 이 방법을 수정하는 방법을 살펴보겠습니다. 요약하자면, 이전 비디오에서 데이터 세트를 훈련 세트와 테스트 세트로 분할했습니다. 기계 학습 알고리즘과 고정된 하이퍼파라미터 설정을 사용하여 훈련 세트에서 모델을 훈련했습니다. 그런 다음 테스트 세트에서 모델을 평가했습니다. 또한 선택적으로 모델을 전체 데이터 세트에 맞춰 더 많은 데이터를 활용하고 성능 향상을 기대합니다.

이제 우리는 하이퍼파라미터 튜닝과 밀접한 관련이 있는 모델 선택에 홀드아웃 방법을 사용하는 것을 목표로 합니다. 모델 선택에는 다양한 하이퍼파라미터 설정 중에서 최상의 모델을 선택하는 작업이 포함됩니다. 하이퍼파라미터 튜닝 과정에서 각각 특정 하이퍼파라미터 설정에 해당하는 여러 모델을 생성합니다. 모델 선택은 최적의 하이퍼파라미터 설정으로 모델을 식별하는 데 도움이 됩니다.

모델 선택을 위한 수정된 홀드아웃 방법을 설명하기 위해 단계를 세분화해 보겠습니다. 먼저 데이터 세트를 훈련 세트와 테스트 세트로 나누는 대신 훈련 세트, 검증 세트, 테스트 세트의 세 세트로 나눕니다. 이러한 분리를 통해 모델 선택을 위한 독립적인 데이터 세트인 검증 세트를 가질 수 있습니다.

다음으로 다양한 하이퍼파라미터 설정을 고려하고 학습 데이터를 사용하여 여러 모델을 적합합니다. 예를 들어 하이퍼파라미터 값이 k=3, k=5, k=7인 K-최근접 이웃 알고리즘을 사용하여 세 가지 모델을 생성할 수 있습니다.

모델 선택 단계에는 검증 세트를 사용하여 이러한 모델을 평가하는 작업이 포함됩니다. 훈련 데이터에 모델이 과대적합될 수 있으므로 최적의 모델을 선택하는 데 적합하지 않습니다. 따라서 우리는 모델을 평가하기 위해 독립적인 검증 세트에 의존합니다. 각 모델에 대해 예측 정확도와 같은 성능 메트릭을 계산하고 최상의 하이퍼 매개 변수 설정에 해당하는 최적 모델로 최고의 성능을 가진 모델을 선택합니다.

그러나 모델 선택을 위해 유효성 검사 세트를 여러 번 사용하면 이전 비디오의 테스트 세트에서 발생한 문제와 유사한 편향이 발생할 수 있습니다. 편향되지 않은 모델 성능 추정치를 얻기 위해 독립적인 테스트 세트를 예약합니다. 최상의 모델을 선택한 후 테스트 세트에서 성능을 평가하고 결과를 보고합니다.

선택적으로 최종 평가 전에 결합된 교육 및 검증 데이터를 사용하여 모델을 다시 맞출 수 있습니다. 이 단계에서는 더 많은 데이터를 활용하여 잠재적으로 모델의 성능을 개선합니다. 마지막으로 독립적인 테스트 세트에서 최종 모델을 평가하고 성능을 보고합니다. 결합된 데이터로 피팅된 모델을 추가로 평가하기 위한 테스트 세트가 없지만 일반적으로 증가된 데이터 양으로 인해 더 나을 것으로 예상됩니다.

실제로 모델 선택을 위한 홀드아웃 방법은 다를 수 있으며 모든 단계를 엄격하게 따르는 것은 아닙니다. 일부 실무자는 결합된 데이터에 대한 재교육 없이 테스트 세트에서 선택한 모델을 직접 평가합니다. 그럼에도 불구하고 핵심 아이디어는 편향되지 않은 성능 추정을 보장하고 최상의 모델 선택을 용이하게 하기 위해 교육, 검증 및 테스트를 위한 별도의 데이터 세트를 보유하는 것입니다.

다음 비디오에서는 신뢰 구간의 개념을 자세히 살펴보겠습니다.

 

9.4 정규 근사를 통한 ML 신뢰 구간(L09 모델 평가 2: 신뢰 구간)



9.4 정규 근사를 통한 ML 신뢰 구간(L09 모델 평가 2: 신뢰 구간)

이 비디오에서는 특히 테스트 세트에서 분류 오류 또는 분류 정확도를 추정하기 위한 신뢰 구간에 초점을 맞춥니다. 우리는 가장 간단한 접근 방식인 정규 근사 방법을 사용할 것입니다. 그러나 향후 비디오에서 리샘플링을 기반으로 하는 더 나은 방법에 대해서도 논의할 것입니다.

현재 우리는 기본 섹션에 있으며 정규 근사 방법을 사용하여 신뢰 구간을 탐색합니다. 후속 비디오에서는 반복되는 홀드아웃 방법으로 시작한 다음 경험적 신뢰 구간을 구성하기 위한 부트스트래핑과 같은 방법으로 이동하는 등 다양한 리샘플링 기술을 자세히 살펴보겠습니다.

다른 통계 수업에서 이미 잘 알고 있는 이항 분포에 대해 논의하는 것으로 시작하겠습니다. 이항 분포는 각각 시행 횟수와 성공 확률을 나타내는 매개변수 n과 p를 사용하여 성공 횟수를 제공합니다. 이항 분포의 평균은 n 곱하기 p로 주어집니다. 예를 들어 성공 확률이 33%인 100번의 시도가 있는 경우 평균은 30이 됩니다.

왼쪽 그림에서 서로 다른 p 및 n 값에 대한 이항 분포의 확률 밀도 함수를 볼 수 있습니다. 이 밀도 함수는 서로 다른 성공 횟수의 확률을 보여줍니다. 또한 이항 분포의 분산은 n 곱하기 p 곱하기(1 - p)로 계산되며 나중에 사용할 것입니다. 잠시 시간을 내어 이 모델에 익숙해지십시오.

이제 이항 분포를 기계 학습에 연결해 보겠습니다. 우리는 0-1의 패배를 베르누이 시행으로 볼 수 있습니다. 여기에는 올바른 분류(성공)와 잘못된 분류(실패)의 두 가지 가능성이 있습니다. 잘못된 분류는 성공으로, 올바른 분류는 실패로 간주할 수 있습니다. 이 관점은 동전 던지기에서 앞면과 뒷면의 개념과 일치합니다. 성공 확률(즉, 잘못된 분류)을 추정하기 위해 많은 수의 시행을 수행하고 성공 횟수를 총 시행 횟수로 나누어 계산하여 경험적으로 계산할 수 있습니다. 평균 성공 횟수는 n 곱하기 p이며, 이는 이항 분포의 평균에 해당합니다.

0-1 손실과 이항 분포 사이의 관계는 기계 학습의 오류 개념을 이해하는 데 도움이 됩니다. Bernoulli 시행으로 0-1 손실을 고려하고 올바른 예측의 확률로 실제 오류를 고려할 수 있습니다. 실제 오류를 추정하기 위해 테스트 세트를 사용하고 잘못된 예측의 비율을 계산합니다. 이 비율은 0과 1 사이의 값을 얻기 위해 테스트 세트의 크기로 더 나눌 수 있는 분류 오류를 나타냅니다.

신뢰 구간을 구성할 때 다른 통계 클래스의 단일 표본 신뢰 구간에 사용된 것과 동일한 방법을 사용합니다. 신뢰 구간은 특정 확률로 관심 모수를 포함할 것으로 예상되는 구간입니다. 가장 일반적인 신뢰 수준은 95%이지만 90% 또는 99%와 같은 다른 수준도 사용할 수 있습니다. 신뢰 수준의 선택에 따라 구간의 폭이 결정되며 수준이 높을수록 구간이 넓어집니다.

신뢰 구간을 공식적으로 정의하기 위해 가정된 분포에서 반복적으로 추출된 여러 샘플을 고려합니다. 우리의 경우 정규 분포를 가정합니다. 이 방법을 사용하여 95% 신뢰 구간을 구성할 때 무한한 수의 샘플을 기반으로 무한한 수의 구간을 구성하는 경우 이러한 구간의 95%가 참 매개변수를 포함할 것으로 예상합니다.

데이터가 정규 분포에서 추출될 수 있다고 가정하는 이유가 궁금할 수 있습니다. 그 이유는 시행 횟수가 많을 때 이항 분포가 정규 분포와 유사하기 때문입니다. 상대적으로 적은 수의 시도에서도 데이터는 이미 표준 정규 분포와 유사한 모양을 나타냅니다. 이것이 정규 근사법을 사용하는 이유입니다.

이 경우 신뢰 구간을 구성하는 방법입니다.

이제 정규 근사 방법을 사용하여 분류 오류에 대한 신뢰 구간을 구성하는 방법에 대해 자세히 살펴보겠습니다. 먼저 이항 분포의 표준 편차를 계산해야 합니다. 앞에서 언급했듯이 이항분포의 분산은 n 곱하기 p 곱하기(1 - p)로 주어집니다. 따라서 표준 편차는 분산의 제곱근입니다.

다음으로 원하는 신뢰 수준에 해당하는 z-점수를 결정합니다. z 점수는 표준 정규 분포의 평균에서 벗어난 표준 편차의 수를 나타냅니다. 95% 신뢰 수준의 경우 z-점수는 약 1.96입니다. z-점수를 계산하는 일반 공식은 (x - μ) / σ입니다. 여기서 x는 원하는 신뢰 수준, μ는 평균, σ는 표준 편차입니다.

신뢰 구간을 구성하기 위해 테스트 세트의 예상 오류율로 시작하여 점 추정치를 나타냅니다. 그런 다음 점 추정치에서 z 점수와 표준 편차의 곱을 빼고 더합니다. 이는 각각 신뢰 구간의 하한 및 상한을 제공합니다. 결과 구간은 실제 분류 오류가 지정된 신뢰 수준에 속할 것으로 예상되는 값의 범위를 나타냅니다.

정규 근사 방법은 시행 횟수(테스트 세트의 크기)가 충분히 크다고 가정한다는 점에 유의해야 합니다. 테스트 세트가 작으면 이 근사치가 정확하지 않을 수 있습니다. 이러한 경우 부트스트래핑과 같은 리샘플링 방법은 보다 신뢰할 수 있는 신뢰 구간을 제공할 수 있습니다.

요약하면, 정규 근사 방법을 사용하여 분류 오류에 대한 신뢰 구간을 구성하는 작업에는 다음 단계가 포함됩니다.

  1. 공식 sqrt(n * p * (1 - p))를 사용하여 이항 분포의 표준 편차를 계산합니다.
  2. 원하는 신뢰 수준에 해당하는 z 점수를 결정합니다.
  3. z 점수의 곱과 점 추정치에서 표준 편차를 각각 빼서 더하여 신뢰 구간의 하한과 상한을 계산합니다.

후속 동영상에서는 리샘플링 기술을 기반으로 하는 고급 방법을 살펴보며 특히 소규모 데이터 세트에 유용합니다. 이러한 방법은 경험적 신뢰 구간을 제공하며 보통 정규 근사 방법보다 더 정확합니다.

 

9.5 리샘플링 및 반복된 홀드아웃(L09 모델 평가 2: 신뢰 구간)



9.5 리샘플링 및 반복된 홀드아웃(L09 모델 평가 2: 신뢰 구간)

이 비디오에서는 리샘플링이라는 주제를 자세히 살펴보고 특히 반복 홀드아웃 방법에 대해 논의합니다. 이전에는 데이터 세트를 훈련 세트와 테스트 세트로 나누는 일반 홀드아웃 방법을 살펴보았습니다. 또한 정규 근사 방법을 사용하여 테스트 세트에서 추정된 성능을 기반으로 신뢰 구간을 구성하는 방법을 살펴보았습니다. 이제 반복된 홀드아웃 방법을 시작으로 리샘플링 방법으로 초점을 이동합니다.

시각적 설명을 제공하기 위해 학습 곡선을 고려해 보겠습니다. 학습 곡선은 우리 모델이 추가 교육 데이터에서 이점을 얻을 수 있는지 여부를 나타내는 지표 역할을 합니다. 그래프에서 x축은 훈련 세트의 크기를 나타내고 y축은 정확도로 측정된 성능을 나타냅니다. 그러나 동일한 플롯을 뒤집어 오류를 측정하는 데 사용할 수 있습니다. 여기에 표시된 성능은 Amnesty 필기 숫자 데이터 세트를 기반으로 하지만 계산 속도를 높이기 위해 이미지 5000개의 하위 집합만 사용되었습니다. 이 5000개의 이미지 중 3000개는 훈련에 할당되었고 1500개는 테스트 세트로 따로 보관되었습니다. 3500개의 이미지로 구성된 또 다른 데이터 세트도 생성되었고 다양한 크기의 훈련 세트가 구성되었습니다.

그래프의 각 데이터 포인트는 특정 훈련 세트 크기에 해당하는 반면 테스트 세트 크기는 1500으로 일정하게 유지됩니다. 관찰된 경향은 훈련 세트 크기가 감소함에 따라 훈련 정확도가 증가한다는 것입니다. 그러나 훈련 세트 크기가 커질수록 훈련 정확도는 떨어집니다. 이러한 추세에 대한 한 가지 가능한 설명은 훈련 세트가 작을수록 모델이 이상값이나 노이즈를 포함한 데이터를 기억하기가 더 쉽다는 것입니다. 훈련 세트 크기가 커질수록 더 다양한 이상치의 존재로 인해 데이터를 기억하기가 더 어려워집니다. 그러나 더 큰 훈련 세트는 더 나은 일반화를 촉진하여 테스트 세트의 성능을 향상시킵니다.

사용 가능한 더 큰 데이터 세트가 없었기 때문에 그래프가 훈련 세트 크기 3500에서 멈춘다는 점은 주목할 가치가 있습니다. 빨간색으로 표시된 테스트 세트는 1500개의 샘플로 고정된 상태로 유지되었습니다. 테스트를 위해 이러한 샘플을 예약함으로써 모델이 최대 용량에 도달하지 않았을 수 있기 때문에 비관적 편향이 도입되었습니다. 용량은 더 많은 데이터로 개선할 수 있는 모델의 잠재력을 나타냅니다. 이 경우 효율성을 위해 다항 로지스틱 회귀인 단순 softmax 분류기를 사용했습니다. 그러나 유사한 실험에 다른 분류기를 사용할 수 있습니다.

학습 곡선과 관련하여 데이터 세트의 크기와 분류기 성능에 미치는 영향을 고려하는 것이 중요합니다. 데이터 세트 크기를 늘리면 특히 학습 곡선이 훈련 세트 크기가 커짐에 따라 테스트 오류가 감소함을 나타낼 때 분류기의 성능을 향상시킬 수 있습니다. 예를 들어 영화 등급 예측과 관련된 프로젝트를 수행할 때 IMDb와 같은 소스에서 더 많은 영화 리뷰를 수집하면 분류기의 성능을 향상시킬 수 있습니다.

근무 시간 동안 학생들은 종종 프로젝트의 분류기 성능 개선에 대해 문의합니다. 분류기 향상에는 매개 변수 변경, 기능 선택 또는 기능 추출과 같은 다양한 전략이 포함될 수 있습니다. 그러나 데이터 세트 크기를 늘리는 것은 긍정적인 결과를 얻을 수 있는 간단하면서도 효과적인 방법입니다. 학습 곡선을 검토하면 하이퍼파라미터 튜닝에만 집중하는 대신 더 많은 데이터가 모델에 도움이 될 수 있는지 여부를 결정하는 데 도움이 됩니다.

데이터 세트를 훈련 세트와 테스트 세트로 분할하여 발생하는 비관적 편향을 인정하는 것이 중요합니다. 테스트를 위해 데이터의 상당 부분을 보류하면 제한된 학습 데이터로 인해 모델이 최대 잠재력에 도달하지 못할 수 있습니다. 한 가지 해결책은 이 바이어스를 해결하기 위해 테스트 세트의 크기를 줄이는 것입니다. 그러나 테스트 세트 크기를 줄이면 분산이 증가한다는 또 다른 문제가 발생합니다. 테스트 세트가 작을수록 모델 성능 추정치의 분산이 증가하여 추정치의 신뢰도가 떨어질 수 있습니다.

이러한 문제를 완화하기 위해 홀드아웃 방법을 여러 번 반복하고 결과를 평균화하는 Monte Carlo 교차 검증이라는 기술을 사용할 수 있습니다. 이 기술은 일반적으로 반복 홀드아웃 방법으로 알려져 있습니다.

반복 홀드아웃 방법에서는 홀드아웃 프로세스를 여러 번 반복하여 데이터 세트를 훈련 세트와 테스트 세트로 무작위로 분할합니다. 각 반복은 서로 다른 무작위 분할을 사용하여 데이터의 서로 다른 하위 집합이 각 반복에서 교육 및 테스트에 사용되도록 합니다. 이 프로세스를 여러 번 반복하여 모델에 대한 여러 성능 추정치를 얻을 수 있습니다.

반복된 홀드아웃 방법의 주요 이점은 단일 홀드아웃 분할과 비교하여 모델 성능에 대한 보다 강력하고 신뢰할 수 있는 추정치를 제공한다는 것입니다. 각 반복은 서로 다른 무작위 분할을 사용하므로 데이터의 무작위성으로 인한 성능 변동성을 포착할 수 있습니다. 이를 통해 본 적이 없는 데이터에 대한 모델의 실제 성능을 보다 정확하게 추정할 수 있습니다.

각 반복의 성능 추정치가 있으면 평균 성능을 계산하고 이를 최종 추정치로 사용할 수 있습니다. 또한 성능 추정치의 분산 또는 표준 편차를 계산하여 결과의 변동성을 파악할 수도 있습니다.

반복되는 홀드아웃 방법에서 훈련 세트와 테스트 세트는 보이지 않는 데이터에서 모델을 평가할 수 있도록 각 반복에서 분리되어야 한다는 점에 유의하는 것이 중요합니다. 또한 훈련 및 테스트 세트의 크기는 사용 가능한 데이터 세트의 크기와 훈련 데이터와 평가 데이터 간의 원하는 균형을 기반으로 결정되어야 합니다.

반복 홀드아웃 방법은 데이터 세트가 여러 무작위 분할을 허용할 만큼 충분히 클 때 특히 유용합니다. 모델 성능에 대한 보다 강력한 평가를 제공하는 데 도움이 되며 제한된 데이터로 작업할 때 특히 유용할 수 있습니다.

요약하면, 반복 홀드아웃 방법은 데이터 세트의 서로 다른 임의 분할로 홀드아웃 프로세스를 여러 번 반복하는 리샘플링 기술입니다. 보다 신뢰할 수 있는 성능 추정치를 얻고 모델 성능의 변동성을 포착하는 데 도움이 됩니다. 반복된 홀드아웃 반복 결과의 평균을 구하면 모델의 실제 성능을 더 잘 예측할 수 있습니다.

사유: