머신 러닝 및 신경망 - 페이지 15

 

강의 8. 표본추출과 표준오차



8. 샘플링 및 표준 오차

"샘플링 및 표준 오류"에 대한 이 비디오는 모집단 매개변수를 추정하기 위한 샘플링 기술에 중점을 두고 추론 통계의 다양한 개념을 다룹니다. 이 비디오는 계층화된 샘플링뿐만 아니라 확률 샘플링 및 단순 무작위 샘플링을 탐색하고 모집단의 무작위 샘플에서 평균 및 표준 편차의 일관성과 관련된 중심 극한 정리에 대해 설명합니다. 비디오는 또한 오류 막대, 신뢰 구간, 표준 편차 및 표준 오류, 적절한 샘플 크기 선택 및 분포 유형과 같은 주제에 대해 자세히 설명합니다. 연사는 전체 모집단을 조사하지 않고 모집단 표준 편차를 추정하는 데 도움이 되므로 표준 오차를 이해하는 것의 중요성과 다양한 부서에서 널리 논의되는 개념임을 강조합니다.

  • 00:00:00 이 섹션에서 강사는 추론 통계와 관련된 샘플링 주제에 대해 논의합니다. 핵심 아이디어는 모집단에서 추출한 하나 이상의 무작위 샘플을 검사하여 해당 모집단에 대한 참조를 만드는 것입니다. 강사는 모집단의 각 구성원이 샘플에 포함될 확률이 0이 아닌 확률 샘플링에 대해 설명합니다. 단순 임의 샘플링은 모집단의 각 구성원이 샘플에서 선택될 확률이 동일해야 하는 심층 탐구입니다. 그러나 강사는 모집단이 고르게 분포되지 않고 하위 그룹을 분할하고 샘플에서 비례적으로 나타내야 하는 경우와 같은 특정 상황에서는 층화 샘플링이 필요할 수 있음을 지적합니다.

  • 00:05:00 이 섹션에서는 모집단의 크기에 비례하여 나타내야 하는 작은 하위 그룹을 샘플링하는 방법으로 층화 샘플링의 개념을 소개합니다. 건축학과 학생들이 대표되도록 층화 샘플링을 사용하는 예가 제공됩니다. 그러나 층화 샘플링은 올바르게 수행하기 어려울 수 있으므로 이 과정에서는 단순 무작위 샘플을 고수합니다. 이 과정은 1961년부터 2015년까지 미국 21개 도시의 일일 최고 기온과 최저 기온 데이터 세트를 제공합니다. 데이터는 히스토그램을 사용하여 시각화되며 데이터가 정상적으로 분포되지 않음을 보여줍니다. 평균 일일 최고 기온은 섭씨 16.3도이며 표준 편차는 약 9.4도입니다.

  • 00:10:00 이 섹션에서 비디오는 샘플링의 아이디어와 전체 인구와의 관계에 대해 설명합니다. 모집단에서 크기 100의 임의 표본을 추출하고 평균과 표준편차를 비교함으로써 비디오는 개별 표본이 모집단과 다를 수 있지만 전체적으로 중앙 극한 정리로 인해 평균과 표준 편차가 모집단과 일치함을 보여줍니다. . 1000개 샘플의 시뮬레이션을 실행하여 비디오는 샘플 평균이 16.3이고 표준 편차가 0.94이며 14.5에서 18.1의 95% 신뢰 구간을 제공하는 방법을 보여줍니다. 신뢰 구간은 넓지만 모집단 평균을 포함합니다.

  • 00:15:00 이 섹션에서 비디오는 실제 모집단 평균의 추정치에 대해 더 엄격한 범위를 얻는 방법에 대해 설명합니다. 더 많은 샘플을 추출하고 더 큰 샘플을 채취하는 것이 모두 고려됩니다. 샘플 크기를 100에서 200으로 늘린 실험을 실행하면 표준 편차가 0.94에서 0.66으로 상당히 크게 떨어졌으며, 이는 샘플 크기가 클수록 더 정확한 추정치를 얻는 데 도움이 된다는 것을 나타냅니다. 데이터의 변동성을 시각화하기 위해 오차 막대를 사용하는 방법도 소개합니다. 신뢰 구간을 사용하여 평균이 통계적으로 유의하게 다른지 여부를 확인할 수 있습니다. 신뢰 구간이 겹치지 않으면 평균이 유의하게 다르다는 결론을 내릴 수 있습니다. 중복되는 경우 추가 조사가 필요합니다.

  • 00:20:00 이 섹션에서 발표자는 Python의 PyLab 패키지를 사용하여 오차 막대를 그리는 방법에 대해 설명합니다. 표준편차에 1.96을 곱하면 평균과 추정치의 신뢰도를 나타내는 오차 막대를 만들 수 있습니다. 샘플 크기가 증가함에 따라 오차 막대가 작아져 신뢰도가 높아지지만 반드시 정확도가 높아지는 것은 아닙니다. 그러나 중앙 극한 정리를 사용하면 샘플 크기가 큰 여러 샘플을 보는 것이 중복될 수 있지만 단일 샘플을 사용하면 여전히 귀중한 통찰력을 제공할 수 있습니다.

  • 00:25:00 이 섹션에서 비디오는 표본 평균의 분산이 모집단을 표본 크기로 나눈 분산에 가깝다는 중심 극한 정리의 세 번째 부분에 대해 설명합니다. 이것은 모집단 표준 편차를 표본 크기의 제곱근으로 나눈 것과 같은 평균의 표준 오차 계산으로 이어집니다. 영상은 코드를 사용하여 평균의 표준오차가 작동하는지 테스트하고, 표준편차가 표준오차를 매우 잘 추적함을 보여주므로 표준오차를 계산하여 표준편차를 추정하는 데 유용합니다. 표준 편차와 표준 오차의 차이점은 전자를 계산하려면 많은 샘플을 살펴봐야 하고 후자는 하나의 샘플만 필요하다는 것입니다.

  • 00:30:00 이 섹션에서 연사는 여러 표본을 채취하지 않고 모집단의 표준 편차를 근사화하는 방법인 표준 오차의 개념에 대해 설명합니다. 표준 오차 공식에는 모집단의 표준 편차가 포함되지만 전체 모집단을 조사해야 하므로 일반적으로 알 수 없습니다. 대신 샘플 표준 편차가 종종 추정치로 사용됩니다. 화자는 더 큰 샘플 크기의 경우 샘플 표준 편차가 모집단 표준 편차의 상대적으로 정확한 근사치임을 보여줍니다. 그러나 분포 유형이 다르고 모집단이 더 큰 경우에는 항상 그렇지 않을 수 있습니다.

  • 00:35:00 이 섹션에서 비디오는 균일, 정규 또는 가우시안, 지수를 포함한 다양한 분포에 대해 설명하고 이러한 분포에 대한 이산 근사치를 보여줍니다. 표준 편차와 표본 표준 편차의 차이는 이러한 모든 분포에서 동일하지 않으며 지수가 최악의 경우입니다. 확률 분포의 비대칭성을 측정하는 스큐는 모집단을 추정하는 데 필요한 샘플 수를 결정할 때 중요한 요소입니다. 또한 비디오는 필요한 샘플 수를 결정할 때 모집단의 크기가 중요하지 않다는 직관에 반하는 결과를 보여줍니다.

  • 00:40:00 이 섹션에서 발표자는 단일 샘플이 주어진 모집단의 평균을 추정하기 위해 적절한 샘플 크기를 선택하는 것의 중요성에 대해 논의합니다. 그는 올바른 표본 크기를 선택하는 것이 정확한 답변을 얻고 너무 작은 표본 크기의 사용을 피하는 데 필수적이라고 강조합니다. 샘플 크기가 선택되면 샘플의 평균 및 표준 편차를 계산하기 위해 모집단에서 무작위 샘플을 가져옵니다. 표본에서 생성된 추정 표준 오차를 사용하여 표본 평균 주변의 신뢰 구간이 생성됩니다. 발표자는 이 방법이 독립적인 임의 샘플을 선택한 경우에만 작동하며 종속 샘플을 선택하면 잘못된 결과가 발생할 수 있음을 보여줍니다. 마지막으로 그는 95% 신뢰 구간을 벗어난 비율을 계산하는 예제 실험을 시연하고 5%가 최적의 결과임을 강조합니다.

  • 00:45:00 이 섹션에서 발표자는 통계 분석에서 표준 오류의 개념을 이해하는 것의 중요성에 대해 논의합니다. 그는 답이 너무 좋거나 너무 나쁘면 확률 계산이 틀렸다고 강조한다. 표준 오차가 어떻게 작동하는지 보여주기 위해 그는 시뮬레이션을 실행하고 95% 신뢰 구간을 벗어나는 비율이 예상 값인 5%에 매우 가깝다는 것을 보여줍니다. 연사는 표준 오류의 중요성과 그것이 여러 부서에서 널리 논의되는 개념임을 강조하면서 결론을 내립니다.
 

강의 9. 실험 데이터의 이해



9. 실험 데이터 이해

이 강의에서 Eric Grimson 교수는 데이터 수집에서 예측을 위한 모델 사용에 이르기까지 실험 데이터를 이해하는 과정에 대해 논의합니다. 그는 스프링의 예를 사용하여 선형 관계를 예측할 때 측정 정확도의 중요성을 설명하고 적합도를 측정하는 다양한 방법을 탐구합니다. Grimson은 선형 회귀 및 다항식 적합의 개념을 도입하여 높은 r-제곱 값이 반드시 고차 다항식이 최선의 선택임을 의미하지는 않는다는 점을 강조합니다. Grimson은 코드를 사용하여 16차원 공간을 최적화하고 다음 강의에 이 다항식을 사용할지 여부를 선택합니다.

  • 00:00:00 강의의 이 섹션에서 Eric Grimson 교수는 오늘날의 데이터 집약적인 세상에서 실험 데이터를 이해하는 것의 중요성에 대해 논의합니다. 그는 과학자, 엔지니어, 사회 과학자 또는 데이터를 다루는 다른 직업에 관계없이 유용한 정보를 추출하기 위해 데이터를 조작할 수 있는 소프트웨어가 필요하다고 강조합니다. 또한 실험을 수행하고, 데이터를 얻고, 모델을 사용하여 데이터에 대한 예측을 수행하는 과정에 대해서도 이야기합니다. 용수철의 예를 사용하여 스프링에 대한 데이터를 수집하고 모델링하고 데이터 분석에 도움이 되는 소프트웨어를 작성하는 방법을 설명합니다.

  • 00:05:00 이 섹션에서는 Hooke의 탄성 법칙 개념을 소개합니다. 법칙에 따르면 용수철을 압축하거나 늘리는 데 필요한 힘은 압축하거나 늘리는 거리와 선형적으로 관련되어 있습니다. 음수 부호는 힘이 압축 또는 신장의 반대 방향으로 가해진다는 것을 나타냅니다. Hooke의 법칙은 다양한 용수철에 적용되지만 이 법칙이 깨지기 전에 용수철이 얼마나 늘어날 수 있는지에는 한계가 있습니다. Hooke의 법칙과 용수철 상수를 사용하여 용수철을 1cm 압축하는 데 필요한 힘을 계산하는 예가 제공됩니다.

  • 00:10:00 이 섹션에서 화자는 용수철의 다양한 질량 측정을 통해 용수철 상수를 결정하는 과정을 설명합니다. 이상적으로는 단일 측정으로 충분하지만 질량을 신뢰할 수 없고 스프링이 불완전한 재료를 포함할 수 있기 때문에 스프링 상수를 추출하기 위해 플롯할 수 있는 선형 관계가 있는 측정 세트를 생성하려면 여러 번의 시도가 필요합니다. 발표자는 데이터 포인트를 그래프로 표시하기 전에 배열 함수를 사용하여 모든 값의 크기를 균등하게 조정하는 방법을 시연합니다. 이상적인 선형 관계는 연구자들이 원자력 현미경을 보정하고 생물학적 구조의 힘을 측정할 수 있도록 합니다.

  • 00:15:00 이 섹션에서 발표자는 실험 데이터에 선을 맞추는 방법과 선과 측정된 지점 사이의 거리를 측정하는 방법에 대해 설명합니다. 그들은 목적 함수를 최소화하는 직선을 찾아 직선이 얼마나 잘 맞는지를 결정하기 위해 목적 함수가 필요하다고 설명합니다. 또한 화자는 x축 방향의 변위, 수직 방향의 변위 또는 선상에서 가장 가까운 지점까지의 거리 등 거리를 측정하는 다양한 방법을 고려합니다. 새로운 독립 값이 주어지면 예측되는 종속 값을 측정하므로 궁극적으로 수직 변위를 선택합니다.

  • 00:20:00 이 섹션에서 Eric Grimson은 최소 제곱법을 사용하여 예측 라인의 정확도를 측정하는 방법을 설명합니다. 이 방법은 예측된 y 값과 관측된 y 값 사이의 차이를 찾아 제곱하여 부호를 제거한 다음 모든 관측된 값에 대해 이러한 제곱된 차이를 합산하는 작업을 포함합니다. 이 합계는 선이 관찰된 값에 맞는 방법을 측정합니다. 차이 제곱합을 최소화하면 가장 잘 맞는 선을 찾을 수 있습니다. 또한 Grimson은 예측 곡선의 모델이 다항식이라고 가정하고 데이터에 가장 적합한 1차 또는 2차 다항식을 찾기 위해 선형 회귀 기술을 사용하여 가장 잘 맞는 곡선을 찾는 방법에 대해 설명합니다.

  • 00:25:00 이 섹션에서는 2차원 공간에서 가능한 모든 선으로 표현할 수 있는 표면의 가장 낮은 지점을 찾는 방법으로 선형 회귀의 개념을 소개합니다. 선형 회귀는 어떤 지점에서 시작하여 어느 정도 경사도를 따라 내리막길을 걷고, 새로운 경사도를 측정하고, 가장 낮은 지점에 도달할 때까지 반복하여 가장 적합한 선을 찾는 데 사용됩니다. 이를 수행하는 알고리즘은 Newton의 방법과 매우 유사합니다. 또한 이 섹션에서는 기본 제공 PyLab 함수인 polyFit을 사용하여 최상의 최소 제곱 피팅을 제공하는 주어진 차수의 다항식 계수를 찾는 방법을 다룹니다.

  • 00:30:00 이 섹션에서 발표자는 Python을 사용하여 데이터에 줄을 맞추는 방법과 사용 중인 다항식의 순서를 변경하는 방법을 보여줍니다. 그들은 사용된 다항식의 차수가 높을수록 적합도가 데이터에 더 가까워진다고 설명합니다. 발표자는 선 맞추기가 작동하지 않고 2차 선 맞추기가 더 잘 맞는 데이터 집합의 시각적 예를 제공합니다. 또한 polyval 함수를 사용하여 모든 차수 다항식을 맞추고 예측 값 배열을 반환하는 방법을 설명하여 코드의 추상적인 특성을 보여줍니다.

  • 00:35:00 이 섹션에서 발표자는 실험 데이터의 적합도를 측정하는 방법에 대해 설명합니다. 다른 모델을 비교하기 위해 그는 평균 제곱 오차를 측정할 것을 제안합니다. 이 접근 방식은 두 모델을 비교하는 데 유용하기 때문입니다. 그러나 이 방법은 하나의 피팅이 다른 피팅보다 실제로 더 나은지 여부를 결정적으로 알 수 있는 방법을 제공하지 않기 때문에 문제가 있습니다. 이 문제를 해결하기 위해 화자는 결정 계수(r-제곱)를 사용할 것을 권장합니다. 이는 척도에 독립적이며 적합이 완벽에 얼마나 가까운지 알 수 있습니다. 그는 관찰값과 예측값 사이의 차이와 평균 오차를 측정하는 것과 관련된 r-제곱을 계산하는 공식을 제공합니다.

  • 00:40:00 이 섹션에서는 화자가 모델의 정확도를 평가하기 위해 분산 및 r-제곱 값을 계산하는 방법을 설명합니다. 분산은 제곱 오차의 합을 샘플 수로 나누어 구할 수 있습니다. r-제곱 값은 데이터의 변동성이 모델에 의해 설명되는 정도를 나타내며 범위는 0과 1 사이입니다. r-제곱이 1이라는 것은 모델이 모든 변동성을 설명한다는 것을 의미하고, r-제곱이 0이라는 것은 모델과 데이터 사이에 관계가 없음을 의미합니다. 그런 다음 연사는 서로 다른 복잡성 수준으로 모델을 생성 및 테스트하고 해당 r-제곱 값을 반환하는 두 가지 함수인 genFits 및 testFits를 소개합니다. 이러한 함수는 데이터 집합에 가장 적합한 것을 결정하는 데 도움이 될 수 있습니다.

  • 00:45:00 이 섹션에서 강사는 2차, 4차, 8차 및 16차 다항식이 포함된 코드를 실행하여 데이터에 가장 적합한 것을 결정합니다. 그들은 PyLab 종류의 코드를 사용하면 16차원 공간을 최적화하고 선형 회귀를 사용하여 최상의 솔루션을 찾을 수 있다고 설명합니다. 16차 다항식이 훌륭하게 작동하고 거의 97%의 r 제곱 값을 갖지만 강사는 높은 r 제곱 값이 반드시 16차 다항식을 사용하는 것이 최선의 선택이라는 것을 의미하지는 않는다고 경고합니다. 그들은 다음 강의 때까지 그것을 사용할지 여부에 대한 결정을 내립니다.
 

강의 10. 실험 데이터의 이해(계속)



10. 실험 데이터 이해(계속)

비디오의 이 섹션에서 발표자는 과적합을 피하면서 실험 데이터에 적합한 올바른 모델을 찾는 것의 중요성을 강조합니다. 새 데이터를 예측할 때 모델 복잡성과 효과 사이의 올바른 균형을 결정하기 위해 교차 유효성 검사를 사용하는 것과 같은 몇 가지 방법에 대해 설명합니다. 발표자는 실험 데이터에 다양한 차수의 모델을 피팅하는 예를 제공하고 데이터 세트에 노이즈를 추가하여 과적합의 효과를 보여줍니다. 모델이 데이터에 얼마나 잘 맞는지 결정하기 위한 도구로 R 제곱 값도 도입되었습니다. 전반적으로 새 데이터를 예측할 때 모델 복잡성과 효율성의 균형을 맞추는 것이 중요합니다.

  • 00:00:00 이 섹션에서 강사는 학생들이 이전에 데이터를 이해하기 위해 모델을 실험 데이터에 맞추는 개념에 대해 논의했음을 상기시킵니다. 목표는 데이터의 기저에 있는 현상을 설명하고 새로운 환경에서 행동을 예측할 수 있는 모델을 갖추는 것입니다. 그러나 데이터는 항상 잡음이 많기 때문에 모델을 피팅할 때 실험적 불확실성을 고려해야 합니다. 강사는 관찰 데이터와 예측 데이터 간의 차이를 최소화하는 계수를 찾기 위해 다항식, 특히 선형 회귀의 사용을 요약합니다.

  • 00:05:00 이 섹션에서는 선형 회귀의 개념을 자세히 살펴봅니다. 선형 회귀의 기본 아이디어는 하나의 값으로 액세스하고 다른 하나는 B 값으로 액세스하는 공간에서 가능한 모든 선을 나타내는 것입니다. 여기서 표면의 값 또는 높이는 모든 지점에서 해당 목적 함수의 값입니다. 아이디어는 해당 표면의 특정 지점에서 시작하여 바닥에 도달할 때까지 내리막길을 걷는 것입니다. 여기서 항상 아래쪽 한 지점이 하나 있고 해당 지점에 도달하면 a 및 B 값이 최상의 선을 제공합니다. 이 섹션은 모델이 데이터에 얼마나 잘 맞는지를 측정하는 0과 1 사이의 척도 독립적 값인 계수 결정 R 제곱에 대한 논의로 결론을 내립니다.

  • 00:10:00 이 섹션에서 발표자는 모델을 실험 데이터에 피팅할 때 R-제곱 값의 중요성에 대해 논의합니다. R 제곱 값은 모델이 데이터에 얼마나 잘 맞는지를 나타냅니다. 값이 1이면 완벽한 적합을 나타내고 0에 가까운 값은 적합하지 않음을 나타냅니다. 고차 모델이 데이터에 더 적합할 수 있지만 현상을 설명하거나 예측하는 데 반드시 사용하기에 가장 좋은 모델은 아닙니다. 발표자는 또한 노이즈가 추가된 포물선 함수를 사용하여 예시 데이터를 생성한 방법을 설명합니다.

  • 00:15:00 요약합니다. 이 섹션에서 발표자는 유효성 검사 또는 교차 유효성 검사를 사용하여 모델의 효율성을 테스트하는 방법에 대해 설명합니다. 노이즈가 추가된 포물선 호에서 데이터를 생성하고 두 개의 서로 다른 데이터 세트를 사용하여 2, 4, 8 및 16도 모델에 적합합니다. 가장 적합한 모델은 여전히 차수 16이지만 데이터가 2차 다항식에서 생성된 경우 16차 다항식이 가장 적합한 이유는 수수께끼입니다. 발표자는 작은 학습 오류가 필요하지만 훌륭한 모델에는 충분하지 않으며 모델이 동일한 프로세스에서 생성된 서로 다른 데이터에 대해 얼마나 잘 수행되는지 확인하기 위해 유효성 검사 또는 교차 유효성 검사가 필요하다고 설명합니다.

  • 00:20:00 이 섹션에서 발표자는 실험 데이터의 사용과 모델을 여기에 맞추는 방법에 대해 논의합니다. 또한 서로 다른 데이터 세트에서 모델을 테스트하는 것의 중요성과 모델에서 너무 많은 자유도를 사용할 때 과적합의 가능성을 탐구합니다. 예를 통해 저차 모델(예: 차수 2 또는 4)이 실제로 고차 모델(예: 차수 16)보다 행동을 예측하는 데 더 효과적일 수 있으며 여러 데이터 세트에서 모델을 테스트하여 그들은 너무 복잡하지 않습니다.

  • 00:25:00 이 섹션에서 발표자는 모델이 학습 데이터에 너무 완벽하게 맞도록 설계되어 새 데이터 세트에 맞지 않는 데이터에 대한 과적합의 위험에 대해 주의합니다. 그는 검증을 사용하여 과적합을 감지하는 방법과 경우에 따라 입력 변수의 더 높은 순서가 불필요한 이유를 설명합니다. 그는 2차 모델을 선에 맞추는 예를 보여주고 시스템이 더 높은 항 계수를 거부한다는 것을 보여줍니다. 왜냐하면 노이즈를 맞추기 시작하여 덜 효과적인 적합으로 이어지기 때문입니다. 화자의 예는 2차 방정식을 선에 맞추고 시스템이 잡음을 완벽하게 맞추는 한 점이 추가되어 새 값을 효과적으로 예측할 때까지 모델이 어떻게 완벽하게 작동하는지 보여줍니다.

  • 00:30:00 이 섹션에서 발표자는 과적합의 개념을 소개하고 데이터 세트에 소량의 노이즈를 추가하고 2차 모델과 1차 모델을 모두 피팅하여 그 효과를 보여줍니다. 2차 모델은 추가된 노이즈로 잘 수행되지 않는 반면 1차 모델은 더 탄력적입니다. 발표자는 지나치게 복잡한 모델과 충분히 복잡한 모델 사이의 올바른 균형을 찾는 것이 결과를 정확하게 예측하는 데 중요하다고 강조합니다. 이 섹션은 올바른 모델을 찾기 위한 제안된 방법으로 결론을 내립니다.

  • 00:35:00 이 섹션에서 비디오는 특히 선택을 안내할 이론이 없는 경우 주어진 데이터 세트에 가장 적합한 모델을 결정하는 방법에 대해 설명합니다. 한 가지 접근 방식은 새 데이터를 잘 예측하지만 원래 교육 데이터에 과적합되지 않을 때까지 모델의 차수를 높이는 것입니다. 예를 들어, 비디오는 Hooke의 법칙이 용수철을 늘리는 데 어떻게 적용되는지 살펴보고 데이터의 여러 세그먼트에 대해 서로 다른 선형 모델이 필요함을 보여 주어 데이터를 적절하게 세그먼트화하는 것의 중요성을 강조합니다. 단일 유효성 검사 및 K-폴드 유효성 검사를 포함한 교차 유효성 검사는 더 큰 데이터 세트를 처리할 때 모델 복잡성 선택을 안내하는 데 도움이 될 수 있습니다.

  • 00:40:00 이 섹션에서 연사는 교차 검증을 사용하여 55년 동안 미국의 평균 일일 최고 기온을 예측하기 위한 최상의 모델을 결정하는 방법을 설명합니다. 반복되는 무작위 샘플링을 사용하여 데이터 세트에서 무작위 샘플을 선택하고 훈련 세트에서 모델을 훈련하고 테스트 세트에서 테스트합니다. 그들은 또한 고온에 대한 연간 평균을 계산하여 그것을 플로팅하고 선형, 2차, 3차 및 4차 차원으로 모델을 생성합니다. 여기서 데이터의 절반에 대해 훈련하고 나머지 절반에 대해 테스트하고 결정 계수를 기록하여 다음을 얻습니다. 평균. 각 차원의 평균값을 보고합니다.

  • 00:45:00 이 섹션에서 발표자는 무작위 도트 샘플 방법을 사용하여 데이터 세트를 훈련 및 테스트 세트로 무작위로 분할하는 방법을 보여줍니다. 그런 다음 그는 다른 교육 및 테스트 세트를 설정하는 루프를 실행한 다음 다항식 맞춤을 사용하여 각 차원을 맞춥니다. 그런 다음 이 모델을 사용하여 테스트 세트 값을 예측하고 이를 실제 값과 비교하여 R 제곱 값을 계산하고 추가할 수 있습니다. 그는 이러한 시도에 대한 통계와 내부 통계를 얻으려면 여러 번의 시도를 실행하는 것이 필요하다고 결론지었습니다. 각 재판. 이를 통해 데이터를 설명하는 가장 간단한 모델을 선택할 수 있습니다.

  • 00:50:00 이 섹션에서 발표자는 실험 데이터를 기반으로 새로운 데이터를 효과적으로 예측할 수 있는 모델의 복잡성에 대해 논의합니다. 이러한 복잡성은 데이터 외부 동작을 여전히 잘 예측하는 가장 간단한 모델을 결정하기 위한 이론 또는 교차 검증에서 비롯될 수 있습니다.
 

강의 11. 기계 학습 입문



11. 기계 학습 소개

이 비디오는 기계 학습의 개념, 작동 방식, 지도 학습과 비지도 학습의 두 가지 일반적인 방법에 대해 설명합니다. 그런 다음 신장과 체중을 기반으로 새로운 축구 선수의 위치를 예측하는 기계를 훈련시키는 감독 학습의 예를 보여줍니다.

  • 00:00:00 이 1단락 요약은 기계 학습 비디오에 대한 일반적인 개요를 제공하기 위한 것입니다. 기계 학습의 두 가지 주요 방법인 분류와 클러스터링에 대해 논의하기 전에 기계 학습의 아이디어와 다양한 응용 프로그램을 소개하는 것으로 시작합니다. 그런 다음 비디오는 머신 러닝 주제에 대해 자세히 논의하기 전에 선형 회귀의 기본 사항을 소개합니다. 비디오의 마지막 섹션은 기계 학습의 개념을 보다 간결하게 학생들에게 소개하는 데 중점을 둡니다.

  • 00:05:00 기계 학습은 명시적으로 프로그래밍되지 않은 컴퓨터 학습 과정입니다. 이 강의에서는 다양한 유형의 기계 학습 알고리즘과 그 작동 방식에 대해 논의합니다. 또한 현재 기계 학습이 사용되고 있는 몇 가지 예를 강조합니다.

  • 00:10:00 이 비디오는 기계 학습의 개념, 작동 방식, 지도 학습과 비지도 학습의 두 가지 일반적인 방법에 대해 설명합니다. 그런 다음 신장과 체중을 기반으로 새로운 축구 선수의 위치를 예측하는 기계를 훈련시키는 감독 학습의 예를 보여줍니다.

  • 00:15:00 이 비디오에서는 거리를 기반으로 데이터 클러스터를 만드는 데 사용할 수 있는 기계 학습 알고리즘을 시연합니다. 이 알고리즘은 두 가지 예를 모범으로 선택하고 다른 모든 예를 해당 예와 가장 가까운 그룹에 넣은 다음 해당 그룹의 중간 요소를 찾는 방식으로 클러스터링합니다.

  • 00:20:00 기계 학습은 데이터에서 패턴을 식별하는 방법을 학습하는 과정입니다. 이 프로세스는 레이블이 지정된 데이터에 대해 기계 학습 모델을 교육한 다음 해당 모델을 사용하여 레이블이 지정되지 않은 데이터에서 패턴을 식별하는 것으로 시작됩니다. 이를 수행하는 두 가지 주요 방법은 레이블이 지정된 데이터를 사용하는 것과 레이블이 지정되지 않은 데이터를 사용하는 것입니다. 첫 번째 경우 기계 학습 모델은 할당된 레이블에 해당하는 데이터의 패턴을 식별할 수 있습니다. 두 번째 경우 기계 학습 모델은 사용자가 선택한 기능에 해당하는 데이터의 패턴을 식별할 수 있습니다.

  • 00:25:00 이 동영상에서는 가능한 한 정확한 모델을 만들기 위해 측정할 기능과 가중치를 결정하는 프로세스인 기능 엔지니어링의 개념에 대해 설명합니다. 사용된 예시는 파충류에 라벨을 붙이는 것으로 단일 예시에 라벨을 붙이는 것은 쉽지만 예시가 많을수록 어려워집니다. 그런 다음 비디오는 가능한 한 정확한 모델을 생성하기 위해 유지할 기능과 폐기할 기능을 선택하는 프로세스인 기능 선택의 개념에 대해 설명합니다. 비디오는 파충류 모델에는 적합하지 않지만 닭 모델에는 적합한 닭에 레이블을 지정하는 예제로 끝납니다.

  • 00:30:00 이 비디오는 기계 학습과 그 원리에 대한 소개를 제공합니다. 두 플레이어가 서로의 차이점을 확인하려고 하는 게임의 예를 사용하여 데이터가 아닌 것으로 잘못 레이블을 지정하지 않는 시스템 설계의 중요성을 다룹니다. 벡터 간의 거리를 측정하는 방법인 Minkowski 메트릭을 소개합니다.

  • 00:35:00 이 영상은 평면에서의 표준 거리 측정법인 유클리드 거리와 서로 다른 특징을 가진 물체 사이의 거리를 비교하는 데 사용되는 측정법인 맨해튼 거리를 소개합니다. 유클리드 거리는 2의 제곱근을 기반으로 하는 반면 맨해튼 거리는 그리드의 점 사이의 거리를 기반으로 합니다. 다른 생물의 다리 수를 비교할 때와 같은 일부 경우에는 개체 간의 거리보다 개체 간의 기능 차이가 더 중요할 수 있습니다. 피처 엔지니어링(측정할 피처와 가중치 지정 방법 선택)은 머신 러닝에서 중요합니다.

  • 00:40:00 이 동영상은 척도의 중요성과 척도가 기계 학습 알고리즘의 작동 방식에 미치는 영향을 다룹니다. 다양한 방법으로 가중치를 사용하는 방법과 예제 사이의 거리를 측정하는 방법에 대해 설명합니다. 또한 다양한 방법을 사용하여 데이터를 클러스터링하는 방법과 적절한 클러스터 수를 선택하는 방법에 대해서도 설명합니다.

  • 00:45:00 이 비디오는 기계 학습의 개념을 소개하고 두 그룹을 분리하기 위해 곡선을 데이터에 맞추는 방법을 보여줍니다. 또한 기계 학습 모델을 평가하는 방법의 예를 제공합니다.

  • 00:50:00 이 비디오는 민감도(얼마나 많은 항목이 올바르게 레이블이 지정되었는지)와 특이성(라벨이 원하는 항목을 얼마나 정확하게 식별했는지) 사이의 균형에 대해 설명합니다. Guttag 교수는 ROC(Receiver Operator Curves)라는 기술을 시연하여 이러한 트레이드 오프를 이해하기 쉽게 만듭니다.
 

강의 12. 클러스터링




12. 클러스터링

이 비디오는 데이터 요소를 그룹으로 클러스터링하는 개념을 검토합니다. k-평균 알고리즘을 사용하여 클러스터링을 수행하는 방법과 속도를 위해 알고리즘을 최적화하는 방법을 설명합니다. 또한 클러스터링을 사용하여 데이터 문제를 진단하는 방법에 대해서도 설명합니다.

  • 00:00:00 이 비디오의 목적은 가변성과 클러스터링의 개념을 검토하는 것입니다. 비디오는 가변성이 클러스터의 평균과 클러스터의 각 예 사이의 거리의 합이며 클러스터링은 일련의 예를 단일 클러스터로 그룹화하는 최적화 문제라고 설명합니다.

  • 00:05:00 계층적 클러스터링은 데이터 세트의 항목을 클러스터링하는 방법입니다. 알고리즘은 각 항목을 자체 클러스터에 할당하여 시작한 다음 가장 유사한 클러스터 두 개를 찾습니다. 남은 클러스터가 5개 미만인 경우 알고리즘은 가장 가까운 두 클러스터를 단일 클러스터로 병합합니다.

  • 00:10:00 비디오는 서로 다른 클러스터링 메트릭에 대해 설명하고 각각이 최종 클러스터링 결과에 미치는 영향을 설명합니다. 예를 들어, 단일 연결은 서로 가까운 도시를 연결하는 데 사용되는 반면 완전 연결은 서로 멀리 있는 도시를 연결하는 데 사용됩니다.

  • 00:15:00 동영상은 클러스터링이 어떻게 작동하는지 설명하고 가장 일반적으로 사용되는 알고리즘은 k-평균입니다. 빠르고 효율적이지만 최적화하여 더 빠르게 만들 수 있습니다.

  • 00:20:00 이 비디오에서 저자는 K개의 중심을 임의로 선택하고 해당 중심에 포인트를 할당하여 개체를 클러스터링하는 방법을 설명합니다. 저자는 또한 K를 잘못 선택했을 때의 잠재적 단점에 대해서도 논의합니다. 마지막으로 저자는 좋은 k-평균 알고리즘을 사용하여 최상의 K를 찾을 것을 권장합니다.

  • 00:25:00 이 비디오에서 작성자는 데이터 하위 집합에서 계층적 클러스터링 및 k-평균을 수행하는 방법을 안내합니다. 또한 알고리즘의 약점과 이를 수정하는 방법에 대해서도 설명합니다.

  • 00:30:00 이 비디오는 k-평균 알고리즘을 사용하여 데이터를 클러스터링하는 방법을 설명합니다. 데이터를 클러스터로 나누고 각 클러스터의 중심을 계산합니다.

  • 00:35:00 이 강의에서 교수는 스케일링과 분산을 사용하여 데이터를 클러스터링하는 방법을 설명합니다. 그는 특징 벡터의 크기를 조정하는 방법과 크기 조정된 데이터의 평균 및 표준 편차를 계산하는 방법을 보여줍니다.

  • 00:40:00 이 비디오는 Z 스케일링, 보간 및 k-평균을 비롯한 다양한 방법을 사용하여 데이터를 클러스터링하는 방법을 설명합니다. 결과는 데이터가 잘 클러스터링되지 않았으며 두 클러스터 간에 통계적으로 유의미한 차이가 없음을 보여줍니다.

  • 00:45:00 비디오는 클러스터링을 사용하여 데이터 문제를 진단하는 방법에 대해 설명합니다. 특히 양성일 가능성이 있는 환자와 같이 유사한 특성을 가진 환자 그룹을 찾는 데 클러스터링을 사용할 수 있는 방법을 보여줍니다. 그런 다음 비디오는 클러스터링을 사용하여 K의 다른 값을 찾는 방법을 보여줍니다. 이는 발견된 클러스터 수를 증가시킵니다.

  • 00:50:00 이 비디오에서는 데이터 과학자가 클러스터링에 대해 설명합니다. 그들은 클러스터링이 데이터를 유사한 그룹으로 그룹화하는 프로세스라고 설명합니다. 서로 다른 매개변수를 사용하여 서로 다른 클러스터를 만드는 방법과 데이터 과학자가 최상의 클러스터를 만들기 위해 데이터에 대해 어떻게 생각해야 하는지에 대해 논의합니다.
 

강의 13. 분류



13. 분류

이 동영상에서는 최근접 이웃, KNN(K-Nearest Neighbors), 로지스틱 회귀를 비롯한 여러 분류 방법을 다룹니다. 발표자는 동물 분류 및 필기 인식 예제를 사용하여 KNN을 시연하고 보다 신뢰할 수 있는 결과를 제공하기 위해 시끄러운 데이터를 피하는 방법을 설명합니다. 그들은 Titanic 데이터 세트를 소개하고 분류 모델의 성능을 평가하기 위해 민감도 및 특이도와 같은 지표를 사용할 때 올바른 균형을 찾는 것의 중요성을 설명합니다. 또한 이 비디오에서는 두 가지 테스트 방법인 leave-one-out 및 repeat random subsampling과 이를 KNN 분류에 적용하는 방법에 대해 설명합니다. 마지막으로 발표자는 분류 문제에 대해 선형 회귀보다 로지스틱 회귀가 선호되는 이유를 설명하고 변수마다 가중치를 다르게 할당하고 특성 가중치를 통해 변수에 대한 통찰력을 제공하는 기능을 강조합니다.

  • 00:00:00 이 섹션에서 강사는 감독 학습의 분류 개념을 소개하는 것으로 시작합니다. 분류는 기능 벡터와 연결된 이산 값(종종 "레이블"이라고 함)을 예측하는 행위입니다. 여기에는 어떤 사람이 약물에 대한 부작용 또는 코스의 등급에 대한 예측이 포함될 수 있습니다. 그런 다음 강사는 거리 행렬과 동물의 이진 표현을 사용하여 파충류인지 아닌지를 분류하는 예를 제공합니다. 가장 가까운 이웃으로 알려진 가장 간단한 분류 방법은 학습 데이터를 기억하고 새 예제의 레이블을 예측할 때 가장 가까운 예제와 관련된 레이블을 선택하는 것입니다.

  • 00:05:00 이 섹션에서 발표자는 노이즈 데이터를 피하고 가장 가까운 이웃 방법보다 더 안정적인 KNN(최근접 이웃) 분류 방법을 설명합니다. 그는 동물 분류 및 필기 인식과 같은 예제를 사용하여 KNN을 시연합니다. KNN 방법은 가장 가까운 이웃이 아니라 일반적으로 홀수인 여러 개의 가장 가까운 이웃의 "투표"를 취하므로 이상값의 영향을 줄입니다. 발표자는 오류가 없는 것은 아니지만 KNN이 노이즈가 있는 데이터에 대해 일반적으로 더 신뢰할 수 있는 분류 방법이라고 결론을 내립니다.

  • 00:10:00 이 섹션에서는 동영상에서 K-최근접 이웃 알고리즘과 몇 가지 제한 사항에 대해 설명합니다. K-최근접 이웃은 효율적이고 이해하기 쉽지만 모든 학습 예제를 저장해야 하므로 메모리 집약적일 수 있고 예제를 비교해야 하기 때문에 분류 예측에 오랜 시간이 걸릴 수 있습니다. 또한 K가 너무 크면 알고리즘이 클래스 크기에 지배되어 분류 오류가 발생할 수 있습니다. 비디오는 교차 검증을 사용하여 K에 대한 최상의 값을 선택하도록 제안하고 투표 과정에서 확실한 승자가 있는 방식으로 K를 선택하는 것이 중요하다고 설명합니다.

  • 00:15:00 이 섹션에서 발표자는 머신 러닝을 사용하여 타이타닉 재난에서 살아남을 승객을 예측하는 새로운 분류 예를 소개합니다. 데이터 세트에는 승객의 등급, 연령, 성별 및 생존 여부에 대한 정보가 포함됩니다. 발표자는 기계 학습 모델을 평가하기 위해 클래스 불균형이 있을 때 정확도만으로는 좋은 메트릭이 아닌 이유를 설명하고 민감도, 특이성, 긍정적인 예측값 및 부정적인 예측값과 같은 다른 메트릭을 소개합니다. 그는 또한 올바른 균형을 선택하는 것의 중요성과 이러한 측정이 어떻게 다른 통찰력을 제공하는지 설명합니다.

  • 00:20:00 이 섹션에서 화자는 분류기에서 민감도와 특이성의 중요성과 분류기를 테스트하는 방법에 대해 논의합니다. 분류기의 적용에 따라 민감도와 특이도가 균형을 이루어야 합니다. 예를 들어, 암 검사는 더 많은 민감도가 필요한 반면 심장 절개 수술을 위한 검사는 더 많은 특이성이 필요합니다. 그런 다음 화자는 분류기를 테스트하는 두 가지 방법인 leave-one-out(작은 데이터 세트에 사용됨)과 반복되는 무작위 하위 샘플링(더 큰 데이터 세트에 사용됨)을 설명합니다. 후자는 훈련 및 테스트를 위해 데이터를 세트로 무작위로 분할하는 것과 관련되며 기계 학습 방법이라는 매개 변수를 도입하여 kN 및 로지스틱 회귀와 같은 다양한 방법을 비교합니다. 이러한 테스트에 대한 코드가 표시되고 발표자는 성능을 검증하기 위해 분류기를 테스트하는 것의 중요성을 강조합니다.

  • 00:25:00 이 섹션에서 강사는 두 가지 테스트 방법, 하나는 제외하고 무작위 샘플링을 반복하는 방법에 대해 설명하고 KNN 분류에 적용하는 방법을 보여줍니다. 강사는 또한 수학의 일반적인 프로그래밍 트릭인 람다 추상화를 사용하여 4개의 인수 함수를 2개의 인수 함수로 바꾸는 방법을 설명합니다. 두 가지 테스트 방법을 사용한 KNN 분류 결과가 표시되며 크게 다르지 않아 평가 기준의 정확도가 일치함을 나타냅니다. KNN 분류도 무작위 예측보다 더 나은 성능을 보였습니다.

  • 00:30:00 이 섹션에서는 화자가 기계 학습에서 사용되는 일반적인 방법인 로지스틱 회귀에 대해 설명합니다. 실수를 예측하도록 설계된 선형 회귀와 달리 로지스틱 회귀는 특정 이벤트의 확률을 예측합니다. 이 방법은 각 기능에 대한 가중치를 찾고 각 기능에 대해 예측에 사용되는 가중치를 계산하고 최적화 프로세스를 사용하여 교육 데이터에서 이러한 가중치를 계산합니다. 로지스틱 회귀는 로그 함수를 사용하므로 이름이 지정되었으며 SK learn 선형 모델은 이를 구현하는 데 사용되는 Python 라이브러리입니다.

  • 00:35:00 이 섹션에서 발표자는 교육 데이터를 사용하여 로지스틱 회귀 모델을 구축하고 특징 벡터 집합을 사용하여 테스트하는 방법을 설명합니다. 로지스틱 회귀 모델은 SKLearn 라이브러리를 사용하여 생성되며 변수의 가중치가 계산되면 모델을 사용하여 주어진 특징 벡터를 기반으로 다양한 레이블의 확률을 예측할 수 있습니다. 연사는 또한 기존 목록에서 새 목록을 만드는 다재다능하고 효율적인 방법인 목록 이해를 소개합니다. 이는 테스트 기능 벡터 세트를 구축할 때 특히 유용할 수 있습니다.

  • 00:40:00 이 섹션에서 화자는 Python의 목록 이해와 특정 작업에 대한 편의성에 대해 논의하지만 오용에 대해 경고합니다. 앞으로 연사는 로지스틱 회귀를 모델로 적용하는 프로세스와 훈련 및 테스트 데이터를 사용하여 빌드하고 테스트하는 방법을 설명합니다. 그런 다음 LR 또는 로지스틱 회귀를 정의하고 모델이 "생존" 및 "생존하지 않음" 레이블로 어떻게 적용될 수 있는지 보여줍니다. 연사는 로지스틱 회귀가 KNN보다 빠르다고 말합니다. 가중치를 얻은 후에는 모델을 평가하는 것이 빠른 프로세스이기 때문입니다.

  • 00:45:00 이 섹션에서 강사는 분류 문제에서 선형 회귀보다 로지스틱 회귀가 선호되는 이유를 설명합니다. 첫째, 로지스틱 회귀는 더 미묘한 것으로 간주되며 더 나은 성능을 위해 다른 변수에 다른 가중치를 할당할 수 있습니다. 둘째, 출력으로 출력할 수 있는 기능 가중치를 통해 변수에 대한 인사이트를 제공합니다. 가중치를 보면 분류에 사용되는 변수를 이해할 수 있습니다. 예를 들어, 제시된 모델에서 일등석 객실 승객은 생존에 긍정적인 영향을 미쳤지만 나이와 남성이라는 것은 부정적인 영향을 미쳤습니다. 또한 강사는 변수가 상관관계가 있을 수 있으므로 기능 가중치를 해석할 때 주의해야 한다고 조언합니다.
 

강의 14. 분류 및 통계적 죄악



14. 분류 및 통계적 죄악

이 YouTube 동영상은 잘못된 결론으로 이어질 수 있는 다양한 분류 및 통계적 오류에 대해 설명합니다. 한 가지 중요한 점은 로지스틱 회귀에서 변수의 가중치를 해석하는 것이 오해의 소지가 있을 수 있기 때문에 기계 학습 모델을 연구하여 얻을 수 있는 통찰력을 이해하는 것이 중요하다는 것입니다. 특히 기능이 상호 연관되어 있을 때 그렇습니다. 이 비디오는 또한 AUROC(수신기 작동 특성) 곡선 아래 영역을 사용하여 분류기의 성능을 평가하고 숫자를 오용하려는 유혹을 피하는 것의 중요성을 강조합니다. 또한 GIGO(Garbage In, Garbage Out) 및 생존자 편향과 같은 통계적 오류로 이어질 수 있으므로 데이터를 면밀히 조사하고 대표성이 없는 샘플링을 피하는 것의 중요성이 강조됩니다.

  • 00:00:00 비디오의 이 섹션에서 강사는 데이터를 생성한 시스템 및 프로세스에 대한 통찰력을 얻기 위해 기계 학습 모델을 연구하는 것의 중요성에 대해 논의합니다. 그는 Titanic 데이터 세트의 생존율을 예측하는 데 사용된 로지스틱 회귀 모델에서 다양한 변수의 가중치를 조사하여 이를 입증합니다. 다양한 변수의 상대적 가중치를 살펴봄으로써 강사는 3등석 남성 승객이 난파선에서 살아남지 못할 가능성이 훨씬 더 높다는 결론을 내립니다. 그는 연구를 통해 얻을 수 있는 통찰력을 이해하지 않고 예측을 위해 기계 학습 모델에만 의존하는 것에 대해 경고합니다.

  • 00:05:00 이 섹션에서 화자는 특히 기능이 상관된 경우 로지스틱 회귀에서 가중치 해석과 관련된 문제를 설명합니다. 로지스틱 회귀를 사용하는 방법에는 L1과 L2가 있으며 Python에서는 L2가 기본값입니다. L1은 가중치를 찾아 0으로 유도하도록 설계되어 고차원 문제에서 과적합을 방지하는 데 유용합니다. 그러나 L1은 중요하지만 더 많은 가중치를 가진 다른 변수와 상관 관계가 있더라도 하나의 변수를 0으로 만듭니다. 반면에 L2는 모든 변수에 가중치를 분산시켜 특히 상관 관계가 있을 때 그 중 어느 것도 중요하지 않은 것처럼 보이게 합니다. 이를 설명하기 위해 발표자는 타이타닉의 선실 등급을 예로 들었고 하나의 변수를 제거하면 결과 해석이 어떻게 바뀔 수 있는지에 대해 논의했습니다.

  • 00:10:00 이 섹션에서 비디오는 상관된 기능을 처리할 때 가중치를 과도하게 해석하는 문제를 살펴봅니다. 몇 가지 예를 분석하는 동안 비디오는 가중치 자체를 해석하는 것이 오해의 소지가 있는 반면 가중치의 기호를 해석하는 것이 도움이 될 수 있음을 강조합니다. 그런 다음 비디오는 로지스틱 회귀의 매개 변수 P를 다루고 P의 다른 값이 예측의 정확도와 민감도에 어떻게 영향을 미칠 수 있는지 설명합니다. 영상은 정확도가 좋아 보여도 민감도에 문제가 있을 수 있음을 강조하며 결론을 내리기 전에 결과를 종합적으로 분석해야 함을 시사했다.

  • 00:15:00 이 섹션에서 발표자는 ROC(수신기 작동 특성)에 대해 이야기하고 결과의 모양을 보기 위해 모델의 가능한 모든 컷오프를 볼 수 있는 곡선이 무엇인지 설명합니다. 여기서 y축은 민감도를 나타내고 x축은 1에서 특이성을 뺀 값을 나타냅니다. 그들은 AUC(Area Under the Curve)의 중요성과 그것이 모델의 성능을 더 잘 이해하는 데 어떻게 도움이 되는지 언급합니다. 화자는 모델이 잘못된 결정과 불필요한 실수를 하지 않도록 모델에 대한 컷오프를 선택할 때 매우 민감하고/비특이적이거나 매우 구체적/무감각한 곡선의 모서리를 피하라고 경고합니다.

  • 00:20:00 이 섹션에서 발표자는 AUROC(수신기 작동 곡선 아래 영역)를 사용하여 분류기의 성능을 평가하는 개념에 대해 설명합니다. 그들은 곡선이 무작위 분류기에 비해 분류기의 효율성을 어떻게 보여주고 곡선이 1에 가까울수록 분류기가 더 잘 수행하는지 설명합니다. 발표자는 또한 AUROC 점수의 통계적 유의성을 결정하는 것이 어려울 수 있으며 데이터 포인트 수 및 당면한 애플리케이션을 포함한 여러 요인에 따라 달라진다고 지적합니다. 궁극적으로 AUROC 점수의 유용성이 중요하며 실질적인 의사 결정에 도움이 되어야 합니다.

  • 00:25:00 이 섹션에서 발표자는 AUROC(Area Under the Receiver Operating Characteristic) 곡선의 개념에 대해 설명하고 특이성과 비교하여 일반적으로 사용되는 방법을 설명합니다. 그들은 곡선 아래 면적을 계산하는 요령이 특이성 측정에서 얻은 오목한 곡선을 사용하여 도움을 받고 이는 통계를 쉽게 시각화하고 비교할 수 있도록 도와준다고 설명합니다. 그러나 그들은 이 도구가 오해의 소지가 있는 목적으로 사용될 수 있으며 통계학자는 숫자를 오용하려는 유혹을 피하는 방법을 이해해야 한다고 경고합니다. 숫자 자체는 거짓말을 하지 않지만 거짓말쟁이들은 숫자를 이용해 잘못된 인상을 심어준다고 강조한다. 발표자는 XY 쌍 세트를 제공하며 통계적으로 쌍이 동일하게 보이지만 그래프로 표시하면 크게 다를 수 있다고 설명합니다.

  • 00:30:00 이 섹션에서 화자는 통계와 실제 데이터를 혼동하지 않는 것의 중요성에 대해 논의하고 플롯과 그래프를 통해 데이터를 시각화하는 것의 가치를 강조합니다. 그러나 그는 또한 오해의 소지가 있는 그림이 의도적으로 또는 의도하지 않게 생성될 수 있음을 경고하고 결론을 내리기 전에 레이블을 면밀히 조사하고 차트의 맥락을 이해할 필요성을 강조합니다. 화자는 시각적으로 오해의 소지가 있는 차트의 두 가지 예를 제시합니다. 하나는 등급의 성별 비교와 관련된 것이고 다른 하나는 복지 수급자와 정규직을 가진 사람들의 수를 비교하는 것입니다.

  • 00:35:00 이 섹션에서 연사는 GIGO(Garbage In, Garbage Out)의 일반적인 통계적 죄악에 대해 논의합니다. 그들은 1840년대 인구 조사 데이터가 노예 제도가 노예에게 좋다고 주장하는 데 사용된 예를 제공하며, 해방된 노예가 노예가 된 노예보다 더 미쳤다고 말했습니다. John Quincy Adams는 이 주장의 오류를 폭로하고 극악무도한 허위 진술이 이루어졌다고 주장했습니다. 발표자는 데이터의 정확성이 매우 중요하며, 오류가 있더라도 편파적이지 않고 독립적이며 균등하게 분산되어 가비지 인, 가비지 아웃을 방지해야 한다고 강조합니다.

  • 00:40:00 이 섹션에서 화자는 분석을 전혀 하지 않는 것보다 더 나쁠 수 있는 잘못된 데이터 분석에 대해 경고합니다. 종종 사람들은 잘못된 데이터로 잘못된 통계 분석을 하여 위험한 결론을 내립니다. 연사는 노예 제도 폐지론자들이 19세기 인구 조사 데이터를 잘못 분석한 예를 들었습니다. 데이터에서 무작위가 아닌 오류를 분석하면 정확하지 않은 결론이 도출되었습니다. 그런 다음 화자는 어떻게 생존자 편향으로 인해 동맹국이 제2차 세계대전 동안 비행기에 대해 잘못된 결론을 내리게 되었는지 인용합니다. 폭격을 마치고 돌아온 비행기와 격추된 비행기가 아니라 대공포의 탄알 구멍이 남아있는 보강 지점을 분석했습니다. 발표자는 통계 기법이 모집단의 하위 집합을 무작위로 샘플링하여 전체 모집단에 대한 수학적 진술을 할 수 있다는 가정을 기반으로 한다고 설명합니다. 무작위 샘플링을 사용하면 의미 있는 결론을 내릴 수 있습니다.

  • 00:45:00 이 섹션에서 발표자는 편의 샘플링이라고도 하는 비대표 샘플링과 이것이 통계 분석에 미치는 영향에 대해 설명합니다. 그는 편의 표본이 일반적으로 무작위가 아니기 때문에 무엇보다도 여론 조사 및 코스 평가 결과를 왜곡할 수 있는 생존자 편향에 시달린다고 설명합니다. 더욱이 그는 무작위적이고 독립적인 표본을 가정하는 표준 오차 계산이 어떻게 편리한 표본에서 신뢰할 수 있는 결론을 도출할 수 없는지 지적하며 통계 분석의 신뢰성이 없는 예로 정치적 여론 조사를 인용합니다. 중요한 점은 데이터가 수집되고 분석된 방법과 분석의 기본 가정이 사실인지 여부를 이해하여 통계적 죄의 희생양이 되지 않도록 하는 것이 중요하다는 것입니다.
 

MIT 6.0002 컴퓨팅 사고 및 데이터 과학 입문, 2016년 가을. 강의 15. 통계적 죄악 및 마무리



15. 통계적 죄와 마무리

이 비디오에서 John Guttag는 통계적 죄의 세 가지 주요 유형에 대해 논의하고 각각이 어떻게 잘못된 결론으로 이어질 수 있는지에 대한 예를 제공합니다. 그는 학생들이 보고 있는 데이터의 유형을 인식하고 적절한 간격을 사용하여 결론이 정확한지 확인하도록 촉구합니다.

  • 00:00:00 John Guttag는 통계적 죄의 세 가지 주요 유형에 대해 설명합니다. 즉, 0에서 시작하는 y축 죄를 범하고, 데이터가 올바르게 보이도록 잘라내고, 변동을 추세와 혼동하는 것입니다. 그는 또한 논쟁의 여지가 적은 주제인 열과 독감의 예를 제공하는데, 여기서는 독감에 걸렸을 때 온도가 변하지 않는다는 것이 분명합니다. Guttag는 학생들이 보고 있는 데이터 유형을 인식하고 적절한 간격을 사용하여 결론이 정확한지 확인하도록 촉구합니다.

  • 00:05:00 이 비디오에서 통계학자와 교수는 잘못된 결론으로 이어질 수 있는 체리 피킹 데이터의 위험성에 대해 논의합니다. 그는 건전한 결론을 내리기 위해 과학자들이 적절한 기간 동안 데이터를 살펴봐야 한다고 제안합니다.

  • 00:10:00 화자는 숫자 자체가 항상 큰 의미가 있는 것은 아니며 통계를 고려할 때 맥락이 중요하다고 지적합니다. 그는 문맥이 중요한 통계의 두 가지 예인 돼지 독감과 계절성 독감에 대해 논의합니다. 그는 또한 백분율 변화에 대해 이야기할 때 분모를 아는 것이 중요하다고 지적합니다.

  • 00:15:00 이 비디오는 암 클러스터와 같은 것을 계산하기 위해 백분율을 사용하는 함정에 대해 설명합니다. 그것은 수학적 시뮬레이션이 어떻게 가능성이 얼마나 더 정확한 그림을 제공할 수 있는지, 그리고 변호사가 법적 사건에서 이 정보를 어떻게 사용할 수 있는지 보여줍니다.

  • 00:20:00 이 비디오는 통계 분석이 특정 지역에 암 사례가 많은지 여부에 대한 질문에 답하는 데 어떻게 도움이 되는지 설명합니다. 영상에는 해당 변호사가 어떻게 부적절한 통계 분석을 수행해 잘못된 결론을 내렸는지 보여줍니다.

  • 00:25:00 이 비디오에서 강사는 텍사스 명사수 오류 및 다중 가설 확인을 포함한 다양한 통계적 오류를 다룹니다. 그는 회의주의와 부정은 다르며 데이터에서 추론할 때 실수하지 않도록 주의해야 한다고 경고합니다.

  • 00:30:00 이 비디오의 주요 요점은 프로그래밍이 라이브러리와 알고리즘을 사용하여 문제를 해결하는 것이라는 것입니다. 이 비디오는 또한 확률의 관점에서 생각하는 것의 중요성과 문제 해결에 무작위성을 사용하는 것을 강조합니다.

  • 00:35:00 이 비디오에서 교수는 학생들이 데이터를 분석하는 데 사용할 수 있는 다양한 통계 모델에 대해 설명합니다. 그는 결과의 신뢰성을 이해하는 것의 중요성을 강조하고 데이터를 효과적으로 제시하는 방법에 대한 팁을 제공합니다.

  • 00:40:00 이 비디오는 컴퓨팅의 짧은 역사를 제공하고 UROP(연구 인턴십)의 개념을 소개합니다. 비록 컴퓨터 공학이 캠퍼스에서 가장 인기 있는 전공은 아닐지라도 추구할 가치가 있는 분야라고 설명합니다. 마지막으로 비디오는 인생에서 성공하는 방법에 대한 마지막 조언을 제공합니다.
 

초보자를 위한 딥 러닝 단기집중과정


초보자를 위한 딥 러닝 단기집중과정

이 비디오는 지도 및 비지도 학습 알고리즘에 중점을 둔 딥 러닝 집중 과정을 제공합니다. 모델, 상태, 보상, 정책 및 가치를 포함하여 각 접근 방식의 핵심 개념을 다룹니다. 딥 러닝 모델의 주요 단점은 훈련 데이터에 과적합되어 일반화가 좋지 않을 수 있다는 것입니다. 드롭아웃 및 데이터 세트 확대를 포함하여 과적합을 방지하는 기술에 대해 설명합니다. 딥 러닝에 대한 이 입문 과정에서는 주제에 대한 일반적인 개요를 제공하고 신경망 및 드롭아웃의 중요성을 강조합니다. 또한 딥러닝의 기초를 이해함으로써 어떻게 과적합을 줄일 수 있는지 설명합니다.

  • 00:00:00 이 동영상에서 Jason은 시청자에게 딥 러닝 집중 과정을 통해 딥 러닝이 무엇이며 그 중요성을 설명합니다. 그는 계속해서 딥 러닝이 작동하는 방식을 설명하면서 기존 기계 학습에 비해 주요 이점에 초점을 맞춥니다. 즉, 도메인 전문 지식이나 사람의 개입 없이 데이터에서 직접 기능과 작업을 학습할 수 있다는 것입니다. 마지막으로 Jason은 다양한 작업에서 인간을 능가하는 능력을 포함하여 딥 러닝의 최근 성공 사례를 다룹니다.

  • 00:05:00 딥 러닝 모델에는 많은 계산 능력과 데이터가 필요하며 수십 년 전에는 사용할 수 없었습니다. 셋째, 이러한 모델은 TensorFlow 및 PyTorch와 같은 오픈 소스 소프트웨어의 인기가 높아지면서 간소화되었습니다. 신경망은 알고리즘이 인간의 두뇌 구조에서 영감을 얻은 머신 러닝의 하위 분야인 딥 러닝의 기초를 형성합니다. 뉴런이 뇌를 구성하는 것처럼 신경망의 기본 구성 요소도 뉴런입니다. 신경망은 데이터를 받아 이 데이터의 패턴을 인식하도록 스스로 훈련하고 새로운 유사한 데이터 집합에 대한 출력을 예측합니다. 전파 전 마지막 단계에서 새로운 네트워크가 예측을 내뱉습니다. 예측이 맞으면 네트워크는 손실 함수를 사용하여 예상 출력과의 편차를 정량화합니다. 예측이 잘못된 경우 네트워크는 역전파를 사용하여 가중치와 편향을 조정합니다.

  • 00:10:00 이 비디오는 네트워크 초기화부터 시작하여 딥 러닝이 어떻게 작동하는지 설명합니다. 첫 번째 반복에서 네트워크에 입력 데이터 세트가 제공됩니다. 그런 다음 네트워크는 손실 함수를 사용하여 예측하도록 훈련됩니다. 그런 다음 역전파를 사용하여 네트워크의 가중치와 편향을 조정합니다. 그런 다음 새 네트워크는 전체 데이터 세트에 대한 예측을 할 수 있을 때까지 경사 하강법을 사용하여 훈련됩니다. 이 접근법에는 가중치와 편향에 대한 조정이 입력 데이터에 의존하지 않는다는 사실을 포함하여 몇 가지 단점이 있습니다.

  • 00:15:00 딥 러닝에 사용되는 가장 일반적인 세 가지 활성화 함수는 Sigmoid, tanh 및 relu입니다. 이러한 함수는 서로 다른 장점과 단점이 있지만 결국 모두 비선형 신경망을 생성합니다. 경사하강법 알고리즘은 활성화의 희소성을 잘 처리할 수 있지만 "값 소멸 문제"가 발생할 수 있습니다.

  • 00:20:00 딥 러닝은 인공 신경망의 훈련을 다루는 기계 학습 분야입니다. 집중 과정은 활성화 함수가 무엇인지 논의하는 것으로 시작하여 비선형 활성화 함수가 딥 러닝에 사용되는 이유를 다룹니다. 다음으로 단기 집중 과정에서는 손실 함수와 손실 함수가 네트워크 훈련에 사용되는 방법에 대해 설명합니다. 마지막으로 단기 집중 과정에서는 옵티마이저와 네트워크를 최대한 정확하게 만드는 데 사용되는 방법에 대해 설명합니다.

  • 00:25:00 경사하강법은 주어진 손실 함수를 최적화하는 데 사용되는 알고리즘입니다. 임의의 지점에서 시작하여 최소 또는 최대에 도달할 때까지 손실 함수 기울기를 감소시킵니다. 널리 사용되는 옵티마이저이며 빠르고 강력하며 유연합니다. 기울기 하강법은 반복적이며 과거 기울기를 사용하여 다음 단계를 계산합니다.

  • 00:30:00 이 비디오에서 작성자는 모델 매개변수(기계 학습 모델 내의 내부 변수)와 하이퍼 매개변수(모델 내에 있지 않고 데이터에서 값을 추정할 수 없는 외부 변수)의 차이점을 설명했습니다. 하이퍼 매개변수는 종종 "혼동을 일으킬 수 있는 매개변수"라고 하며 일반적으로 실무자가 수동으로 설정합니다. 경사 하강법과 역전파는 딥 러닝에 사용되는 두 가지 일반적인 반복 프로세스입니다. 저자는 딥 러닝 모델을 교육하는 데 필요한 에포크 수에 대해 "정답"이 없다고 지적합니다. 다른 데이터 세트에는 다른 반복 횟수가 필요하기 때문입니다. 마지막으로 저자는 딥 러닝을 효과적으로 사용하는 방법에 대한 몇 가지 팁을 제공합니다.

  • 00:35:00 이 동영상은 지도 학습에 중점을 둔 딥 러닝 집중 과정을 제공합니다. 다루는 주요 개념에는 지도 학습 알고리즘과 그 목적, 선형 및 비선형 회귀가 포함됩니다.

  • 00:40:00 비지도 학습의 주요 목표는 인간 관찰자가 포착하지 못할 수도 있는 데이터의 패턴과 관계를 찾는 것입니다. 비지도 학습은 클러스터링과 연관의 두 가지 유형으로 나눌 수 있습니다. 클러스터링은 비지도 학습의 가장 단순하고 가장 일반적인 응용 프로그램이며 데이터를 여러 클러스터로 그룹화하는 프로세스입니다. 클래스는 서로 최대한 유사하고 다른 클러스터의 데이터 포인트와 최대한 다른 데이터 포인트를 포함합니다. 클러스터링은 인간 관찰자를 통해 눈에 띄지 않을 수 있는 데이터 내 기본 패턴을 찾는 데 도움이 됩니다. 계층적 클러스터링은 계층 시스템으로 클러스터를 찾고 모든 데이터 포인트가 여러 클러스터에 속할 수 있습니다. 계층적 클러스터링은 트리 다이어그램으로 구성할 수 있습니다. 보다 일반적으로 사용되는 클러스터링 알고리즘 중 일부는 k-평균, 기대치 및 aca의 계층적 클러스터 분석입니다. 반면에 연결은 서로 다른 엔터티 간의 관계를 찾으려고 시도합니다. 연관 규칙의 전형적인 예는 장바구니 분석입니다. 비지도 학습은 호스트가 숙박 및 체험을 찾고 전 세계 사람들을 연결하는 데 도움이 되는 에어비앤비를 포함하여 거의 모든 곳에서 애플리케이션을 찾습니다. 이 응용 프로그램은 잠재 고객이 요구 사항을 쿼리하고 airbnb가 이러한 패턴을 학습하고 추천하는 비지도 학습 알고리즘을 사용합니다.

  • 00:45:00 초보자를 위한 딥 러닝 단기집중 과정에서는 모델, 상태, 보상, 정책 및 가치를 포함한 강화 학습의 핵심 개념을 다룹니다. 딥 러닝 모델의 주요 단점은 훈련 데이터에 과적합되어 일반화가 좋지 않을 수 있다는 것입니다. 드롭아웃 및 데이터 세트 확대를 포함하여 과적합을 방지하는 기술에 대해 설명합니다.

  • 00:50:00 신경망은 여러 개의 상호 연결된 처리 노드 또는 뉴런으로 구성된 기계 학습 알고리즘입니다. 각 뉴런은 인접한 뉴런으로부터 입력을 받고 출력을 생성할 수 있습니다. 신경망은 복잡한 기능을 모델링하는 데 사용되며 다양한 아키텍처를 사용하여 훈련할 수 있습니다.

  • 00:55:00 이 비디오에서 단기 집중 과정에서는 전통적인 신경망이 모델링하기 힘든 순차적 메모리의 개념을 소개합니다. 순환 신경망(RNns)은 숨겨진 계층에서 피드백 루프를 사용하는 새로운 네트워크 아키텍처 유형으로, 입력 길이가 가변적인 데이터 시퀀스를 모델링할 수 있습니다.
  • 01:00:00 비디오는 순환 신경망이 작동하는 방식과 네트워크의 두 가지 변형인 게이트 순환 신경망과 장단기 기억 순환 신경망을 사용하여 단기 기억 문제를 해결할 수 있는 방법에 대해 설명합니다.

  • 01:05:00 딥러닝의 5단계는 데이터 수집, 데이터 전처리, 모델링, 검증, 오류 감지입니다. 데이터의 품질은 중요하며 잘못된 데이터는 잘못된 모델을 의미합니다. 데이터와 관련하여 천편일률적인 것은 없지만 일반적으로 좋은 성능을 발휘하는 모델에 필요한 데이터의 양은 해당 모델의 매개변수 수의 10배여야 합니다.

  • 01:10:00 비디오는 신뢰할 수 있는 데이터 세트에 대한 교육의 중요성과 검증 세트의 중요성에 대해 설명합니다. 계속해서 훈련-테스트-검증 분할 비율을 설명하고 교차 검증을 수행하는 방법에 대한 예를 제공합니다.

  • 01:15:00 딥 러닝은 모델을 교육하기 전에 신중한 데이터 준비가 필요한 복잡한 프로세스입니다. 이 준비 프로세스의 한 단계는 누락된 데이터를 처리하는 것입니다. 이를 수행하는 몇 가지 방법이 있으며 둘 다 장단점이 있습니다. 첫 번째 옵션은 누락된 값이 있는 샘플을 제거하는 것이지만 관련 정보가 삭제될 수 있으므로 위험할 수 있습니다. 두 번째 옵션은 누락된 값을 대치하는 것이지만 시간이 오래 걸리고 모든 경우에 적합하지 않을 수 있습니다. 기능 크기 조정은 딥 러닝을 위한 데이터를 준비하는 또 다른 중요한 단계이며 데이터를 정규화하고 표준화하며 이상값의 영향을 줄이는 데 도움이 됩니다. 데이터가 준비되면 모델을 교육하기 위해 네트워크에 입력됩니다. 그런 다음 검증 세트를 사용하여 모델을 평가합니다. 모델이 좋으면 더 최적화할 수 있습니다. 데이터 준비는 복잡하고 시간이 많이 걸리는 프로세스이므로 확실하지 않은 경우 먼저 비디오를 시청하십시오.

  • 01:20:00 딥 러닝은 매우 효과적일 수 있지만 과적합되기 쉽습니다. 더 많은 데이터 가져오기, 모델 크기 줄이기, 가중치 정규화 구현 등 과적합을 방지하는 여러 가지 방법이 있습니다.

  • 01:25:00 딥 러닝에 대한 이 입문 과정에서는 주제에 대한 일반적인 개요를 제공하고 신경망 및 드롭아웃의 중요성을 강조합니다. 또한 딥러닝의 기초를 이해함으로써 어떻게 과적합을 줄일 수 있는지 설명합니다.
 

심층 신경망 작동 방식 - 초보자를 위한 전체 과정



심층 신경망 작동 방식 - 초보자를 위한 전체 과정

00:00:00 - 01:00:00 "How Deep Neural Networks Work - Full Course for Beginners" 비디오는 기본 선형 회귀 방정식에서 이미지 인식에 사용되는 복잡한 컨벌루션 신경망에 이르기까지 신경망이 작동하는 방식에 대한 포괄적인 설명을 제공합니다. 강사는 예제와 시각적 보조 자료를 사용하여 노드 레이어가 가중 합계 및 스쿼시를 수행하여 출력을 생성하는 방법, 가중치를 조정하고 오류를 최소화하는 역전파 프로세스, 패턴을 인식하는 컨볼루션 신경망의 개념을 포함하여 신경망의 작동 방식을 설명합니다. 이미지에서. 비디오는 또한 로지스틱 함수, 다층 퍼셉트론, 분류기를 생성하기 위한 다중 출력 함수 사용과 같은 주제를 다룹니다.

01:00:00 - 02:00:00 초보자를 위한 심층 신경망 작동 방식 과정에서는 신경망 기능과 관련된 여러 주제를 다룹니다. 과정 강사는 컨볼루션, 풀링 및 정규화와 이들이 함께 쌓여 심층 신경망을 형성하는 방법에 대해 설명합니다. 역전파는 또한 오류 감소를 위해 네트워크의 가중치를 조정하는 데 사용되는 프로세스로 설명됩니다. 이 과정은 또한 벡터, 게이팅, 스쿼싱 함수 및 순환 신경망을 시퀀스 번역으로 순차적으로 사용하는 방법을 다룹니다. 강사는 LSTM 네트워크가 문장의 다음 단어를 예측하는 방법과 시간이 지남에 따라 패턴을 식별하여 로봇 시스템에서 어떻게 유용한지에 대한 예를 제공합니다. 마지막으로 동영상에서는 가중치를 조정하고 오류를 줄이기 위해 역전파와 함께 경사 하강법을 사용하여 신경망을 훈련하는 방법을 설명합니다.

02:00:00 - 03:00:00 비디오 "How Deep Neural Networks Work - Full Course for Beginners"에서는 다양한 시나리오에서 신경망의 성능을 인간 수준의 지능과 비교하여 설명합니다. 강사는 지능의 과학적 정의를 많은 일을 잘 할 수 있는 능력으로 소개하고 기계와 인간의 성능과 일반성을 대수 척도로 비교합니다. 이 비디오는 이미지 분류에서 컨볼루션 신경망의 한계, 보드 게임 및 언어 번역에서 딥 러닝의 성공, 추천 및 자율 주행 자동차의 일반성 한계, 휴머노이드 로봇의 복잡성 증가와 같은 주제를 다룹니다. 이 비디오는 AlphaZero의 지능, 일반성 및 성능의 인상적인 증가를 강조하고 보다 일반적인 일련의 작업을 수용할 수 있는 알고리즘을 생성하기 위해 물리적 상호 작용에 중점을 두어 우리를 인간 수준의 지능에 더 가깝게 만들도록 주장합니다. 마지막으로 강사는 패턴을 인식하고 정확한 예측을 하기 위해 컨볼루션 신경망에서 컨볼루션, 풀링, 정규화 과정을 설명합니다.

03:00:00 - 03:50:00 심층 신경망 작동 방식에 대한 이 비디오는 이미지의 밝기 값에서 패턴을 인식하는 뉴런과 레이어를 구축하여 이미지 분류 프로세스를 통해 초보자를 안내합니다. 이 비디오는 기울기 하강법과 유전자 알고리즘 및 시뮬레이션 어닐링과 같은 다양한 최적화 방법을 사용하는 최적화 프로세스를 다룹니다. 강사는 역전파를 통해 오류를 최소화하고 가중치를 조정하는 방법과 컨볼루션 신경망에서 하이퍼 매개변수를 최적화하는 방법을 설명합니다. 신경망을 만드는 데 사용할 수 있는 많은 도구가 있지만 데이터 준비, 해석 및 하이퍼파라미터 선택에 대한 철저한 이해는 여전히 중요합니다.

1 부

  • 00:00:00 이 섹션에서 강사는 4픽셀 흑백 이미지가 단색 이미지인지 완전히 어두운 이미지인지 자동으로 결정하는 작업이 주어지면 신경망이 어떻게 작동하는지에 대한 예를 제공합니다. 수직선, 대각선 또는 수평선. 그는 픽셀의 밝기에 대한 간단한 규칙으로 이 작업을 수행하는 것이 까다롭다고 설명합니다. 대신 신경망은 모든 입력을 받고 밝기에 따라 각 픽셀에 숫자를 할당하는 것으로 시작합니다. 흰색이고 마이너스 1은 완전히 검은색입니다. 그런 다음 입력 뉴런의 가중 연결이 합산되고 값이 스쿼시되어 뉴런의 값이 +1에서 -1의 범위를 벗어나지 않도록 하여 신경망의 계산을 제한되고 안정적으로 유지하는 데 도움이 됩니다.

  • 00:05:00 이 섹션에서는 심층 신경망이 작동하는 방식과 각 계층이 작동하는 방식을 비디오에서 설명합니다. 레이어의 뉴런은 가중 합계를 수행하고 결과를 스쿼시한 다음 다음 레이어의 입력이 됩니다. 레이어가 깊어짐에 따라 수용 필드가 더 복잡해지고 모든 픽셀을 덮습니다. 이 비디오는 스쿼시 함수를 대체하고 신경망에 대한 매우 우수한 안정성 특성을 갖는 정류된 선형 단위의 개념도 소개합니다. 마지막으로 필요한 만큼 레이어를 생성한 후 신경망의 결과를 제공하는 출력 레이어를 생성합니다.

  • 00:10:00 이 섹션에서 강사는 출력 예측과 실제 진실 사이의 오류를 최소화하기 위해 가중치를 조정하도록 신경망을 훈련시키는 방법을 설명합니다. 이는 기울기 또는 가중치 변화에 대한 오차 변화를 계산하고 오차가 감소하는 방향으로 가중치를 조정함으로써 달성됩니다. 이는 각 가중치 조정에 대해 각 계층에서 모든 가중치와 뉴런 값을 곱해야 하기 때문에 계산 비용이 많이 드는 프로세스입니다. 그러나 신경망을 거치지 않고 기울기를 직접 계산할 수 있는 통찰력이 있어 학습 프로세스를 보다 효율적으로 만듭니다.

  • 00:15:00 이 섹션에서 강사는 심층 신경망이 작동하는 방식과 미적분을 사용하여 기울기를 계산하여 가중치를 조정하고 오류를 줄이는 방법을 설명합니다. 가중치가 하나인 신경망의 간단한 예를 통해 그는 각 작은 단계의 기울기를 함께 곱하여 전체 체인의 기울기를 얻는 체인 개념을 보여줍니다. 그는 각 뉴런에 대해 서로 다른 작업을 수행해야 하는 여러 유형의 역전파가 있지만 궁극적으로 목표는 기울기를 계산하여 가중치를 조정하고 오류를 효율적으로 줄이는 것이라고 언급합니다.

  • 00:20:00 이 섹션에서 강사는 오류에 대해 주어진 가중치를 조정하는 효과를 계산하기 위해 시그모이드 함수 및 정류된 선형 단위와 같은 신경망의 요소를 역전파하는 방법에 대해 논의했습니다. 네트워크를 훈련하려면 완전히 연결된 네트워크로 시작하여 모든 가중치에 임의의 값을 할당하고 이러한 가중치를 약간 조정하기 위해 역전파를 사용하여 오류를 계산합니다. 답과 함께 알려진 입력은 가중치의 정확성을 결정하고 가중치가 대부분의 이미지에서 진실에 더 가깝게 잘 수행되는 낮은 지점으로 끌릴 때까지 프로세스가 여러 입력으로 반복됩니다. 신경망은 이러한 입력 변수와 출력 변수 간의 관계를 추정하고 지속적으로 학습하며 데이터 간의 비선형 관계를 평가하는 경향이 있습니다.

  • 00:25:00 이 섹션에서는 비디오에서 선형 회귀 방정식을 네트워크로 표현하는 방법을 설명합니다. 이를 통해 신경망 작동 방식을 더 잘 이해할 수 있습니다. 네트워크는 노드와 에지로 구성되며 입력 노드는 x sub 0 및 x sub 1이고 출력 노드는 v sub 0입니다. w sub 0 0 및 w sub 1로 표시되는 가중치는 연결하는 에지입니다. 입력 및 출력 노드. 이를 방향성 비순환 그래프라고 하는데, 이는 가장자리가 한 방향으로만 가고 루프를 형성할 방법이 없음을 의미합니다. 더 많은 입력 노드를 추가하면 방정식을 고차원으로 만들 수 있지만 가중치가 입력과 출력 간의 관계를 결정하는 선형 방정식으로 남아 있습니다.

  • 00:30:00 이 섹션에서는 비디오에서 2계층 선형 네트워크의 개념과 더 많은 계층을 추가하면 복잡성이 증가하는 방법에 대해 설명합니다. 2계층 네트워크는 동일한 방식으로 작동하는 동일한 계층으로 구성됩니다. 모델을 보다 유연하게 만들려면 비선형성을 추가해야 합니다. 추가할 일반적인 비선형 함수는 S자 모양의 시그모이드 함수라고도 하는 로지스틱 함수입니다. 네트워크에 더 많은 계층과 비선형성을 추가하면 더 정교한 결과를 제공할 수 있는 더 복잡한 모델이 생성됩니다.

  • 00:35:00 이 섹션에서는 로지스틱 함수와 분류기로 사용되는 로지스틱 회귀에서의 역할에 대해 알아봅니다. 로지스틱 회귀는 한 범주의 관측치가 0으로 처리되고 다른 범주의 관측치가 1로 처리되는 연속적이고 범주적인 입력 및 출력 간의 관계를 찾고 이러한 모든 관측치에 가장 적합한 로지스틱 함수를 찾습니다. 더 많은 입력을 추가함으로써 로지스틱 회귀는 많은 입력 변수와 함께 작동할 수 있으며 차원 수에 관계없이 선형 분류자가 됩니다. 로지스틱 함수와 관련된 비선형 함수인 하이퍼볼릭 탄젠트에 대해서도 알아봅니다. 이러한 비선형 함수는 선형 네트워크 영역에서 벗어나 단일 계층 네트워크에서 본 것보다 더 다양한 동작을 제공하는 데 도움이 됩니다. 숨겨진 노드가 여러 개인 레이어를 쌓음으로써 흔들림, 최고점 및 최저점이 있는 보다 복잡한 곡선을 만들 수 있습니다.

  • 00:40:00 이 섹션에서 비디오는 2계층 네트워크로 생성된 곡선이 다중 계층 네트워크를 사용하여 생성된 곡선과 수학적으로 동일할 수 있는 방법을 설명합니다. 많은 계층화된 네트워크가 더 적은 수의 노드를 사용하여 더 복잡한 곡선을 생성할 수 있지만 2계층 네트워크는 여전히 충분한 숨겨진 노드를 사용하여 풍부한 곡선을 생성할 수 있습니다. 그런 다음 비디오에서는 이러한 곡선을 사용하여 분류기를 만드는 방법을 설명하고 선형 분류기와 달리 비선형 분류기가 인터리브된 분류 영역을 만들 수 있음을 보여줍니다. 비디오는 다층 퍼셉트론의 전체 네트워크 다이어그램과 입력, 출력, 레이어 및 숨겨진 노드의 수를 지정하여 완전히 정의할 수 있는 3계층 단일 입력 단일 출력 네트워크에 대한 일반 다이어그램을 보여줌으로써 결론을 내립니다.

  • 00:45:00 비디오의 이 섹션에서 발표자는 2출력 신경망을 사용하여 2개의 출력 함수가 교차하는 위치에 따라 입력 공간을 영역으로 나누는 분류기를 만드는 방법에 대해 설명합니다. 이 접근 방식은 3개 이상의 출력 함수로 확장될 수 있으므로 선형 분류기가 수행할 수 있는 것보다 더 많은 범주를 학습하고 입력 공간을 더 복잡한 방식으로 쪼갤 수 있습니다. 그러나 우승 카테고리는 준우승 카테고리보다 크게 좋지 않을 수 있습니다. 한계에도 불구하고 이 방법은 다양한 범주 경계를 생성하는 동시에 사용된 활성화 함수로 인해 부드러움을 선호하는 신경망의 힘을 보여줍니다.

  • 00:50:00 이 섹션에서는 동영상에서 CNN(컨볼루션 신경망)과 얼굴, 자동차, 심지어 비디오 게임과 같은 이미지의 패턴을 학습하고 인식하는 기능에 대해 설명합니다. 비디오는 CNN이 마술이 아니라 기발한 방식으로 적용된 기본 원칙을 기반으로 한다고 설명합니다. 이 비디오는 CNN의 작동 방식을 설명하기 위해 입력 이미지가 X인지 O인지 결정하는 간단한 CNN 장난감 예제를 사용합니다. CNN의 어려운 부분은 이미지가 무엇인지 식별하면서 많은 변형이 가능하다는 것입니다. 이 비디오는 CNN이 분산을 처리하고 이미지를 더 작은 패턴으로 나누고 필터를 사용하여 이러한 패턴을 식별함으로써 이미지를 식별하는 방법을 설명합니다.

  • 00:55:00 이 섹션에서는 합성곱 신경망이 이미지의 일부를 일치시켜 두 조각이 동일한지 여부를 확인하는 방법을 설명합니다. 이미지를 더 작은 부분 또는 기능으로 분해함으로써 컨볼루션 신경망은 기능이 서로 일치하는지 식별할 수 있습니다. 이러한 기능을 일치시키는 이면의 수학을 필터링이라고 하며, 여기에는 이미지의 패치와 기능을 정렬한 다음 한 픽셀을 다른 픽셀로 곱하고 총 픽셀 수로 나누는 작업이 포함됩니다. 이미지 전체에서 이 기능을 반복 적용하면 이 기능이 발생하는 맵이 생성되어 신경망이 이미지의 어느 부분이 일치하는지 식별할 수 있습니다.


2 부

  • 01:00:00 이 섹션에서는 과정 강사가 심층 신경망에서 사용되는 세 가지 주요 트릭을 설명합니다. 첫 번째 트릭은 컨볼루션 레이어로 이미지가 일련의 필터로 컨볼루션되어 필터링된 이미지 스택을 생성합니다. 두 번째 트릭은 풀링(pooling)으로, 창의 최대값을 나타내는 더 작은 이미지를 얻기 위해 창 크기와 보폭 값을 가져와 이미지 스택을 축소하는 데 사용됩니다. 마지막으로 세 번째 트릭은 정규화로, 수학이 터지지 않도록 하는 데 사용되며 이미지의 모든 음수 값을 0으로 변경하는 것과 관련됩니다. 이러한 트릭은 함께 쌓여 심층 신경망을 형성하고 그 출력은 추가로 조작할 수 있는 픽셀 배열을 형성합니다.

  • 01:05:00 이 섹션에서 비디오는 신경망이 반복할 때마다 이미지를 필터링하고 줄이는 컨벌루션 및 풀링 레이어의 딥 스태킹 기술을 사용하는 방법을 설명합니다. 최종 완전 연결 레이어는 필터링되고 축소된 이미지의 각 목록을 최종 답변이 되는 일련의 투표에 연결합니다. 이러한 가중치를 얻기 위해 신경망은 역전파에 의존하여 출력 레이어의 최종 오류 신호를 기반으로 조정합니다. 이 프로세스를 경사 하강법이라고 합니다.

  • 01:10:00 심층 신경망 작동 방식에 대한 초보자를 위한 과정의 이 섹션에서 강사는 신경망의 가중치를 조정하여 오류를 최소화할 수 있는 경사 하강 과정을 설명합니다. 가중치를 위아래로 조정하여 네트워크는 내리막 방향을 찾고 오류가 가장 적은 최소값으로 안착합니다. 하이퍼파라미터는 디자이너가 돌릴 수 있는 노브이며 여기에는 사용되는 기능 수, 풀링 레이어의 창 크기 및 보폭, 완전 연결 레이어의 숨겨진 뉴런 수와 같은 결정이 포함됩니다. 또한 강사는 데이터가 서로 더 밀접하게 관련된 패턴을 따르는 한 신경망이 2차원 또는 3차원 또는 4차원 데이터에 적용될 수 있다고 설명합니다. 이를 통해 사운드 및 텍스트 분석과 같은 분야에서 네트워크를 사용할 수 있습니다.

  • 01:15:00 이 섹션에서는 CNN(컨볼루션 신경망)의 한계에 대해 설명합니다. CNN은 로컬 공간 패턴을 캡처하도록 설계되었기 때문에 이미지로 표현할 수 없는 데이터에는 적합하지 않을 수 있습니다. CNN은 패턴을 찾고 이미지를 분류하는 데 매우 효율적이지만 열을 서로 바꾼 후에도 데이터가 유용하다면 CNN이 적합하지 않을 수 있습니다. 반면에 반복 신경망(RNN), 특히 장단기 기억(LSTM)은 음성을 텍스트로 변환하거나 한 언어를 다른 언어로 변환하는 것과 같은 응용 프로그램에서 시퀀스 변환에 유용합니다. LSTM이 어떻게 작동하는지에 대한 예는 저녁 식사 주기를 관찰하여 투표 프로세스가 단순화되는 저녁 식사를 예측하기 위해 제공됩니다.

  • 01:20:00 이 섹션에서 강사는 숫자 목록에 불과한 벡터의 개념과 머신 러닝에서 어떻게 유용할 수 있는지 설명합니다. 벡터는 가능한 모든 값의 목록 형식으로 표현되며 각각에 번호가 할당됩니다. 강사는 인코딩 문에서 원-핫 인코딩이 자주 사용되는 방법을 설명합니다. 신경망은 입력 벡터의 각 요소를 출력 벡터의 각 요소에 연결하여 설계됩니다. 사용된 예는 어제의 실제 정보와 어제의 예측을 고려하여 과거 데이터를 사용하여 저녁 식사를 예측하는 것입니다. 강사는 나중에 순환 신경망이 언어 학습과 같은 시리즈에서 다음에 오는 것을 예측하는 데 유용할 수 있다고 설명합니다.

  • 01:25:00 이 섹션에서는 스쿼싱 기능을 사용하여 피드백 루프를 방지하는 방법에 대해 설명합니다. 순환 신경망은 이전에 사용된 단어를 기반으로 이름, 기간 또는 "톱"에 대한 투표를 포함합니다. 그러나 이 시스템은 한 단계만 기억할 수 있기 때문에 실수와 한계가 있습니다. 이를 극복하기 위해 요소별 덧셈과 곱셈을 위해 바닥이 평평한 squashing 함수, 원 안에 "x", 원 안에 십자 표시를 포함한 추가 기호를 통해 메모리 기능을 네트워크에 추가합니다. 이를 통해 네트워크는 여러 단계 전에 발생한 일을 기억하고 요소별 곱셈을 수행하여 새롭고 향상된 기능을 사용할 수 있습니다.

  • 01:30:00 이 섹션에서는 비디오에서 게이팅을 소개합니다. 게이팅을 통해 신경망에서 무엇이 통과하고 차단되는지 제어할 수 있습니다. 이 개념은 0으로 닫히거나 1로 열 수 있는 다양한 수준의 물 흐름과 수도꼭지가 있는 파이프를 사용하여 시연됩니다. 0과 1 사이의 값을 압축하는 로지스틱 함수의 도입으로 항상 이 범위 내의 값을 가질 수 있는 방법이 제공됩니다. 그런 다음 비디오는 각각 자체 신경망과 스쿼싱 기능으로 제어되는 일련의 게이트를 사용하여 메모리와 예측을 유지하고 선택적으로 해제하는 데 게이팅을 사용할 수 있는 방법을 보여줍니다. 마지막으로 예측과 메모리가 흐려지는 것을 방지하기 위해 관련 없는 입력을 따로 보관하는 주의 메커니즘이 도입되었습니다.

  • 01:35:00 이 섹션에서 강사는 훈련된 LSTM 네트워크가 문장의 다음 단어에 대한 예측을 생성하는 방법에 대한 예를 제공합니다. LSTM이 동화책 예제에 대해 훈련되었다고 가정하면 예제 문장은 "Jane saw Spot"입니다. "Doug"라는 단어는 가장 최근 단어이며 LSTM은 "Doug", "Jane" 및 "Spot"을 실행 가능한 옵션으로 예측합니다. 그런 다음 LSTM은 이러한 예측을 예측을 학습하는 4개의 서로 다른 신경망에 전달하고 LSTM은 "saw"가 다음 단어일 가능성이 가장 높다고 예측합니다. 이 예는 LSTM이 이전 단어와 예측을 기반으로 예측을 생성하고 메모리 및 선택 게이트를 사용하여 특정 오류를 방지하는 방법을 보여줍니다.

  • 01:40:00 이 섹션에서 강사는 LSTM 신경망이 데이터의 패턴을 식별하기 위해 여러 시간 단계를 되돌아 볼 수 있는 방법을 설명하여 언어 번역 및 음성-텍스트 소프트웨어와 같은 실제 응용 프로그램에서 성공합니다. 그는 또한 LSTM 네트워크가 로봇 공학에서 특히 유용한 방법에 대해 설명합니다. 여기서 에이전트가 취한 조치는 감지된 내용과 여러 단계 후에 수행해야 하는 작업에 영향을 줄 수 있습니다. LSTM 네트워크가 수학적으로 표현되면 복잡해 보일 수 있지만 강사는 딥 러닝을 간단한 비행기에 비해 고도로 전문화된 전투기에 비유하면서 시청자가 기본 원칙에 집중하도록 권장합니다.

  • 01:45:00 비디오의 이 섹션에서 강사는 신경망에서 뉴런의 기본 구조와 기능을 설명합니다. 뉴런의 수상돌기는 더듬이처럼 행동하고 전기적 활동을 포착한 다음 체세포에 축적되고 축삭을 통해 신호로 보내집니다. 한 뉴런의 축삭이 다른 뉴런의 수상돌기에 닿는 시냅스를 통과하는 신호의 강도는 원의 크기로 표시되며 원이 클수록 연결이 더 강함을 나타냅니다. 이러한 연결에 숫자와 가중치를 할당하면 복잡한 신경망을 각 막대가 가중치를 나타내는 원형 막대 다이어그램으로 단순화할 수 있습니다. 이 다이어그램은 입력과 출력의 조합을 나타내는 데 사용되며 각 연결에는 고유한 가중치가 있습니다.

  • 01:50:00 이 섹션에서 비디오는 신경망이 입력 뉴런과 출력 뉴런에 대한 연결을 결합하여 작동한다고 설명합니다. 출력 이미지를 생성하기 위해 결합되는 입력 픽셀의 간단한 예를 통해 비디오는 입력 뉴런이 픽셀이나 단어와 같은 개별 요소를 나타내는 방법과 더 복잡한 개념을 표현하기 위해 결합될 수 있는 방법을 보여줍니다. 이 비디오는 또한 초기 연결 가중치가 무작위로 할당된 다음 관찰된 입력-출력 패턴을 기반으로 업데이트되어 시간이 지남에 따라 네트워크가 개선되는 신경망의 학습 프로세스에 대해 설명합니다.

  • 01:55:00 이 섹션에서는 역전파와 함께 경사 하강법을 사용하여 신경망을 훈련하는 방법을 비디오에서 설명합니다. 목표는 실제 출력과 예상 출력 간의 오차를 줄이기 위해 뉴런의 가중치를 조정하는 것입니다. 작은 증분 단계를 수행하면 오류가 최소화될 때까지 가중치가 조정됩니다. 이 프로세스는 각 데이터 포인트에 대해 반복되며 여러 레이어가 있는 경우 한 레이어의 출력이 다음 레이어의 입력으로 사용됩니다. 이를 심층 신경망이라고 합니다. 레이어가 많을수록 학습할 수 있는 기능이 더 복잡해져 이미지 또는 자연어 구문을 식별할 수 있습니다.


파트 3

  • 02:00:00 비디오의 이 섹션에서 강사는 심층 신경망이 다양한 시나리오에서 작동하는 방식을 설명합니다. 얼굴이나 자동차 이미지를 훈련할 때 신경망은 눈, 코, 바퀴와 같은 이러한 물체의 기본 구성 요소를 인식하는 방법을 학습합니다. 네트워크가 깊어질수록 인식이 복잡해지고 결국 얼굴, 거미, 테디 베어와 같은 식별 가능한 이미지로 이어집니다. 또한 심층 신경망을 사용하여 유사한 음악 아티스트를 학습하고 그룹화할 수 있습니다. 강사는 또한 인간보다 Atari 게임을 더 잘 플레이하는 방법을 배우기 위해 심층 신경망을 강화 학습과 결합하는 방법과 비디오 표현을 사용하여 로봇에게 요리를 가르치는 방법을 설명합니다. 마지막으로 강사는 딥 러닝이 패턴 학습에 뛰어나지만 마술은 아니라고 설명합니다.

  • 02:05:00 이 섹션에서는 많은 일을 할 수 있고 잘 할 수 있는 지능의 기능적 정의를 소개합니다. 이 정의는 기계 지능에 대한 과학적 논의를 허용하고 서로 다른 에이전트의 상대적 지능을 비교할 수 있게 해줍니다. "지능은 성능 곱하기 일반성"이라는 방정식을 사용하여 인간 수준의 성능과 일반성을 나타내기 위해 이것을 로그 척도에 표시할 수 있습니다. 기계는 제한된 주의력 및 인지 편향과 같은 인간의 한계로 인해 일부 영역에서 인간의 성능을 능가할 수 있습니다.

  • 02:10:00 이 섹션에서는 동영상에서 일반성을 한 축으로 하고 성능을 다른 축으로 하여 그래프에서 지능을 비교하는 방법에 대해 설명합니다. 체스 두는 컴퓨터는 1989년에 IBM의 Deep Blue가 Gary Kasparov를 이겼을 때 초인적인 수준에서 수행한 최초의 에이전트였습니다. 현재 최신 체스 프로그램인 Stockfish는 ELO 등급이 3447로 훨씬 더 좋습니다. 어떤 인간 플레이어보다. 그러나 Stockfish는 체스용으로 특별히 프로그래밍되었으며 인간과 달리 일반성이 부족하다는 점은 주목할 가치가 있습니다. 이 비디오는 Stockfish를 훨씬 더 복잡하다고 여겨지는 보드 게임 바둑과 비교하고 지능에서 일반성의 중요성을 보여줍니다.

  • 02:15:00 이 섹션에서는 바둑이 체스보다 기하급수적으로 더 많은 보드 구성이 가능함에도 불구하고 일반적인 구성과 강화 학습을 학습하기 위해 합성곱 신경망이라는 기술을 사용하는 AlphaGo 프로그램에 어떻게 패배했는지 설명합니다. 어떤 움직임이 좋은지 배우기 위해 인간 게임 라이브러리에서. 유사하게, 이미지 분류 분야에서 ImageNet이라는 데이터베이스는 기계가 5% 미만의 오류율로 인간보다 이미지를 더 잘 분류할 수 있는 곳에서 만들어졌습니다. 이 작업에서 기계가 일상적으로 인간을 능가함에 따라 기계 학습의 발전은 인상적입니다.

  • 02:20:00 이 섹션에서 강사는 이미지 분류에 있어서 CNN(Convolutional Neural Networks)의 한계에 대해 논의합니다. CNN은 체스판의 픽셀과 같은 데이터의 2차원 배열에서 패턴을 찾도록 설계되었지만 훈련된 이미지 세트 외부에서는 쉽게 깨지는 것으로 나타났습니다. CNN의 취약성은 이미지가 왜곡되거나, 단일 픽셀이 변경되거나, CNN을 속여 이미지를 잘못 분류하도록 스티커를 추가할 때 입증됩니다. 강사는 이미지 분류 일반성이 ImageNet 데이터 세트에서 사람보다 더 잘 수행되지만 우리가 원하는 위치에 있지 않다고 설명합니다. 강연에서는 딥마인드의 딥Q 학습 알고리즘이 고전 아타리 게임 49개 중 29개에서 인간 전문가 수준을 달성해 세계를 놀라게 했다고 언급하기도 했다.

  • 02:25:00 이 섹션에서 강사는 비디오 게임을 하고 언어를 번역할 때 심층 신경망이 어떻게 작동하는지 설명합니다. 강화 학습을 사용하여 비디오 게임을 플레이하기 위한 픽셀 패턴을 학습하기 위해 컨볼루션 신경망을 사용한 후 알고리즘은 장기 계획이 필요한 20개의 게임에서 인간의 성능을 일치시킬 수 없었습니다. 이것은 알고리즘이 필요한 연결을 만들기 위해 몇 가지 단계를 미리 생각하지 못했음을 나타냅니다. 반면 언어 번역은 LSTM(Long Short-Term Memory)을 사용하여 100개 이상의 언어를 단일 중간 표현으로 번역합니다. 그러나 변환에는 광범위한 계산이 포함되어 있어 정확도 제한과 효율성 문제가 있다는 점은 주목할 가치가 있습니다. 따라서 기계 번역에는 범위가 있지만 인간의 성능에는 미치지 못합니다.

  • 02:30:00 이 섹션에서 화자는 추천인의 성능에 대해 논의하고 인간과 비교했을 때 상대적으로 괜찮다고 언급합니다. 그러나 알고리즘이 사람의 선호도가 변할 수 있다는 사실에 적응하지 못하고 다양한 제품이 어떻게 관련되어 있는지 고려하지 않기 때문에 성능이 완벽하지 않습니다. 일반적으로 추천자가 잘 작동하도록 만드는 데 필요한 세계에 대한 지식은 꽤 깊어서 성능에 영향을 미칩니다. 로봇으로 이동하면서 발표자는 자율주행차가 작업이 더 복잡함에도 불구하고 사고율이 인간보다 낮기 때문에 인상적인 성능을 보인다고 말합니다. 그러나 자율주행차는 보이는 것보다 덜 일반적입니다. 가장 큰 비결은 작업의 난이도를 줄이는 것입니다. 이는 솔루션의 필요한 일반성을 줄이는 것입니다.

  • 02:35:00 이 섹션에서 연사는 자율 주행 자동차가 특정 센서 세트, 알고리즘 선택 및 환경 조건을 기반으로 맞춤 설계되기 때문에 보이는 것처럼 일반적이지 않다고 설명합니다. 자율주행차의 과제는 작동할 모든 조건을 포괄하는 것입니다. 현재 자율주행차는 주로 물리적 상호작용 및 다른 자동차 및 사람과의 상호작용으로 인해 인간 운전자보다 낮은 성능을 발휘합니다. 다음으로 연사는 휴머노이드 로봇과 대부분의 활동이 어떻게 하드 코딩되고 매우 취약한지에 대해 논의합니다. 시스템의 복잡성과 함께 일반적인 응용 프로그램이 증가하고 있지만 성능은 인간 에이전트에 비해 여전히 터무니없이 낮습니다. 일반성 대 성능 경향이 자세히 논의되어 DeepMind에서 볼 수 있는 AlphaZero 프로그램의 기능에 대한 화자의 요점으로 이어집니다.

  • 02:40:00 이 섹션에서는 AI 프로그램인 AlphaZero가 규칙 없이 세계 최고의 보드 게임을 이길 수 있었던 방법을 설명하는 비디오입니다. AlphaZero는 시행 착오를 통해 게임의 시각적 패턴을 학습하도록 만들어졌습니다. 두 명의 AlphaZero 아기가 서로 놀았지만 한 명만 배울 수 있었고 다른 한 명은 그렇지 않았습니다. 학습한 사람은 하나는 학습하고 다른 하나는 학습하지 않고 스스로를 재생하고 복제한 후 진화하여 중급 플레이어가 되었습니다. 이 접근 방식으로 AlphaZero는 단 4시간 만에 인간을 이겼고 8시간 만에 이전 최고의 컴퓨터를 이겼습니다. AI 게임도 계속해서 최고의 체스 프로그램과 최고의 쇼기 프로그램을 이겼고, 따라서 AlphaZero의 지능, 일반성 및 성능이 크게 향상되었음을 보여줍니다. 비디오는 또한 가정이 일반성을 제한하고 AI 시스템에서 성능을 가능하게 하는 방법을 강조합니다.

  • 02:45:00 이 섹션에서 발표자는 컨볼루션 신경망을 포함하여 인공 지능에 사용되는 알고리즘이 만드는 몇 가지 일반적인 가정과 이러한 가정이 인간 수준의 지능을 달성하는 데 불충분한 이유를 설명합니다. 가정에는 정지성, 독립성, 에르고딕성 및 행동의 효과가 빠르게 명백해지는 것이 포함됩니다. 이러한 가정은 크게 변경되지 않는 정보 또는 데이터의 2차원 배열을 분석하는 데 적합하지만 세계와의 물리적 상호 작용을 유지하지 못하므로 휴머노이드 로봇 또는 물리적 상호 작용 로봇에는 적합하지 않습니다. 연사는 보다 일반적인 일련의 작업을 수용하고 인간 수준의 지능에 한 걸음 더 다가갈 수 있는 알고리즘을 만들기 위해 물리적 상호 작용에 초점을 맞출 것을 제안합니다. 이 섹션에서는 또한 컨벌루션 신경망과 이미지의 빌딩 블록을 학습하는 기능을 소개합니다.

  • 02:50:00 이 섹션에서 강사는 이미지의 크기, 회전 및 가중치를 고려하여 이미지가 X인지 O인지를 분류할 수 있는 컨벌루션 신경망의 예를 제공합니다. 이미지의 특정 기능을 식별하기 위해 네트워크는 이미지의 일부를 특정 기능과 일치시키고 전체 이미지가 잘 일치한다고 간주될 때까지 이동합니다. 이 프로세스에는 기능이 이미지와 정렬되고 픽셀별로 곱한 다음 총 픽셀 수로 나누는 필터링이 포함됩니다. 이 방법을 사용하면 네트워크가 이미지의 패턴을 인식하고 정확한 예측을 할 수 있습니다.

  • 02:55:00 이 섹션에서는 강사가 컨볼루션 신경망에서 컨볼루션이 작동하는 방식을 설명합니다. 컨볼루션은 기능을 사용하고 이미지에서 가능한 모든 패치를 확인하여 일치하는 정도를 확인합니다. 이미지의 모든 위치에서 비교를 수행하여 기능이 이미지와 일치하는 필터링된 이미지 맵을 생성할 수 있습니다. 강사는 풀링이 필터링된 이미지를 원본 이미지의 더 작은 버전으로 축소하는 방법을 설명합니다. 이 단계에서는 픽셀 창을 선택하고 최대값을 선택하여 원래 신호를 유지하는 더 작은 이미지를 생성합니다. 마지막으로 음수를 피하고 네트워크에서 관리 가능한 값을 유지하려면 정규화가 필요합니다.


파트 4

  • 03:00:00 비디오의 이 섹션에서 강사는 모든 음수를 0으로 변환하는 수정된 선형 단위 함수를 시작으로 컨벌루션 신경망이 후속 레이어를 통해 진행되는 과정을 설명합니다. 한 레이어의 출력이 다음 레이어의 입력처럼 보이므로 최종 출력은 컨볼루션, 정류 및 풀링 레이어에 의해 변환된 이미지 스택이며, 음수 값이 없는 필터링된 이미지 스택을 생성합니다. 크기가 줄었습니다. 또한 강사는 정답이 x 또는 o일 때 강한 경향이 있는 최종 픽셀 값이 각각 x 또는 o 범주에 대해 강한 투표를 제공하고 총 가중 투표를 사용하여 입력을 다음 중 하나로 분류한다고 말합니다. x 또는 o는 특성 값 목록을 가져와 각 출력 범주에 대한 투표 목록이 되는 완전히 연결된 계층에 의해 생성됩니다.

  • 03:05:00 이 섹션에서는 화자가 신경망을 사용하여 이미지를 분류하는 방법을 설명합니다. 이미지는 구성 요소 픽셀로 분해된 다음 밝기 값 목록으로 변환됩니다. 각 값은 검은색의 -1에서 흰색의 +1까지 다양한 밝기 수준에 해당합니다. 이 밝기 값 목록은 4개의 픽셀에서 입력을 받아 가중치 합을 수행하는 뉴런을 만드는 데 사용됩니다. 그런 다음 뉴런은 "스쿼싱" 기능을 적용하여 결과가 -1과 +1 사이가 되도록 합니다. 이미지를 분류하기 위해 뉴런을 사용하는 이 프로세스는 인간 피질에서 발견되는 생물학적 레이어에서 느슨하게 영감을 받은 레이어를 생성하기 위해 여러 번 반복될 수 있습니다.

  • 03:10:00 이 섹션에서 강사는 신경망의 수용 필드가 상위 계층에서 어떻게 더 복잡해지는지 설명합니다. 입력 레이어를 뉴런의 숨겨진 여러 레이어에 연결함으로써 각 뉴런은 이전 레이어의 입력을 특정 가중치와 결합합니다. 가중 합 대신 수정된 선형 단위를 사용하면 뉴런은 양수이면 원래 값을, 음수이면 0을 출력합니다. 이 과정을 통해 네트워크는 원하는 출력과 유사한 패턴을 인식하는 방법을 학습하여 입력을 분류하는 최종 출력 계층을 생성합니다. 강사는 가로 막대가 있는 이미지의 예를 사용하여 네트워크가 각 레이어를 통해 이미지를 처리하는 방법을 보여줍니다.

  • 03:15:00 이 섹션에서는 동영상이 가중치 및 필터의 최적화를 통해 조정하여 심층 신경망 모델이 학습하는 방법과 최적화 프로세스를 설명합니다. 최적화 프로세스는 즐거움을 극대화하기 위해 차의 온도를 최적화하는 예와 함께 설명됩니다. 이 프로세스에는 최소값에 도달할 때까지 반복하고 입력을 약간 조정하는 프로세스인 경사 하강법으로 수행할 수 있는 수학 함수의 최소 지점을 찾는 작업이 포함됩니다. 비디오는 또한 가중치와 필터가 시간이 지남에 따라 많은 예제를 통해 학습되며 이것이 머신 러닝에 관한 것이라고 설명합니다.

  • 03:20:00 이 섹션에서 발표자는 경사 하강법 외에 모델을 최적화하는 다른 방법에 대해 논의합니다. 인기 있는 방법 중 하나는 다양한 온도의 차를 만들고 곡선의 가파른 정도를 관찰하여 최적의 매개변수를 찾기 위해 곡률을 사용하는 것입니다. 그러나 이 방법은 곡선이 제대로 작동하지 않는 경우 실패할 수 있으며 그래디언트가 로컬 최소값에 갇힐 수 있습니다. 로컬 최소값에 갇히는 것을 방지하기 위해 유전자 알고리즘 및 모의 어닐링과 같은 다른 방법을 사용할 수 있습니다. 이 방법은 철저한 탐색보다 샘플 효율적이지만 경사 하강법만큼 빠르지는 않습니다. 연사는 이러한 방법을 다양한 유형의 차량과 비교합니다. 경사 하강은 포뮬러 원 경주용 자동차, 유전자 알고리즘 및 모의 어닐링은 4륜 구동 픽업 트럭, 철저한 탐색은 도보 여행과 같습니다.

  • 03:25:00 이 섹션에서 화자는 수치 최적화를 사용하여 덜 잘못된 방식으로 질문에 답하는 방법의 예를 제공합니다. 이 예는 가방에 담긴 M&M의 수를 추측하는 것과 관련이 있으며, 화자는 편차 측정을 사용하여 추측을 비용 함수로 변환하는 방법을 설명합니다. 손실 함수는 편차 측정값을 제곱했을 때 추측이 얼마나 잘못되었는지 계산하며 범위 내에서 추측을 철저히 탐색하고 시각적으로 가장 낮은 값을 찾는 데 도움이 될 수 있습니다. 또는 추측에 대한 기울기는 손실 함수의 도함수를 0으로 설정하고 방정식을 풀어서 찾을 수 있습니다.

  • 03:30:00 이 섹션에서 발표자는 최적화와 최적의 가중치 및 기능을 찾기 위해 신경망에서 최적화를 사용하는 방법에 대해 설명합니다. Gradient descent는 오류를 줄이기 위해 모든 레이어의 모든 가중치를 조정하는 데 사용됩니다. 그러나 기울기를 계산하려면 내리막 방향을 결정하기 위해 네트워크를 여러 번 통과해야 합니다. 그런 다음 기울기 문제에 대한 분석 솔루션을 찾는 방법으로 역전파가 도입되어 보다 효율적인 최적화 프로세스가 가능합니다. 연사는 또한 비용 함수, 특히 편차의 합을 계산할 수 있는 편차 제곱의 사용을 설명하여 최상의 추측을 찾습니다.

  • 03:35:00 이 섹션에서 강사는 오차 함수의 기울기 또는 도함수 계산이 신경망의 가중치를 조정하는 데 어떻게 도움이 되는지 설명합니다. 그는 하나의 입력, 하나의 출력, 하나의 뉴런이 있는 하나의 은닉층이 있는 간단한 신경망의 예를 제시하여 간단한 계산으로 오류 함수의 기울기를 찾을 수 있는 방법을 보여줍니다. 기울기를 찾기 위해 가중치와 오차의 변화를 세분화하는 과정을 체이닝이라고 하며, 이를 통해 신경망에서 더 깊은 곳에서 발견되는 가중치를 조정할 수 있습니다. 이 프로세스를 역전파(backpropagation)라고 하며 네트워크 끝의 값을 사용하여 네트워크 깊이를 통한 오류 전파에 대한 가중치의 도함수를 계산해야 합니다.

  • 03:40:00 비디오의 이 섹션에서 강사는 신경망 훈련의 역전파 단계를 설명합니다. 그는 도함수를 찾을 때 체인 규칙을 사용하여 체인의 링크를 계산할 수 있도록 신경망에서 미분 가능한 각 요소의 중요성을 강조합니다. 강사는 완전 연결 계층에 체인 규칙을 사용하는 방법과 컨볼루션 및 풀링 계층에 적용할 수 있는 방법을 설명합니다. 효율적인 답변을 얻기 위해 수천 번의 반복 반복을 통해 신경망에서 가중치를 조정하는 프로세스도 설명합니다.

  • 03:45:00 이 섹션에서는 강사가 CNN(컨볼루션 신경망)의 하이퍼파라미터를 최적화하는 방법을 설명합니다. 기능의 수, 크기 및 보폭, 풀링 창 및 숨겨진 뉴런 수와 같은 이러한 매개 변수는 다음 레벨이며 아래에서 모든 일이 발생하는 방식을 제어합니다. 강사는 연구자들이 잘 작동하는 것처럼 보이는 몇 가지 레시피가 있지만 아직 시도되지 않은 이러한 하이퍼파라미터의 많은 조합이 있으므로 일부 조합이 훨씬 더 잘 작동할 가능성이 항상 있음을 지적합니다. 지금까지 본 것보다. 또한 CNN은 이미지에 유용할 뿐만 아니라 서로 가까운 것이 멀리 있는 것보다 더 밀접하게 관련된 2차원 또는 3차원 데이터에 유용합니다. 그러나 CNN의 패턴 인식 기능은 공간 패턴에만 국한되어 데이터의 공간 구성이 중요하지 않은 상황에서는 덜 유용합니다.

  • 03:50:00 이 섹션에서 연사는 자신만의 컨벌루션 신경망을 처음부터 만드는 것이 좋은 연습이지만 이미 사용할 수 있는 성숙한 도구가 많이 있다고 설명합니다. 이 섹션에서 중요한 점은 신경망으로 작업할 때 데이터를 준비하고 결과를 해석하고 하이퍼파라미터를 선택하는 방법에 대해 많은 미묘한 결정을 내리는 것이 중요하다는 것입니다. 데이터로 수행되는 작업과 그 이면의 의미를 이해하면 사용 가능한 도구를 최대한 활용하는 데 도움이 됩니다.