프로그래밍 자습서 - 페이지 17

 

선형 회귀 소개


선형 회귀 소개

여러분, 안녕하세요! 오늘은 선형 회귀에 대해 알아보겠습니다. 우리는 산점도를 검토하고 변수 사이의 선형 관계를 관찰하는 상황에 대해 논의했습니다. 즉, X 변수가 증가함에 따라 Y 변수는 일정한 비율로 증가하거나 감소하는 경향이 있습니다. 그래프의 왼쪽과 같이 긴밀한 관계가 있을 때와 오른쪽과 같이 관계가 더 분산되어 있을 때 이 현상을 논의할 수 있습니다.

이 선형 관계를 분석하기 위해 지능적인 방식으로 산점도 위에 선을 그릴 수 있습니다. 이 선은 최적선 또는 회귀선으로 알려져 있습니다. 이제 선형 회귀의 수학적 측면을 살펴보겠습니다. 핵심 아이디어는 잔차의 개념을 포함합니다. 데이터 위에 선을 긋고 특정 X 값을 선택합니다. 그런 다음 데이터 세트의 실제 Y 값과 선의 예측 Y 값 간의 차이를 계산합니다. 이 차이를 잔차라고 하며 실제 높이와 예상 높이 사이의 편차를 나타냅니다. 데이터 세트의 각 지점에 대한 잔차를 계산하고 제곱하고 합산하여 최소화할 수 있는 양을 얻습니다.

미적분을 사용하여 이 양을 최소화하고 최소 제곱 회귀선에 대한 방정식을 도출할 수 있습니다. 이 선은 점(X 막대, Y 막대)을 통과하는 것으로 나타났습니다. 여기서 X 막대는 X 값의 표본 평균이고 Y 막대는 Y 값의 표본 평균입니다. 최소 제곱 회귀선의 기울기는 r × (sy/SX)로 주어지며, 여기서 r은 상관 계수, sy는 Y 값의 표준 편차, SX는 X 값의 표준 편차입니다. 요약하면 최소 제곱 회귀선에 대한 방정식이 슬라이드 하단에 제공됩니다.

이러한 값을 수동으로 계산하는 것은 번거로울 수 있습니다. 프로세스를 단순화하려면 기술이나 소프트웨어를 사용하는 것이 좋습니다. 이전 슬라이드에 표시된 산점도에 해당하는 데이터를 고려해 보겠습니다. 평균과 표준 편차를 계산하여 X 막대는 5.4, Y 막대는 2.4 등임을 알 수 있습니다. 상관 계수는 약 0.34로 중간에서 약한 양의 상관 관계를 나타냅니다. 이 값을 연결하여 최소 제곱 회귀선에 대한 방정식인 0.19x + 1.34를 얻습니다.

이러한 계산을 손으로 수행하는 것은 지루할 수 있음을 강조해야 합니다. 기술을 활용하는 것이 훨씬 더 효율적인 접근 방식입니다. 다음은 이 데이터에 대한 최소 제곱 회귀선의 모양에 대한 예입니다. 데이터 포인트에 합당한 적합성으로 보입니다.

Introduction to Linear Regression
Introduction to Linear Regression
  • 2020.04.17
  • www.youtube.com
Drawing a line of best fit over a scatterplot. So easy and fun! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more stat...
 

R의 산점도 및 회귀선


R의 산점도 및 회귀선

여러분, 안녕하세요! 이 빠른 시작 가이드에서는 RStudio의 ggplot2 패키지를 사용하여 아름다운 그래픽을 만드는 방법을 보여드리겠습니다. 이 토론은 통계 1 수준의 초보자에게 적합합니다. 보다 강력하고 정교한 방법을 사용할 수 있지만 가장 직관적이고 간단한 방법에 중점을 둘 것입니다. 우리는 붓꽃 데이터 세트의 하위 집합, 특히 Virginica 꽃에 해당하는 50개 행으로 작업할 것입니다. 우리의 목표는 꽃받침 길이 대 꽃받침 너비의 산점도를 만드는 것입니다.

시작하기 전에 tidyverse 패키지 또는 해당 패키지 제품군을 로드해야 합니다. 아직 설치하지 않았다면 "install.packages('tidyverse')" 명령을 사용하세요. 설치 중 오류가 발생하면 온라인에서 해결 방법을 검색하는 것이 좋습니다. 패키지가 로드되면 진행할 준비가 된 것입니다.

산점도를 만들기 위해 기본 구문 "qplot"을 사용합니다. 먼저 가로축에 대해 "virginica$sepal_length"인 x-값을 지정합니다. 여기서 "virginica"는 데이터 세트이고 "sepal_length"는 열 이름입니다. 그런 다음 세로 축에 대해 y 값을 "virginica$sepal_width"로 지정합니다. 다음으로 데이터를 표시하는 방법을 정의해야 합니다. 산점도의 경우 "geom = 'point'"를 사용합니다. "point"의 철자가 올바른지 확인하십시오. 이렇게 하면 기본 산점도가 생성됩니다.

축 레이블을 조정하고 색상 및 포인트 크기 변경과 같은 사용자 지정 옵션을 탐색하여 플롯을 개선해 보겠습니다. x축 레이블을 수정하려면 "xlab = '꽃받침 길이'"를 사용하십시오. 마찬가지로 "ylab = 'sepal width'"를 설정하여 y축 레이블을 변경합니다. 포인트 색상을 변경하려면 "color = 'darkred'"를 추가하십시오. 색상을 지정하는 구문은 R의 정교함으로 인해 약간 독특합니다.

이제 레이블과 포인트 색상이 조정되었으므로 추가로 실험할 수 있습니다. 예를 들어 "size = ..."를 사용하여 포인트 크기를 변경할 수 있습니다. 또한 플롯에 기본 제목을 추가할 수 있습니다. "?qplot"을 사용하거나 온라인에서 검색하여 "qplot"의 기능을 더 자세히 살펴보시기 바랍니다.

한 단계 더 나아가 회귀선을 추가해 보겠습니다. ggplot2와 tidyverse의 한 가지 장점은 기존 명령을 확장하기만 하면 플롯에 레이어를 추가할 수 있다는 것입니다. 이전에 생성한 "qplot" 명령으로 시작하고 이제 "geom_smooth()"를 추가합니다. 이렇게 하면 적합선이 생성됩니다. 선형 회귀에 관심이 있으므로 선형 모델을 사용하려면 "method = 'lm'"을 지정합니다. 특히 입문 통계 수업에서 이 인수를 포함하는 것이 좋습니다.

회귀선의 색상을 변경하려면 "geom_smooth()" 명령 내에 "color = 'darkgray'"를 포함할 수 있습니다. 이렇게 하면 다른 색상이 됩니다.

마지막으로 "se = FALSE"를 제거하면 어떻게 되는지에 대한 질문을 해결해 보겠습니다. 이 인수가 없으면 R은 오류 리본을 표시합니다. 대략적으로 말하면 이 리본은 신뢰 구간을 나타냅니다. 이러한 50개의 관찰이 샘플링된 데이터 세트의 모든 플롯을 그래프로 표시한다면 회귀선이 이 오류 리본 내에 있을 것으로 예상하여 대략적인 불확실성 측정을 제공합니다.

Scatterplots and Regression Lines in R
Scatterplots and Regression Lines in R
  • 2020.04.17
  • www.youtube.com
A quickstart guide to making scatterplots in R using the qplot() command. So easy! So much fun! If this vid helps you, please help me a tiny bit by mashing t...
 

회귀선을 사용하여 예측하기


회귀선을 사용하여 예측하기

여러분, 안녕하세요! 오늘은 회귀선에 대해 자세히 알아보겠습니다. 예측에 사용하는 방법, 예측 오류에 대해 논의하고 예측에 사용하는 것이 부적절한 경우를 이해합니다. 시작하자!

이전 비디오에서 이 예를 알 수 있습니다. 우리는 5개의 값이 있는 작은 데이터 세트를 가지고 있고 최적의 선을 그렸습니다: Ŷ = 0.19X + 1.34. 이제 새 입력 값 x = 6을 고려해 보겠습니다. 회귀 방정식을 사용하여 해당 y 값을 예측할 수 있습니다. 이 경우 예측값은 2.54입니다. 이 예측 값을 (6, 2.54)에서 파란색 점으로 선에 그릴 수 있습니다.

때로는 데이터 세트의 y 값에 해당하는 x 값이 있을 때 예측을 합니다. 예를 들어, x = 3에서 점 (3, 1)이 있습니다. 이 경우 어떤 종류의 오류에 대해 이야기하고 있습니까? 우리는 그것을 잔차라고 부릅니다. 데이터 포인트의 잔차는 해당 포인트의 실제 y값과 회귀선에서 예측한 y값의 차이입니다. x = 3에서 실제 y값은 1이고 예측된 y값은 1.97이므로 잔차는 -0.97입니다. 이는 점 (3, 1)이 회귀선 아래 약 0.97 단위에 있음을 의미합니다.

회귀선을 사용하여 예측할 때 데이터 세트의 범위를 고려하는 것이 중요합니다. 범위 또는 데이터 세트의 합리적인 확장에 속하는 x-값에 대해서만 예측해야 합니다. 고전적인 예는 연령 대 체중입니다. 그래프에서 볼 수 있듯이 약 12세 미만의 사람들에게는 선형 관계가 있습니다. 이 범위 내에서 선형 관계를 사용하여 연령을 기반으로 합리적으로 정확한 체중 예측을 할 수 있습니다. 이를 보간이라고 하며 데이터 세트 범위 내에서 값을 예측합니다.

그러나 이 선형 관계를 사용하여 40세 개인과 같이 해당 범위를 벗어난 예측을 하는 것은 잘못된 것입니다. 무게를 예측하기 위해 선형 관계를 적용한다면 결과는 340파운드가 넘을 것이며 이는 명백히 비현실적입니다. 이를 외삽이라고 하며 피해야 합니다.

요약하면 회귀선을 사용할 때 예측 오류와 한계를 이해하는 것이 필수적입니다. 잔차는 실제 값과 예측 값 간의 불일치를 정량화하는 데 도움이 됩니다. 우리는 데이터 세트의 범위 또는 그것의 합리적인 확장 내에서만 예측을 해야 합니다. 데이터 세트 범위 밖의 값을 예측하는 외삽법은 부정확하고 신뢰할 수 없는 결과를 초래할 수 있습니다.

Using Regression Lines to Make Predictions
Using Regression Lines to Make Predictions
  • 2020.04.18
  • www.youtube.com
Also discussed: residuals, interpolation and extrapolation. All the good stuff! If this vid helps you, please help me a tiny bit by mashing that 'like' butto...
 

lm() 명령을 사용한 R의 회귀 및 예측


lm() 명령을 사용한 R의 회귀 및 예측

여러분, 안녕하세요! 오늘 우리는 기본 제공 데이터 세트 "cars"를 사용하여 R의 회귀선을 계산할 것입니다. 시작하려면 데이터 세트를 살펴보고 "보기" 및 "물음표" 명령을 사용하여 데이터 세트에 대한 정보를 수집해 보겠습니다. "cars" 데이터 세트는 1920년대 자동차의 속도와 정지 거리를 나타내는 50개의 항목으로 구성됩니다. 최신 데이터는 아니지만 여전히 선형 관계를 탐색할 수 있습니다.

데이터를 시각화하기 위해 "tidyverse" 라이브러리의 "ggplot2" 패키지를 사용합니다. "library(tidyverse)" 명령을 사용하여 패키지를 로드했는지 확인하십시오. 아직 "tidyverse" 패키지를 설치하지 않은 경우 "install.packages('tidyverse')" 명령을 사용하여 설치할 수 있습니다.

다음으로 "qplot" 명령을 사용하여 데이터의 산점도를 만듭니다. x축(설명 변수)에 속도를 표시하고 y축(반응 변수)에 거리를 표시합니다. "cars" 데이터셋으로 작업 중이고 산점도를 원한다는 것을 나타내기 위해 "geom='point'"를 사용합니다. 플롯은 대부분 선형 관계를 나타내므로 선형 회귀를 수행하는 것이 합리적임을 나타냅니다.

플롯에 회귀선을 추가하려면 "geom_smooth(method = 'lm', se = FALSE)"를 사용합니다. 이것은 표준 오차 막대 없이 더 부드러운 선형 회귀를 지정합니다.

이제 회귀선의 방정식을 결정합시다. 선형 모델을 나타내는 "lm" 명령을 사용합니다. 구문은 응답 변수(거리)가 설명 변수(속도)와 관련된 "y ~ x" 패턴을 따릅니다. 결과를 "모델"이라는 변수에 할당합니다. "summary(model)"를 입력하면 계수, 잔차 및 다중 R-제곱 및 조정된 R-제곱과 같은 통계 측정을 포함하여 회귀선에 대한 추가 정보를 얻을 수 있습니다.

"모델" 개체의 특정 정보에 액세스하려는 경우 이를 데이터 프레임으로 취급하고 "$"를 사용하여 원하는 열을 추출할 수 있습니다. 예를 들어 "model$residuals"는 50개의 잔차로 구성된 벡터를 제공합니다.

"cars$residuals" 및 "cars$predicted"를 각각 사용하여 원래 "cars" 데이터 세트에 새 열로 잔차 및 적합치를 추가할 수도 있습니다.

마지막으로 "예측" 기능을 사용하여 데이터 세트에 없는 속도에 대한 예측을 얻겠습니다. "모델"을 첫 번째 인수로 제공하고 "속도"(설명 변수와 일치)라는 열이 있는 데이터 프레임을 만듭니다. "data.frame" 기능을 사용하여 원하는 속도 값을 입력합니다. 예를 들어 12.5, 15.5, 17과 같은 속도의 정지 거리를 예측할 수 있습니다. 예측 값이 표시됩니다.

Regression and Prediction in R Using the lm() Command
Regression and Prediction in R Using the lm() Command
  • 2021.02.24
  • www.youtube.com
Let's learn about the lm() and predict() functions in R, which let us create and use linear models for data. If this vid helps you, please help me a tiny bit...
 

R의 잔차 도표


R의 잔차 도표

안녕하세요 여러분, 오늘 비디오에서는 qplot 명령을 사용하여 R의 잔차 플롯을 탐색할 것입니다. 나는 주로 이 튜토리얼에서 기본 R 함수를 사용할 것입니다. R에서 작업을 수행하는 표준 방법인 broom 패키지에 대한 다른 비디오도 작업 중입니다. 준비가 되면 해당 비디오에 대한 링크를 제공하겠습니다.

이 튜토리얼에서는 R에 내장된 공기질 데이터세트의 "바람" 및 "온도" 변수에 초점을 맞출 것입니다. 이 데이터세트에는 1973년 5월부터 9월까지 뉴욕의 일일 공기질 측정값이 포함되어 있습니다.

시작하려면 tidyverse 패키지를 로드해 보겠습니다. qplot 함수만 사용하지만 일관성을 위해 전체 패키지를 로드해 보겠습니다.

모델링을 시작하기 전에 데이터를 시각화하는 것이 중요합니다. 설명 변수(air_quality$wind)로 "wind"를 설정하고 응답 변수(air_quality$temp)로 "temp"를 설정하여 qplot을 생성해 보겠습니다. 두 개의 변수가 있으므로 R은 기본적으로 산점도를 사용합니다.

플롯을 살펴보면 특별히 강력하지는 않지만 두 변수 사이의 선형 관계를 관찰할 수 있습니다. 이 관계를 정량화하기 위해 cor 함수를 사용하여 상관 계수를 계산해 보겠습니다. 결과 상관 계수는 -0.458이며 음의 상관 관계를 나타냅니다.

이제 선형 관계를 설정했으므로 플롯에 회귀선을 추가할 수 있습니다. 선형 모델을 나타내기 위해 method = "lm"과 함께 geom_smooth 함수를 포함하여 qplot 명령을 수정합니다. 단순화를 위해 오류 리본을 제외하겠습니다.

회귀선이 추가되면 선형 모델을 구성하고 회귀선에 대한 방정식을 얻을 수 있습니다. lm 함수를 사용하여 "모델"이라는 변수에 선형 모델을 할당해 보겠습니다. 응답 변수로 "temp"를 지정하고 설명 변수로 "wind"를 지정합니다. 데이터 프레임의 이름을 명시적으로 언급하는 것이 중요합니다.

모델에 대한 더 많은 통찰력을 얻기 위해 요약 기능을 사용하여 모델 요약을 얻을 수 있습니다. 요약은 절편(90.1349) 및 기울기에 대한 계수(-1.23)를 비롯한 다양한 정보를 제공합니다. 기울기 계수의 해석은 바람이 1단위 증가할 때마다 온도가 약 1.23단위 감소한다는 것입니다. 도움말 파일을 확인하면 시간당 마일의 바람과 화씨 온도와 같은 사용된 단위에 대한 정보가 제공됩니다.

계수 함수를 사용하여 계수에 직접 액세스할 수 있습니다. 이 함수는 모델에서 가로채기 및 바람 계수를 반환합니다. 또한, fitted.values 함수를 사용하여 적합치를 얻을 수 있으며 각 바람 값에 대한 예측 온도 벡터를 제공합니다. 공기질 데이터 프레임에 "예측됨"이라는 새 열을 추가할 수 있습니다.

유사하게 우리는 잔차 함수를 사용하여 잔차를 얻을 수 있습니다. 이 함수는 관찰된 값과 예측된 값 사이의 차이를 제공합니다. 잔차를 데이터 프레임에 다른 열인 "잔차"로 추가하면 탐색이 완료됩니다. 데이터 프레임을 다시 시각화하여 새 열이 있는지 확인할 수 있습니다.

적합치와 잔차 간의 관계를 평가하기 위해 잔차 그림을 만들 수 있습니다. qplot 명령에서 적합치를 x축 변수(fitted.values(model))로 설정하고 잔차를 y축 변수(residuals(model))로 설정합니다. qplot 인수에 지정된 대로 산점도가 생성됩니다.

잔차 그림의 목적은 잔차의 패턴이나 추세를 식별하는 것입니다. 분산이 일정한 유효한 선형 모델에서 플롯은 식별할 수 있는 패턴이 없는 구름과 유사해야 합니다. geom_smooth 및 method = "lm"으로 회귀선을 추가하면 이를 확인하는 데 도움이 됩니다. 또한 표준 오차 막대를 제거하기 위해 se = FALSE를 설정합니다.

잔차 플롯을 검토하면 식별 가능한 패턴이나 추세가 없다는 것을 알 수 있으며 이는 모델이 선형 관계를 적절하게 포착하고 있음을 나타냅니다. y = 0으로 표시되는 회귀선은 이 관찰을 확인합니다.

이것으로 qplot 명령을 사용하여 R에서 잔차 플롯을 생성하는 방법에 대한 자습서를 마칩니다. 잔차를 시각화하고 분석하여 적합도와 선형 모델의 적절성을 평가할 수 있습니다. R에서 동일한 결과를 얻을 수 있는 여러 가지 방법이 있으며 다양한 구문과 기능을 탐색하면 언어에 대한 이해를 높일 수 있습니다.

Residual Plots in R
Residual Plots in R
  • 2021.08.11
  • www.youtube.com
It's easy to make beautiful residual plots in R with ggplot. Let's go!If this vid helps you, please help me a tiny bit by mashing that 'like' button. For mor...
 

특이치: 레버리지, 불일치 및 영향


특이치: 레버리지, 불일치 및 영향

여러분, 안녕하세요! 오늘은 선형 회귀의 맥락에서 레버리지, 불일치 및 영향력의 개념에 대해 자세히 알아볼 것입니다. 단일 설명 변수가 있는 시나리오에 초점을 맞추겠지만 여기에서 설명하는 모든 내용은 더 높은 차원에도 직접 적용됩니다.

두 개의 변수가 있는 데이터 세트에서 개별 관측값은 x값, y값 또는 둘 다에서 비정상적인 특성을 나타낼 수 있습니다. "이상치"라는 용어를 사용할 때 특히 데이터의 일반적인 추세와 비교하여 y 방향에서 크게 벗어나는 관측치를 나타냅니다. 이러한 이상값은 불일치가 높은 점입니다.

그러나 일상 언어에서는 "이상치"라는 용어를 좀 더 느슨하게 사용하는 경우가 많습니다. 이 개념을 설명하기 위해 각각 하나의 비정상적인 관찰과 함께 선형 추세를 표시하는 세 개의 데이터 세트를 고려해 보겠습니다. 처음 두 그래프에서 회귀선에서 멀리 떨어져 높은 불일치를 나타내는 점이 있음을 알 수 있습니다. 세 번째 경우에서 비정상적인 값은 전체 데이터 추세와 상당히 잘 일치하므로 불일치만으로는 이상치로 간주되지 않습니다.

이제 우리의 초점을 레버리지로 옮겨봅시다. 비정상적인 x-값이 있는 관측치는 모델의 적합도에 더 큰 영향을 미칠 가능성이 있으며 이러한 관측치는 높은 레버리지가 있다고 합니다. 레버리지 관점에서 동일한 세 개의 플롯을 조사하면 가장 오른쪽에 있는 두 개의 플롯에 레버리지가 높은 관측치가 포함되어 있음을 알 수 있습니다. 이러한 이상치에는 대부분의 데이터에서 상당히 멀리 떨어져 있는 x 값이 있습니다. 반대로 첫 번째 플롯은 x값이 데이터 세트의 다른 값과 잘 정렬되기 때문에 레버리지가 낮은 이상값을 특징으로 합니다.

모델의 적합도를 실질적으로 변경하는 관찰은 높은 영향력을 갖는 것으로 간주됩니다. 이전 플롯의 처음 두 이상값으로 돌아가 영향의 렌즈를 통해 살펴보겠습니다. 첫 번째 그래프에서 영향력이 낮은 이상치를 관찰합니다. 데이터 세트에서 이 값을 제거하면 회귀선이 크게 이동하지 않습니다. 특히 경사는 상대적으로 변하지 않습니다. 반대로 가장 오른쪽 플롯에서는 영향력이 큰 이상값을 볼 수 있습니다. 데이터 세트에서 제거하면 회귀선이 크게 변경됩니다. 일반적으로 영향력 있는 관찰은 높은 불일치와 높은 레버리지를 모두 나타냅니다.

이러한 모든 개념을 정량화할 수 있지만 이 비디오에서는 자세히 다루지 않겠습니다. 그러나 이 문제를 더 자세히 살펴보고 싶다면 올바른 방향으로 안내해 드리고 싶습니다. 불일치는 종종 모델의 예측에서 y 방향으로 관측값의 편차를 정량화하는 표준화된 잔차인 스튜던트화 잔차를 사용하여 측정됩니다. 기대 평균 x-값에서 x-값의 거리를 측정하는 모자 값을 사용하여 레버리지를 평가할 수 있습니다. 마지막으로 영향력은 종종 Cook의 거리를 사용하여 정량화됩니다.

다행히 R이 편리한 방법을 제공하므로 이러한 측정값을 직접 계산할 필요가 없습니다. 빗자루 패키지는 이와 관련하여 특히 유용하며 가능한 한 빨리 동영상을 만들겠습니다.

Outliers: Leverage, Discrepancy, and Influence
Outliers: Leverage, Discrepancy, and Influence
  • 2021.07.14
  • www.youtube.com
How should we think about unusual values in two-variable data sets? How is an unusual x-value different from an unusual y-value? In this vid, we'll learn all...
 

R^2: 결정 계수


R^2: 결정 계수

오늘의 주제는 결정계수 R제곱입니다. 회귀선 또는 통계 모델 주변의 관찰 범위를 측정합니다. 이는 특히 고차원 사례에서 설명 변수(들)의 변화에 기인할 수 있는 반응 변수(y)의 분산 비율을 나타냅니다.

선형 모델의 경우 R-제곱은 항상 0과 1 사이에 속합니다. 값이 1에 가까울수록 데이터 포인트가 회귀선 주위에 밀접하게 밀집되어 있음을 나타내고 값이 0에 가까울수록 확산이 더 큼을 나타냅니다.

이 개념을 더 명확하게 하기 위해 세 가지 데이터 세트를 시각화해 보겠습니다. 각 세트는 y 값에 대해 1의 분산을 가지며 각 경우에 대해 회귀선을 그렸습니다. R-제곱이 0.2에서 0.5, 0.8로 증가함에 따라 회귀선 주변의 데이터가 점점 더 촘촘하게 분산되는 것을 관찰할 수 있습니다.

이제 좀 더 정확한 정의에 대해 알아보겠습니다. R-제곱은 피팅된 y-값의 분산을 관측된 y-값의 분산으로 나눈 값으로 계산됩니다. 대수적으로 이것은 1에서 잔차의 분산을 관찰된 y-값의 분산으로 나눈 값으로 표현할 수 있습니다. 기술적인 의미에서 다음과 같이 작성할 수 있습니다.

R-제곱 = (잔차의 분산) / (관측된 y-값의 분산)

더 단순화하기 위해 우리는 종종 이 대수식을 R-제곱 = 1 - (RSS / TSS)로 축약합니다. 여기서 RSS는 잔여 제곱합을 나타내고 TSS는 총 제곱합을 나타냅니다.

단일 설명 변수가 있는 최소 제곱 회귀 모델에서 주목해야 할 중요한 사실은 결정 계수가 샘플 상관 계수(R)의 제곱과 같다는 것입니다. 즉, R-제곱(큰 R-제곱)은 작은 R-제곱과 같습니다.

고차원 모델의 경우도 마찬가지입니다. R-제곱은 관찰된 y-값과 적합된 y-값 사이의 상관 관계의 제곱과 같습니다. 이는 단일 변수의 경우에도 적용되지만 일반적으로 이러한 용어로 생각하지는 않습니다.

R-제곱이 종종 잘못 이해되고 잘못 해석된다는 점을 언급할 가치가 있습니다. 따라서 그 의미와 한계를 명확히합시다. R-제곱은 x의 변동으로 설명할 수 있는 y의 변동 비율을 측정합니다. 정의에 따라 y 값의 가변성이 높은 데이터 세트의 경우 더 낮을 것입니다. 따라서 R-제곱이 0.93인 예에서 설명한 것처럼 R-제곱이 1에 가까운 모델이 반드시 좋은 것은 아니지만 선형 모델은 데이터에 적합하지 않습니다.

마찬가지로 R-제곱이 낮은 모델이 반드시 나쁜 것은 아닙니다. 예를 들어 R-제곱이 0.16인 모델은 데이터에 매우 적합할 수 있지만 데이터 자체에는 본질적으로 많은 자연 변동성과 노이즈가 포함되어 있습니다.

결정계수는 회귀선에 대한 변동성만 측정하며 모델의 유용성이나 타당성을 직접 나타내지는 않습니다. 선형 모델을 적절하게 평가하려면 예측 값과 비교하여 데이터의 변동성에 대한 통찰력을 제공하는 잔차 표준 오차(잔차의 표준 편차)와 같은 여러 도구 및 요인을 고려하십시오. 또한 선형 피팅에 대한 t 통계와 고차원 모델에서 모든 회귀 계수가 0이라는 귀무 가설을 테스트하기 위한 f 통계를 사용하여 회귀의 유의 수준을 검사할 수 있습니다.

모델을 평가할 때 R-제곱에만 의존하지 않고 다른 메트릭 및 분석과 함께 고려하는 것이 중요합니다.

R^2: the Coefficient of Determination
R^2: the Coefficient of Determination
  • 2021.10.20
  • www.youtube.com
Let's get to know R^2, the coefficient of determination, which measures the spread of observations about a regression line or other statistical model.If this...
 

R의 카이제곱 계산


R의 카이제곱 계산

오늘 우리는 R에서 몇 가지 카이 제곱 계산을 수행할 것입니다. 카이 제곱 테스트는 적합도 테스트 및 분산과 관련된 가설 테스트와 같은 다양한 목적을 위해 추론 통계에서 일반적으로 사용됩니다. 카이 제곱은 오른쪽으로 치우친 연속 확률 변수입니다. 기대값은 "r"로 표시되고 분산은 2r입니다. 대부분의 응용 프로그램에서 r은 양의 정수이지만 정수가 아닐 수도 있습니다.

r의 값이 증가함에 따라 카이제곱 분포의 확률밀도함수(PDF)는 오른쪽으로 이동하고 중심 극한 정리로 인해 종형 곡선을 닮기 시작합니다. 매개변수 r은 카이 제곱 분포의 자유도 수로 알려져 있습니다.

R에는 카이제곱 분포를 계산하기 위한 네 가지 기본 함수가 있습니다.

  1. rchisq(r, n): 이 함수는 자유도가 r인 카이 제곱 분포에서 n개의 임의 값을 생성합니다. 예를 들어, rchisq(5, 16)은 자유도가 5인 카이제곱에서 16개의 임의 값을 생성합니다.

  2. pchisq(x, r): 자유도가 r인 카이 제곱 분포에 대한 누적 분포 함수(CDF)입니다. 해당 분포에서 x보다 작거나 같은 값을 무작위로 얻을 확률을 반환합니다. 예를 들어, pchisq(8, 5)는 자유도가 5인 카이제곱에서 8보다 작거나 같은 값을 얻을 확률을 제공하며, 이는 약 0.844입니다.

  3. qchisq(p, r): 자유도가 r인 카이 제곱 분포에 대한 역 CDF입니다. x보다 작거나 같은 값을 얻을 확률이 p와 같은 x 값을 반환합니다. 예를 들어 qchisq(0.5, 12)는 자유도가 12인 카이제곱의 중앙값을 제공하며 이는 약 0.5입니다.

  4. dchisq(x, r): 이 함수는 x에서 자유도가 r인 카이 제곱 분포의 확률 밀도 함수(PDF) 값을 제공합니다. PDF는 이론적으로 중요하지만 수치 계산에는 덜 일반적으로 사용됩니다.

이제 다음 함수를 사용하여 몇 가지 샘플 문제를 해결해 보겠습니다.

문제 1: 자유도가 15인 카이제곱에서 12와 18 사이의 x 값을 무작위로 얻을 확률을 계산합니다.

prob <- pchisq ( 18 , 15 ) - pchisq ( 12 , 15 )

확률은 약 0.4163입니다.

문제 2: 자유도가 20인 카이 제곱에서 무작위 추출이 x보다 클 확률이 80%라고 가정할 때 x의 값을 찾으십시오.

x <- qchisq ( 0.2 , 20 )

x 값은 약 14.57844입니다.

문제 3: 자유도가 4인 카이 제곱 분포에서 10,000개의 그림을 시뮬레이션하고 결과의 히스토그램을 생성합니다.

x <- rchisq ( 4 , 10000 )
library ( ggplot2 )
qplot ( x , geom = "histogram" , col = I ( "black" ) )

이렇게 하면 시뮬레이션된 값의 히스토그램이 생성됩니다.

이것이 R에서 카이제곱 계산을 이해하고 적용하는 데 도움이 되기를 바랍니다.

Chi-Squared Calculations in R
Chi-Squared Calculations in R
  • 2020.10.15
  • www.youtube.com
In the vid, I cover the functions pchisq(), qchisq(), rchisq(), and dchisq(). If this vid helps you, please help me a tiny bit by mashing that 'like' button....
 

카이제곱 분포 이해


카이제곱 분포 이해

오늘은 데이터 과학 여정에서 통계적 추론을 공부하면서 접하게 될 기본 개념인 카이 제곱 분포에 대해 논의할 것입니다. 카이 제곱 분포는 일련의 독립적인 수치 관측값이 예상 값에서 얼마나 벗어나는지 측정하려는 경우에 발생합니다.

이를 보다 공식적으로 설명하기 위해 관찰에서 예상 값을 빼고 이를 표준 편차로 나누어 각 관찰에 대한 z-점수를 계산합니다. 이러한 각 z 점수를 제곱하고 합산한 후 카이 제곱 확률 변수를 얻습니다. 이 변수는 예상 값에서 관측치의 전체 편차를 정량화합니다.

예를 들어 모든 관측치가 예상 값과 완벽하게 일치하는 경우 카이 제곱 통계는 0이 됩니다. 결과가 예상 값에서 더 멀어질수록 카이 제곱 값이 증가합니다. z 점수를 제곱하여 낮은 편차와 높은 편차가 서로 상쇄되지 않도록 합니다.

자유도가 r인 카이 제곱 분포는 이 임의 변수의 샘플링 분포를 나타냅니다. 자유도(r)는 독립 관측치 또는 z 점수의 수에 해당합니다. 랜덤 변수는 분포와 동일한 이름을 공유하지만 일반적으로 컨텍스트에서 이들을 구별합니다.

각 z 점수는 연속 무작위 변수이므로 제곱의 합은 카이 제곱 분포를 따릅니다. 카이 제곱 분포의 확률 밀도 함수는 음수가 아닌 카이 제곱 값에 대해서만 양수입니다. 개별 z-점수의 매우 높은 값이 점점 줄어들기 때문에 분포가 오른쪽으로 치우쳐 있습니다.

자유도가 5인 카이 제곱 분포의 일반적인 그래프는 이러한 강한 오른쪽 왜곡을 보여줍니다. 지원(가능한 결과 집합)은 엄격하게 긍정적인 값으로 구성됩니다. 기억해야 할 두 가지 중요한 사실은 자유도가 r인 카이 제곱 분포의 기대값이 r과 같다는 것과 분포의 정점이 R-2에서 발생한다는 것입니다. ).

자유도가 커질수록 카이제곱분포는 중심극한정리에 따라 정규분포에 가까워진다. 이 근사치는 R이 50인 카이 제곱 분포를 보여주는 스케치에서 관찰할 수 있으며 여전히 약간 오른쪽으로 기울어져 있습니다.

카이 제곱 분포는 초기 슬라이드에서 알 수 있듯이 추론 통계에 자주 사용됩니다. 일부 일반적인 응용 프로그램에는 정규 분포를 가정한 분산에 대한 유의성 테스트, 범주형 변수에 대한 적합도 테스트 및 독립성을 위한 카이제곱 테스트가 포함됩니다.

카이 제곱 분포에서 확률을 계산하려면 누적 분포 함수(CDF)를 사용할 수 있습니다. F(x)로 표시되는 CDF는 지정된 카이 제곱 분포에서 x보다 작거나 같은 값을 얻을 확률을 제공합니다. 이는 음영 영역이 확률을 나타내는 시각적 표현으로 더 잘 이해할 수 있습니다.

R에서는 관심 값과 자유도를 지정하여 pchisq() 명령을 사용하여 카이제곱 계산을 수행할 수 있습니다. 예를 들어 자유도가 5인 카이 제곱 분포에서 8보다 작거나 같은 값을 얻을 확률을 계산하려면 pchisq(8, 5)를 사용하여 약 0.843이 됩니다.

R의 카이 제곱 분포와 관련된 더 자세한 내용이나 계산에 관심이 있는 경우 이러한 주제를 다루는 특정 비디오가 있습니다. 더 자세한 설명을 보려면 자유롭게 확인하십시오.

Understanding the chi-squared distribution
Understanding the chi-squared distribution
  • 2022.12.07
  • www.youtube.com
In absolute terms, just how far are your results from their expected values?If this vid helps you, please help me a tiny bit by mashing that 'like' button. F...
 

적합도 테스트


적합도 테스트

안녕하세요 여러분, 오늘 우리는 카이 제곱 분포를 사용한 적합도 테스트에 대해 논의할 것입니다. 대규모 대학의 통계 수업을 듣는 대학생의 연도와 같은 범주형 변수가 있고 특정 분포를 따른다고 가정합니다. 신입생 50%, 2학년 30%, 3학년 10%, 4학년 10%입니다. 이 분포가 샘플 데이터에 맞는지 어떻게 테스트할 수 있습니까?

먼저 귀무가설과 대립가설을 설정해 보겠습니다. 귀무 가설은 통계 수업의 모든 학생 모집단이 주장된 분포(50% 신입생, 30% 2학년 등)를 따르는 반면 대립 가설은 다른 분포를 가정한다는 것입니다. 이러한 가설을 테스트하기 위해 샘플 데이터에서 관찰된 카운트를 귀무 가설 하의 예상 카운트와 비교합니다.

관측된 카운트를 'o'로 표시하고 예상 카운트를 'e'로 표시합시다. (o - e)^2 / e의 합인 카이 제곱이라는 테스트 통계를 계산합니다. 귀무 가설이 참인 경우 이 검정 통계량은 자유도가 k - 1인 카이 제곱 분포를 따릅니다. 여기서 k는 범주 수입니다.

우리의 경우 범주가 4개이므로 자유도가 3인 카이제곱 분포를 사용합니다. 더 큰 검정 통계량은 표본 데이터가 귀무 가설과 덜 적합하다는 것을 나타내며 적합도가 더 낮다는 것을 나타냅니다.

유의성 테스트를 수행하고 카이제곱을 계산하려면 귀무 가설 하에서 예상 카운트를 계산해야 합니다. 샘플 크기가 65인 경우 백분율에 65를 곱하여 32.5, 19.5, 6.5 및 6.5의 예상 카운트를 얻습니다.

다음으로 각 셀의 관측된 카운트에서 예상 카운트를 빼고 결과를 제곱한 후 예상 카운트로 나눈 다음 모든 범주에서 이 값을 합산하여 카이 제곱 검정 통계량을 계산합니다. 우리의 경우 검정 통계량은 3.58입니다.

관측된 카이 제곱 통계보다 크거나 같은 값을 얻을 확률을 찾기 위해 p 카이 제곱 명령으로 표시되는 R의 누적 분포 함수를 사용합니다. 하나에서 결과를 빼면 p-값이 됩니다. 이 예에서 p-값은 약 0.31로, 데이터가 귀무 가설에 반하는 강력한 증거를 제공하지 않는다는 것을 나타냅니다.

큰 p-값이 귀무 가설을 증명하지 않는다는 점에 유의해야 합니다. 그것은 단순히 그것에 대한 증거가 부족함을 암시합니다. 마지막으로 카이제곱 적합도 테스트를 사용하는 것이 적절한 경우를 고려해야 합니다. 첫째, 범주형 변수에 적용됩니다. 양적 변수가 있는 경우 범주화하여 범주형 변수로 변환할 수 있습니다. 또한 데이터는 단순 무작위 샘플링을 통해 얻어야 하며 예상되는 셀 수는 일반적으로 최소 5개 이상이어야 합니다. 많은 빈이 거의 비어 있는 경우 특정 상황에서 Fisher의 정확 검정과 같은 대체 방법이 더 적절할 수 있습니다.

앞에서 언급한 고려 사항 외에도 카이 제곱 적합도 검정을 사용할지 여부를 결정할 때 염두에 두어야 할 몇 가지 사항이 더 있습니다. 여기에는 다음이 포함됩니다.

  1. 독립성: 각 범주 내의 관측치는 서로 독립적이어야 합니다. 이 가정은 테스트의 유효성에 중요합니다. 관찰이 독립적이지 않은 경우 대체 통계 테스트가 더 적합할 수 있습니다.

  2. 샘플 크기: 고정된 규칙은 없지만 샘플 크기가 클수록 더 신뢰할 수 있는 결과를 제공하는 경향이 있습니다. 더 큰 표본을 사용하면 예상 분포에서 조금만 벗어나도 통계적으로 유의미한 결과가 나올 수 있습니다. 그러나 샘플 크기가 매우 크면 예상 분포에서 약간의 편차가 있더라도 때때로 유의미한 결과가 나올 수 있으므로 실질적인 중요성도 고려해야 합니다.

  3. 모수 추정: 어떤 경우에는 각 범주에 대한 예상 카운트가 정확하게 알려지지 않았지만 데이터에서 추정됩니다. 가설 검정에 사용된 동일한 데이터에서 매개변수를 추정할 때 편향된 결과가 나올 수 있습니다. 이러한 상황에서는 조정 또는 대체 방법을 고려해야 합니다.

  4. 수준이 여러 개인 범주형 변수: 지금까지 논의한 카이 제곱 적합도 테스트는 단일 범주 변수의 특정 분포에 대한 적합도를 테스트할 때 적합합니다. 그러나 범주형 변수가 여러 개 있고 결합 분포를 조사하려는 경우 카이제곱 독립성 검정 또는 로그 선형 모델과 같은 다른 검정이 더 적합할 수 있습니다.

카이 제곱 적합도 테스트는 관찰된 데이터가 예상 분포를 따르는지 여부를 검사하는 데 유용한 도구라는 점은 주목할 가치가 있습니다. 그러나 불일치의 원인에 대한 정보를 제공하거나 차이에 가장 많이 기여하는 특정 범주를 식별하지는 않습니다.

모든 통계 테스트와 마찬가지로 결과 해석은 컨텍스트, 배경 지식 및 분석의 특정 목적을 고려해야 합니다. 테스트의 한계와 가정을 이해하고 테스트 결과에만 의존하기보다는 포괄적인 분석의 일부로 사용하는 것이 중요합니다.

요약하면, 카이 제곱 적합도 검정은 관찰된 데이터와 범주형 변수의 예상 분포 사이의 적합도를 평가하는 유용한 방법입니다. 관찰 및 기대 카운트를 비교하고 검정 통계량을 계산하고 p-값을 결정함으로써 데이터와 귀무 가설의 적합성을 평가할 수 있습니다. 그러나 주어진 상황에서 테스트의 타당성과 관련성을 보장하기 위해 가정, 샘플 크기 및 기타 요인을 고려하는 것이 중요합니다.

Goodness-of-Fit Testing
Goodness-of-Fit Testing
  • 2020.11.10
  • www.youtube.com
Let's use the chi-squared distribution to test goodness of fit for categorical data. Yessss! If this vid helps you, please help me a tiny bit by mashing that...
사유: