프로그래밍 자습서 - 페이지 16

 

가설 검정: 예


가설 검정: 예

오늘은 평균에 대한 가설 검정의 예를 살펴보겠습니다. 구체적인 예를 살펴보기 전에 일반적인 절차를 검토해 보겠습니다. 항상 가설을 설정하는 것으로 시작합니다. 여기에는 우리가 반대하는 증거를 수집하려는 아이디어를 나타내는 귀무가설과 우리가 지지하고자 하는 대립가설이 포함됩니다. 귀무 가설이 참이라고 가정하고 이 가정 하에서 가능한 모든 표본 평균 중 표본 평균(X 막대)이 어디에 속하는지 조사합니다.

이를 위해 귀무 가설의 맥락에서 결과의 편차를 측정하는 z-점수를 계산합니다. 모집단 평균(μ)이 특정 값보다 작거나 큰지 검정하는 단측 대립 가설의 경우, 우리가 얻은 것보다 작거나 같은 z-점수를 얻을 확률을 계산합니다. 양면 대립 가설의 경우 확률을 계산한 다음 적절하게 두 배로 늘립니다.

가장 공식적인 표현에서 우리는 얻은 z-점수의 음의 절대값보다 작거나 같은 z-점수를 얻을 확률을 찾습니다. 누적 분포 함수를 사용하여 왼쪽 꼬리와 오른쪽 꼬리를 모두 설명합니다. p-값이 있으면 선택한 유의 수준(알파)과 비교합니다. p-값이 알파보다 작으면 귀무가설을 기각하고 대립가설이 지지된다고 결론을 내립니다.

이제 이것을 실제 예제에 적용해 보겠습니다. 소비자 옹호 단체는 정제당 평균 1000밀리그램의 비타민 C가 있다고 주장하는 유기농 보충제의 비타민 C 함량을 테스트합니다. 샘플 크기가 32인 경우 샘플 평균은 1008.9밀리그램입니다. 모집단 표준 편차(σ)는 21밀리그램으로 표시됩니다. 우리의 임무는 제품의 주장을 거부할 충분한 증거가 있는지 확인하는 것입니다. 유의 수준(알파)은 0.05로 설정됩니다.

일반적인 절차에 따라 가설을 설정하는 것으로 시작합니다. 귀무 가설은 평균 비타민 C 함량이 1000mg이라는 제품의 주장이 사실이라는 것이고, 대립 가설은 실제 평균이 1000mg과 다르다는 것입니다. 1000보다 작거나 큰 값만 고려하라는 특정 표시가 없으므로 양측 대립 가설을 선택합니다.

다음으로 (샘플 평균 - 예상 값) / (샘플 평균의 표준 편차) 공식을 사용하여 z-점수를 계산합니다. 귀무 가설을 가정하고 평균값 1000mg을 사용하고 샘플 평균의 표준 편차를 σ / √n으로 계산합니다. 여기서 n은 샘플 크기입니다. 결과적으로 z-점수는 2.39로 나타났으며, 이는 표본 평균 1008.9밀리그램이 귀무 가설 하에서 예상 평균에서 2.39 표준 편차를 벗어남을 나타냅니다.

p-값을 결정하려면 우리가 가지고 있는 것만큼 극단적인 z-점수(양수 또는 음수)를 얻을 확률을 찾아야 합니다. 이 경우 P(Z ≤ -2.39)를 계산하면 0.0084가 됩니다. 이것은 양측 검정이므로 0.0168을 얻을 확률을 두 배로 늘립니다.

p-값을 유의 수준과 비교하면 0.0168이 실제로 0.05보다 작다는 것을 알 수 있습니다. 따라서 귀무 가설을 기각하고 보충제에 평균 1000mg의 비타민 C가 포함되어 있지 않다는 결론을 내릴 충분한 증거가 있습니다.

Hypothesis Testing: Example
Hypothesis Testing: Example
  • 2020.03.25
  • www.youtube.com
Another example of a two-sided hypothesis test for the mean when the population standard deviation is known. If this vid helps you, please help me a tiny bit...
 

유의성 테스트의 유형 I 및 유형 II 오류


유의성 테스트의 유형 I 및 유형 II 오류

오늘은 유의성 테스트가 계획대로 진행되지 않는 상황에 대해 논의하겠습니다. 단 3분 안에 모든 것을 다루겠습니다. 의 시작하자.

가설 테스트에서 우리는 H naught(귀무 가설)에 대해 두 가지 가능한 상태를 접하게 됩니다. 그것은 참 또는 거짓일 수 있습니다. 테스트가 끝나면 H naught를 거부하거나 거부하지 않는 두 가지 잠재적 결정이 있습니다. 이것은 우리에게 총 네 가지 가능한 결과를 제공합니다. 이 두 결정의 조합을 검토할 수 있습니다. 저는 이러한 결과를 요약한 표를 가지고 있고 그 중 두 가지가 우리에게 만족감을 줍니다. H naught가 거짓일 때 거부하고 H naught가 참일 때 거부하지 않습니다. 그러나 바람직하지 않은 두 가지 상황이 있습니다.

이 주제를 탐구할 때 처음에는 H naught가 참인지 거짓인지에 대한 사전 정보가 일반적으로 없다는 점에 유의하는 것이 중요합니다. 그러한 정보를 얻는다면 일반적으로 훨씬 나중에 나옵니다. 이제 두 가지 바람직하지 않은 결과에 대해 논의해 봅시다. 첫 번째 오류는 유형 1 오류 또는 가양성이라고 합니다. 이는 귀무가설이 사실임에도 불구하고 기각할 때 발생합니다. 임의의 이벤트가 발생할 때 발생하며 이를 중요한 것으로 잘못 해석합니다. 두 번째 상황은 유형 2 오류 또는 위음성입니다. 이는 귀무가설이 실제로는 거짓임에도 불구하고 귀무가설을 기각하지 못할 때 발생합니다. 이 경우 중요한 일이 발생하지만 테스트에서 이를 감지하지 못합니다.

"위양성" 및 "위음성"이라는 용어는 논리적 프레임워크가 유의성 테스트와 유사한 의료 테스트에서 유래되었습니다. 의료 테스트에서 질병에 대한 테스트를 할 수 있으며 테스트는 질병의 존재 또는 부재를 나타낼 수 있습니다. 전체 유형 1 및 유형 2 오류는 제공된 표에 요약되어 있으며 확인 표시로 원하는 결과를 강조 표시합니다.

몇 가지 예를 빠르게 살펴보겠습니다. 초콜릿 바 제조업체가 평균적으로 초콜릿 바의 무게가 350그램이라고 주장한다고 가정합니다. 나는 그들이 과대평가하고 있는 것 같아서 샘플을 수집하고 p-값 0.0089로 그들의 주장을 거부합니다. 그러나 제조업체의 주장이 실제로 사실이고 막대의 평균 무게가 350g이라면 나는 유형 1 오류 또는 거짓 양성을 범했을 것입니다.

여기 또 다른 예가 있습니다. 레스토랑은 샌드위치 중 하나의 평균 나트륨 함량이 920밀리그램이라고 주장합니다. 샘플을 분석했지만 알파 수준이 0.01인 주장을 거부할 증거가 불충분함을 발견했습니다. 식당의 주장이 거짓이었다면 평균 나트륨 함량이 실제로 950밀리그램이라고 가정해 봅시다. 저는 주장을 거부하지 않음으로써 제2종 오류를 범했을 것입니다.

Type I and Type II Errors in Significance Tests
Type I and Type II Errors in Significance Tests
  • 2020.03.28
  • www.youtube.com
When hypothesis testing goes wrong, explained in under three minutes.
 

임계 영역을 사용한 가설 테스트


임계 영역을 사용한 가설 테스트

안녕하세요 여러분, 오늘은 임계 영역을 사용한 가설 검정에 대해 논의할 것입니다. 이 접근 방식은 구식으로 간주될 수 있지만 우리가 다룰 이론과 여전히 관련이 있습니다. 따라서 기본적으로 이해하는 것이 좋습니다.

과거에는 p-값을 계산하는 것이 오늘날보다 더 어려웠습니다. 정확도가 제한적이고 항목이 유한한 정규 분포와 같은 계산을 위해 테이블에 의존하는 것이 포함되었습니다. 이러한 계산의 필요성을 최소화하기 위해 임계 영역 또는 거부 영역의 개념이 일반적으로 사용되었습니다.

오늘날 가설 테스트를 위한 일반적인 프로세스에는 샘플 데이터를 기반으로 p-값을 계산하고 선택한 유의 수준(알파)과 비교하는 작업이 포함됩니다. 그러나 중요한 영역에서는 이 프로세스를 반대로 합니다. Z-star 또는 T-star로 표시되는 테스트 통계의 컷오프 값을 정의하는 유의 수준(알파)을 선택하여 시작합니다. 샘플 데이터가 이 컷오프 값보다 더 극단적인 샘플 통계를 생성하면 귀무 가설을 기각하게 됩니다.

이를 설명하기 위해 예를 들어 보겠습니다. 양측 대립 가설이 있고 정규 분포와 알파의 유의 수준이 0.05인 테스트를 수행한다고 가정합니다. 이 경우 알파는 0.05와 같으며 분포에서 0.05의 음영 영역에 해당합니다(양쪽에 0.025). 역 법선 계산을 수행하면(R에서 명령 Q norm 사용) 임계값 Z-star가 1.96임을 알 수 있습니다. 따라서 표본 통계(Z-star)가 1.96(절대값)보다 크면 귀무가설을 기각해야 함을 나타냅니다.

또 다른 예로 자유도가 8인 t-분포와 단측 대안(오른쪽 대안)을 고려해 보겠습니다. 알파가 0.01임을 유의 수준으로 선택한다고 가정합니다. 이 경우 T-star의 오른쪽으로 0.01의 영역이 있고 왼쪽으로 0.99의 영역에 해당합니다. R의 값이 0.99와 8인 역 t CDF(QT 명령 사용)를 사용하면 T-star가 약 2.9임을 알 수 있습니다. 샘플의 t-통계량이 2.9보다 크면 음영 영역에 속하므로 귀무 가설을 기각합니다.

정규 분포의 경우 중요한 Z 값을 중요한 샘플 평균에 대한 설명으로 변환할 수 있습니다. 다음 예를 고려하십시오. 특정 브랜드의 콜라 캔 내용물은 표준 편차가 0.2온스인 정규 분포를 따릅니다. 크기 15의 표본을 사용하여 캔의 평균 내용물이 실제로 12온스 미만이라는 대립 가설에 대해 캔의 평균 내용물이 12온스라는 귀무 가설을 검정하려고 합니다. 단측 대안과 알파가 0.05인 경우 임계 Z 값은 -1.645입니다. 따라서 표본 평균(X-bar)이 평균보다 1.645 표준 편차 이상 낮으면 귀무 가설을 기각해야 합니다. 특히 표본 평균이 11.92온스 미만이면 귀무 가설을 기각합니다.

Hypothesis testing using critical regions
Hypothesis testing using critical regions
  • 2020.03.29
  • www.youtube.com
A formerly very practical idea, now mostly of theoretical interest. If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more ...
 

t-분포를 사용한 가설 테스트


t-분포를 사용한 가설 테스트

안녕하세요 여러분, 오늘은 t-분포를 이용한 가설 검정에 대해 논의하겠습니다. 이 시나리오에서는 모집단의 표준 편차를 알 수 없는 상황을 다루고 있습니다. 이전에는 모집단 표준 편차(시그마)를 알고 있다고 가정하고 Z 통계를 사용하여 가설 검정을 수행했습니다. 그러나 통계적 추론에서 목표는 샘플 정보를 사용하여 모집단에 대한 통찰력을 얻는 것이므로 Sigma를 모르는 것이 일반적입니다. 이러한 경우 표본 표준 편차를 사용하여 모집단 표준 편차를 추정하고 유사한 계산을 진행합니다.

시그마를 s로 바꾸면 식 (X-bar - mu)/(s/sqrt(n))이 더 이상 정규 분포를 따르지 않기 때문에 문제가 발생합니다. X-bar와 s는 각각의 새 샘플에 따라 달라지므로 분포가 자유도가 (n-1)인 t-분포를 따릅니다. 다행스럽게도 이 조정을 고려하면 계산은 대체로 동일하게 유지됩니다.

시그마가 알려지지 않은 경우 가설 검정을 수행하기 위해 귀무 가설과 대립 가설로 시작합니다. 귀무 가설이 참이라고 가정하고 실제 샘플 데이터에 대한 t-통계량을 계산합니다: (X-bar - mu_naught)/(s/sqrt(n)). 그런 다음 대체 가설을 기반으로 p-값을 계산합니다.

mu가 주어진 값보다 작다고 의심되는 왼쪽 대립 가설의 경우 귀무 가설이 참일 때 얻은 값보다 작거나 같은 t 값을 얻을 확률을 찾습니다. 이것은 첫 번째 그림의 음영 영역에 해당합니다.

유사하게, mu가 주어진 값보다 큰 우변 대립가설의 경우, 우리가 얻은 것보다 더 큰 t-값을 얻을 확률을 결정합니다. 이것은 t-값의 오른쪽 영역에 해당합니다.

양측 테스트의 경우 두 영역을 모두 고려합니다. 우리가 얻은 것보다 더 큰(절대값으로) t-값을 얻을 확률을 계산한 다음 두 배로 늘립니다.

p-값이 있으면 선택한 유의 수준(알파)과 비교하여 결정을 내립니다. p-값이 알파보다 작으면 귀무 가설을 기각합니다. 그러나 수동으로 계산을 수행할 때 샘플 데이터에서 t-값을 얻는 것은 까다로울 수 있습니다. 통계 소프트웨어 또는 계산기와 같은 기술을 활용하는 것이 좋습니다. 예를 들어 R에서 PT(t, n-1) 명령은 자유도가 (n-1)인 t-분포에서 주어진 t-값의 왼쪽 영역을 계산합니다.

이 과정을 보여주는 예를 살펴보겠습니다. 실험 중에 쥐 7마리의 체중이 감소했다고 가정합니다. 우리는 알파의 유의 수준이 0.05인 실험 동안 쥐가 체중이 줄었다는 결론을 내릴 충분한 증거가 있는지 확인하려고 합니다. 모집단 표준편차가 주어지지 않았기 때문에 우리는 t-테스트 상황을 다루고 있습니다.

테스트를 시작하기 위해 우리는 데이터가 임의의 우연에 의한 것이라고 가정하는 귀무가설과 쥐가 실험 중에 평균적으로 체중이 감소한다고 주장하는 대립가설을 설정했습니다. 이 경우 체중 증가보다는 체중 감소에 초점을 맞춘 단측 대립 가설을 선택합니다.

다음으로 표본 평균과 표본 표준 편차를 사용하여 t-통계량을 계산합니다. 얻어진 t-값으로 관측값보다 크거나 같은 t-값을 우연히 얻을 확률을 나타내는 p-값을 계산한다.

이 확률을 평가하기 위해 자유도가 (n-1)인 t-분포를 참조합니다. 1에서 왼쪽 영역을 빼서 t-값의 오른쪽 영역을 계산합니다. R에서는 PT 함수를 사용하여 이를 수행할 수 있습니다. p-값이 선택한 유의 수준(알파)보다 크면 귀무 가설을 기각하지 못합니다.

이 예에서 계산된 p-값은 0.059입니다. 0.059가 유의 수준 0.05보다 크므로 귀무 가설을 기각할 충분한 증거가 없습니다. 따라서 우리는 실험이 생쥐의 체중을 평균적으로 감소시킨다고 결론을 내릴 수 없습니다.

귀무가설을 기각하지 못했다고 해서 귀무가설이 참이라는 의미는 아닙니다. 그것은 단순히 증거가 대안 가설을 뒷받침할 만큼 충분히 강하지 않다는 것을 의미합니다.

요약하면, 가설 검정을 처리하고 모집단 표준 편차를 알 수 없는 경우 t-분포를 사용하고 표본 표준 편차를 사용하여 표준 편차를 추정할 수 있습니다. 그런 다음 t-통계량을 계산하고 대립가설을 기반으로 p-값을 계산하고 유의 수준과 비교하여 결정을 내립니다. 통계 소프트웨어나 표를 활용하면 계산을 단순화하고 더 정확한 결과를 얻을 수 있습니다.

Hypothesis Testing with the t-Distribution
Hypothesis Testing with the t-Distribution
  • 2020.04.04
  • www.youtube.com
How can we run a significance test when the population standard deviation is unknown? Simple: use the sample standard deviation as an estimate. If this vid h...
 

t-분포를 사용한 유의성 테스트: 예


t-분포를 사용한 유의성 테스트: 예

안녕하세요 여러분, 오늘 저는 t-분포를 사용하는 가설 검정의 또 다른 예를 안내해 드리고자 합니다. 이 예는 특정 잔디 종의 탄소 흡수율에 초점을 맞춥니다. 통상적인 통념에 따르면 평균 섭취율은 초당 제곱미터당 34.0마이크로몰입니다. 그러나 일단의 연구자들은 의문을 품고 있습니다. 그들은 연구를 수행하여 표본 평균 30.6과 표본 표준 편차 9.7을 얻었습니다. 이제 0.05의 유의 수준에서 이 데이터가 기존 통념에 반하는 강력한 증거를 제공하는지 확인하려고 합니다.

다른 유의성 테스트와 마찬가지로 가설을 명시적으로 설명하는 것으로 시작하겠습니다. 우리가 반박하고자 하는 귀무가설은 우리의 샘플 데이터가 단지 우연의 결과일 뿐이며 일반적인 통념이 사실이라고 가정합니다. 한편, 대립 가설은 진정한 평균 흡수율이 34.0보다 크거나 작을 가능성을 확립하려고 합니다. 이 경우 두 시나리오를 모두 포함하는 양측 대립 가설을 고려할 것입니다.

다음으로 귀무 가설 하에서 예상되는 것과 비교하여 샘플 평균(x-bar)이 얼마나 극단적인지 평가하려고 합니다. 검정 통계량(T)은 표본 평균에서 귀무 가설(mu-naught) 하의 예상 평균을 빼고 이를 표본 표준 편차(s)를 표본 크기(n)의 제곱근으로 나눈 값으로 나누어 계산합니다. 이 계산은 T = -2.27을 산출합니다.

무작위 확률만으로 -2.27만큼 극단적인 검정 통계량을 얻을 확률을 결정하려면 분포의 양쪽을 모두 고려해야 합니다. 테스트의 p-값을 제공하는 -2.27의 왼쪽과 오른쪽에 결합된 음영 영역을 계산합니다. R에서는 PT 명령을 사용하여 T가 -2.27보다 작을 확률을 나타내는 가장 왼쪽 영역을 계산할 수 있습니다. 그런 다음 분포의 양쪽을 설명하기 위해 이 영역을 두 배로 늘립니다.

샘플 크기 - 1(41)과 동일한 -2.27 및 자유도(df)로 R에서 PT 명령을 적용한 후 왼쪽 음영 영역이 0.029임을 알 수 있습니다. 이 값을 두 배로 하면 검정의 p-값에 해당하는 총 음영 영역이 됩니다.

계산된 p-값은 0.029로, 유의 수준(알파) 0.05보다 작습니다. 따라서 우리는 귀무가설을 기각하고 이 풀 종의 평균 이산화탄소 흡수율이 실제로 초당 제곱미터당 34.0마이크로몰이 아니라는 결론을 내립니다.

결론적으로, t-분포를 이용한 가설 검정을 통해 모집단 표준 편차를 알 수 없을 때 귀무 가설에 대한 증거의 강도를 평가할 수 있습니다. 검정 통계량을 계산하고 이를 임계값(유의 수준)과 비교하고 p-값을 계산하면 귀무 가설의 타당성에 대해 정보에 입각한 결정을 내릴 수 있습니다.

Significance Testing with the t-Distribution: Example
Significance Testing with the t-Distribution: Example
  • 2020.04.07
  • www.youtube.com
A two-sided test with unknown population standard deviation. If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more stats j...
 

R의 가설 테스트


R의 가설 테스트

여러분, 안녕하세요! 오늘은 t.test 명령을 사용하여 R에서 가설 테스트를 수행할 것입니다. 우리는 내장된 공기질 데이터 세트와 관련된 몇 가지 문제에 대해 작업할 것이며, 뉴욕시의 공기질 측정치의 단순 무작위 샘플로 간주할 것입니다.

R로 전환해 보겠습니다. 이미 tidyverse 패키지를 로드했습니다. 일반적으로 R 세션을 시작할 때 수행합니다. 공기질 데이터 세트에 대한 도움말 파일도 가져왔습니다. 이 데이터 세트는 1973년에 수집되었으므로 최신 데이터가 아닙니다. view 명령을 사용하여 데이터 세트를 살펴볼 수 있습니다. 그것은 우리가 관심을 갖는 두 가지 변수인 바람과 태양 복사를 포함한 6가지 변수에 대한 153개의 관측으로 구성됩니다.

통계 테스트를 수행하기 전에 데이터를 시각화하는 것이 좋습니다. 이제 qplot 명령을 사용하여 히스토그램을 만들어 봅시다. 바람 변수에 초점을 맞추고 히스토그램을 원한다고 지정합니다.

이제 문제 1로 넘어 갑시다. 한 관계자는 도시의 평균 풍속이 시속 9마일이라고 주장합니다. 데이터를 기반으로 이 주장이 타당한지 판단하고자 합니다. 평균 풍속이 시속 9마일이라는 귀무가설과 함께 t-검정을 사용합니다. 히스토그램을 보면 그럴듯해 보이지만 해당 값의 약간 오른쪽 중앙에 있습니다. t.test 명령을 사용하여 t-테스트를 수행합니다. 여기에 바람 변수를 전달하고 귀무가설을 mu = 9로 지정합니다. 기본적으로 R은 양측 대립가설을 가정합니다. t.test 명령은 샘플 평균, t-통계 및 p-값을 제공합니다. 표본 평균은 9.96이고 계산된 t-통계량은 3.36으로 p-값이 0.1 미만입니다. 이렇게 작은 p-값을 사용하면 이 데이터가 임의의 기회만으로 인해 귀무 가설에서 크게 벗어나는 것은 타당하지 않습니다. 따라서 귀무가설을 기각하고 뉴욕의 평균 풍속이 시속 9마일이 아니라는 결론을 내립니다.

문제 2로 이동하여 평균 일사량이 175랭글리 이상인 경우 특정 태양 전지판이 비용 효율적인지 여부를 평가하고자 합니다. 귀무가설은 평균 일사량이 175 랭글리이고 대립가설은 더 크다는 단측 대립가설을 사용합니다. 태양 복사 변수의 히스토그램을 생성하여 데이터를 시각화합니다. 다시 말하지만, 귀무 가설은 히스토그램을 기반으로 그럴듯해 보입니다. t.test 명령을 사용하여 t-검정을 수행하고 태양 복사 변수를 전달하고 귀무 가설을 mu = 175로 지정합니다. 또한 대안 = "더 큰" 인수를 사용하여 단측 대립 가설을 나타내야 합니다. . t.test 명령은 샘플 평균, t-통계 및 p-값을 제공합니다. 표본 평균은 185.9이고 계산된 t-통계량은 1.47이므로 p-값은 0.07입니다. p-값이 0.07인 경우 뉴욕의 평균 일사량이 175랭글리 이상이라는 주장을 뒷받침할 강력한 증거가 없습니다. 이는 태양 전지판 구입을 정당화하기 위한 임계값입니다. 따라서 결론 도출을 자제하고 정확한 평균 일사량을 평가하기 위한 추가 연구가 필요하다.

요약하면, t-테스트를 사용한 가설 검정을 통해 샘플 데이터를 기반으로 주장이나 가설의 타당성을 평가할 수 있습니다. 귀무가설과 대립가설을 지정하고 테스트를 수행하고 결과 p-값을 조사하여 가설을 수락하거나 거부하는 것에 대해 정보에 입각한 결정을 내릴 수 있습니다. 히스토그램 또는 기타 그래프를 통한 데이터 시각화는 분석 중에 추가 통찰력을 제공할 수 있습니다.

Hypothesis testing in R
Hypothesis testing in R
  • 2022.03.30
  • www.youtube.com
Hypothesis testing in R is easy with the t.test command!If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats joy,...
 

비율에 대한 가설 검정


비율에 대한 가설 검정

여러분, 안녕하세요! 오늘 우리는 가설 검정에 대한 탐구를 계속할 것이며 이번에는 비율에 초점을 맞출 것입니다. 관련된 주요 개념을 이해하기 위해 예제를 검토하여 이 주제에 접근할 것입니다.

바로 시작합시다. 해설자는 미국의 6세 어린이 중 30%가 아연 결핍증이 있다고 주장합니다. 샘플을 수집하고 α = 0.05의 유의 수준에서 가설 테스트를 수행하여 이 주장을 평가하려고 합니다. 추가 조사를 위해 우리는 6세 아동 36명을 조사하여 데이터를 수집하고 그 중 5명이 30% 미만의 아연 결핍을 가지고 있음을 발견했습니다. 그러나 이러한 차이가 무작위적인 우연에 기인한 것인지 판단할 필요가 있습니다. 우리의 주요 질문은 다음과 같습니다. 이와 같은 샘플을 얻을 가능성은 얼마나 됩니까?

이 문제를 해결하기 위해 우리가 얻은 표본 비율(P-hat)(36개 중 5개)을 귀무 가설에서 주장하는 비율과 비교합니다. 모집단 비율을 P₀ 또는 P-naught로 표시해 봅시다. 우리의 귀무 가설은 모집단 비율이 0.30(30%)이라고 가정합니다. 이 경우 대립 가설은 모집단 비율이 0.30이 아니라는 것입니다. 30%보다 크거나 작다고 가정할 특별한 이유가 없으므로 두 가지 가능성을 모두 고려합니다. 기본적으로 일방적 대안에 대한 타당한 이유가 없는 한 양면적 대안을 선택합니다.

우리가 계산한 표본 비율(P-hat)은 0.139로 30%보다 훨씬 낮습니다. 그러나이 차이가 통계적으로 유의미합니까? 이를 평가하기 위해 P-hat의 샘플링 분포를 분석합니다. 우리는 같은 크기의 샘플을 반복적으로 채취하고 매번 아연 결핍의 비율을 계산한다고 상상합니다. 샘플 크기(n)가 크다고 가정하면(n = 36인 경우) 샘플링 분포는 종 모양의 곡선을 갖게 됩니다. 중심과 확산을 결정할 수 있습니다. 표본 비율(P-hat)의 평균은 모집단 비율(P)과 같고 P-hat의 표준 편차는 P(1-P)/n의 제곱근이 됩니다. 더 자세한 설명이 필요하면 비율에 대한 신뢰 구간에 대한 내 비디오를 시청하는 것이 좋습니다.

이제 샘플링 분포가 평균과 표준편차가 알려진 종 모양의 곡선을 따른다는 것을 알았으므로 z-점수를 계산할 수 있습니다. 관측값(P-hat)과 기대값(P-naught)의 차이를 계산하고 이를 표준 편차로 나눕니다. 값(P-hat = 0.139, P-naught = 0.30, n = 36)을 연결하면 z-점수가 -2.11이 됩니다.

우리가 관찰한 것만큼 극단적인(또는 훨씬 더 극단적인) P-hat을 얻을 확률을 평가하기 위해 해당 z-점수를 조사합니다. 이 경우 -2.11보다 작거나 2.11보다 큰 z 점수를 얻을 확률에 관심이 있습니다. 표준 정규 분포의 누적 분포 함수(CDF)를 평가하여 이를 계산할 수 있습니다. 통계 소프트웨어 또는 웹 앱을 사용하여 -2.11 미만의 z 점수를 얻을 확률은 약 0.017입니다. 그러나 분포의 양쪽 꼬리를 고려하고 있으므로 이 값을 두 배로 늘려야 하므로 p-값은 약 0.035가 됩니다.

p-값을 선택한 유의 수준(α = 0.05)과 비교하면 p-값이 α보다 작음을 알 수 있습니다. 따라서 우리는 귀무가설을 기각하고 해설자의 주장이 거짓일 가능성이 높다고 결론을 내립니다. 미국에서 아연 결핍이 있는 6세 아동의 비율은 30%가 아닙니다.

샘플 크기 및 정규 근사치와 관련하여 염두에 두어야 할 몇 가지 경험 법칙이 있습니다. 정규 근사는 표본이 적어도 5번의 성공과 5번의 실패를 가질 때 잘 작동하는 경향이 있습니다. 수학적으로 말하면 이것은 표본 크기(n)와 표본 비율(P)의 곱이 5보다 크거나 같아야 하고 표본 크기(n)와 표본 비율의 여집합의 곱도 5보다 크거나 같아야 함을 의미합니다. (1-P)도 5보다 크거나 같아야 합니다.

우리의 경우 표본 크기는 36이고 표본 비율(P-hat)은 0.139로 정규 근사 조건을 충족합니다. 따라서 통계적 추론을 위해 정규 분포에 자신 있게 의존할 수 있습니다.

또한 일반적으로 샘플 크기가 클수록 정규 근사로 더 나은 결과를 얻는 경향이 있다는 점도 주목할 가치가 있습니다. 샘플 크기가 증가함에 따라 정규 분포는 P-hat의 샘플링 분포를 보다 정확하게 표현하게 됩니다.

따라서 요약하면 우리는 예제에서 36이라는 샘플 크기가 가설 검정에서 정규 근사를 활용하기에 충분히 크다는 결론을 내릴 수 있습니다.

이것이 정규 근사에서 샘플 크기의 역할을 명확히 하고 비율에 대한 가설 테스트 프로세스에 대한 포괄적인 설명을 제공하기를 바랍니다.

Hypothesis Testing for Proportions
Hypothesis Testing for Proportions
  • 2020.05.09
  • www.youtube.com
How should we run a hypothesis test when we have data involving percentages, proportions, or fractions? Using a normal approximation. of course, at least whe...
 

비율에 대한 가설 검정: 예


비율에 대한 가설 검정: 예

여러분, 안녕하세요! 오늘은 비율에 대한 가설 검정의 예를 살펴보겠습니다. 문제 속으로 들어가 봅시다. 한 대학은 학생의 65%가 4년 이내에 졸업한다고 주장합니다. 그러나 이 주장의 정확성에 대해서는 의문이 있다. 추가 조사를 위해 120명의 학생을 단순 무작위 표본으로 추출했는데 120명의 학생 중 68명만이 지정된 기간 내에 졸업한 것으로 나타났습니다. 이 비율은 주장된 65%보다 적기 때문에 대학의 주장에 반하는 증거를 제공합니다. 이제 문제는 이 증거가 그 주장이 있을 것 같지 않다는 것을 시사할 만큼 충분히 강력한지 또는 무작위적인 우연에 기인할 수 있는지 여부입니다. 이를 결정하기 위해 p-값을 계산하고 0.05의 유의 수준(α)을 사용하여 결정을 내립니다.

먼저, 귀무가설과 대립가설을 공식화해야 합니다. 귀무 가설은 결과가 순전히 무작위적인 우연에 의한 것이며 4년 이내에 졸업하는 학생의 실제 비율은 실제로 0.65라는 것입니다. 반면에 대립가설은 대학이 졸업률을 과대평가하고 있으며 인구 비율이 0.65 미만이라는 것을 시사합니다. 이 경우 졸업률이 65% 미만일 가능성에만 관심이 있으므로 단측 대립가설이 적절하다.

귀무가설이 참이라고 가정하면 표본 크기(n)가 충분히 클 때 비율(P-hat)의 표본 분포가 거의 정규분포가 된다는 중심 극한 정리를 적용할 수 있습니다. 이 분포의 평균은 모집단 평균(P)과 같고 표준 편차는 P 곱하기 1 빼기 P의 제곱근을 n으로 나눈 값입니다. 우리의 경우 귀무가설이 참이라고 가정했기 때문에 모집단 비율(P)은 0.65입니다.

이제 z-score를 계산하여 무작위 확률만으로 관찰된 비율만큼 극단적이거나 그보다 더 극단적인 결과를 얻을 확률을 결정해 보겠습니다. 값을 연결하면 -1.91의 z 점수를 찾을 수 있습니다. 관찰된 것보다 작거나 같은 비율을 얻을 가능성을 나타내는 이 z-점수와 관련된 확률을 찾기 위해 정규 누적 분포 함수(CDF)를 사용합니다. 이는 테이블, 웹 앱 또는 통계 소프트웨어와 같은 다양한 도구를 사용하여 수행할 수 있습니다. 예를 들어, R에서 "Pnorm(-1.91)" 명령은 0.028의 값을 산출합니다.

이 p-값을 유의 수준(α) 0.05와 비교하면 p-값이 α보다 작다는 것을 알 수 있습니다. 따라서 우리는 귀무가설을 기각하여 대학이 4년 졸업률을 과대평가하고 있다는 결론을 내리는 것이 타당함을 나타냅니다.

Hypothesis Testing for Proportions: Example
Hypothesis Testing for Proportions: Example
  • 2020.05.10
  • www.youtube.com
A complete example of a hypothesis test for a proportion using the normal approximation.
 

산점도 소개


산점도 소개

여러분, 안녕하세요! 오늘은 동시에 수집된 여러 변수가 포함된 데이터를 시각적으로 표시하는 산점도에 대해 자세히 알아보겠습니다. 산점도는 실제 데이터 수집 시나리오에서 자주 발생하므로 매우 중요합니다. 종종 우리는 하나 이상의 정보를 수집합니다. 예를 들어, 학생 그룹의 SAT 수학 및 언어 점수, 의학 연구에서 개인의 키와 몸무게, 다양한 자동차의 엔진 크기 및 연비 데이터가 있을 수 있습니다. 각각의 경우에 데이터는 쌍을 이룹니다. 즉, 한 변수의 각 값이 다른 변수의 특정 값에 대응하여 일대일 관계를 생성합니다. 이러한 쌍 데이터가 존재하면 산점도를 구성할 수 있습니다.

테이블을 사용하는 예를 살펴보겠습니다. 표의 각 열은 과학 또는 공학 분야를 나타내며 상단의 숫자는 2005년 해당 분야에서 여성에게 수여된 박사 학위 수를 나타내고 하단의 숫자는 같은 해 남성에게 수여된 박사 수를 나타냅니다. 여성의 박사 학위는 x 값으로, 남성 박사 학위는 y 값으로 표시되는 이 데이터를 플로팅하여 일련의 점을 얻습니다. 테이블의 두 번째 데이터 열에 해당하는 (2168, 2227)과 같은 일부 지점에 레이블이 지정됩니다. 2005년에 2168명의 박사 학위가 여성에게, 2227명이 남성에게 수여된 과학 분야를 나타냅니다.

산점도를 검토할 때 정성적으로 설명하는 것이 중요합니다. 이 예에서는 왼쪽에서 오른쪽으로 이동함에 따라 값이 증가하는 인스턴스가 있지만 데이터에서 일반적인 하향 추세를 관찰합니다. 전반적으로 데이터의 모양은 아래쪽으로 기울어지는 경향이 있으며 이는 두 변수 간의 음의 연관성을 나타냅니다. 그러나 연관성이 선형이 아닌 한 "음의 상관관계"라는 용어를 사용하지 않는 것이 중요합니다. 즉, 그래프가 직선을 따른다는 의미입니다. 이 경우 데이터는 선형 관계를 나타내지 않습니다.

이 플롯의 또 다른 주목할만한 측면은 오른쪽 상단 모서리에 있는 이상값입니다. 이상값은 데이터 입력 오류, 분석에 영향을 미치는 비정상적인 사례 또는 추가 조사가 필요한 흥미로운 현상과 같은 다양한 범주로 분류될 수 있습니다. 마지막으로 어떤 변수를 가로축에, 어떤 변수를 세로축에 둘 것인지를 고려하는 것이 중요합니다. 하나의 변수가 연구에서 자연스럽게 다른 변수를 설명하거나 영향을 미치면 설명 변수로 가로축에 배치해야 합니다. 반대로 설명되거나 영향을 받는 변수는 응답 변수로 세로축에 있어야 합니다. 예를 들어, 연비의 예에서 연비는 엔진 크기(배기량)로 설명되는 것으로 보는 것이 타당하므로 연비를 세로축에 배치합니다. 그러나 이 선택에는 약간의 주관성이 포함될 수 있으며 연구의 맥락에 따라 역할이 뒤바뀐 시나리오가 있을 수 있습니다.

Introduction to Scatterplots
Introduction to Scatterplots
  • 2020.04.11
  • www.youtube.com
What is a scatterplot? How do we construct them? How do we describe them? If this vid helps you, please help me a tiny bit by mashing that 'like' button. For...
 

산점도 및 상관관계


산점도 및 상관관계

여러분, 안녕하세요! 오늘은 상관관계에 대한 간략한 소개를 하겠습니다. 이 주제를 단 3분만에 다룰 것입니다. 시작하자!

산점도를 검토할 때 때때로 데이터가 대략 직선을 따르는 선형 관계를 관찰합니다. 이러한 경우 변수 간의 상관 관계를 논의할 수 있습니다. 그러나 변수가 선형 관계가 아닌 다른 관계를 가질 때 "상관 관계"라는 용어를 사용하려는 유혹에 저항하는 것이 중요합니다. 상관 관계는 약하거나 강할 수 있으며 양수 또는 음수일 수 있습니다.

양의 상관관계는 그래프에서 왼쪽에서 오른쪽으로 이동할 때 데이터 포인트의 일반적인 모양이 위로 기울어진다는 것을 나타냅니다. 반대로, 음의 상관관계는 데이터 포인트의 일반적인 모양이 왼쪽에서 오른쪽으로 읽을 때 내려간다는 것을 의미합니다. 더 강한 상관관계는 상상한 선 주위에 더 밀접하게 클러스터링된 데이터 포인트를 특징으로 하는 반면, 약한 상관관계는 더 많은 데이터 포인트가 흩어져 있음을 나타냅니다.

상관 관계를 정량화하기 위해 상관 계수(종종 "r"로 표시됨)라는 통계를 사용합니다. 범위는 -1에서 1 사이입니다. 값이 0에 가까울수록 데이터가 더 흐리거나 분산되어 있음을 나타냅니다. 제공된 예에서 0.4 또는 -0.4의 상관관계는 중간 정도의 상관관계를 나타내고 0.9 또는 -0.9는 더 강한 상관관계를 나타냅니다. 1 또는 -1의 상관관계는 완벽한 선형 관계를 나타내며 모든 데이터 포인트가 정확하게 선상에 있습니다.

상관 계수 "r"을 선의 기울기와 혼동해서는 안 된다는 점에 유의하는 것이 중요합니다. "r"의 부호는 기울기가 양수인지 음수인지를 나타내지만 "r" 자체가 기울기를 구체적으로 나타내는 것은 아닙니다. 대신, 상관 계수는 데이터가 데이터 중심을 통과하는 것으로 상상되는 선에서 데이터가 얼마나 퍼져 있는지를 반영합니다.

변수가 선형 관계를 나타내지 않는 경우 상관관계가 없다고 합니다. 이러한 경우 상관 계수를 해석할 때 주의하십시오. 포물선 모양에서와 같이 변수 간에 명확한 연관성이 있더라도 상관 관계를 계산하면 0에 가까운 값이 생성됩니다.

이제 컴퓨팅 상관 관계에 대해 논의하겠습니다. 즉, 수동으로 계산하는 것은 권장하지 않습니다. 다행히 소프트웨어 패키지와 같은 도구가 있어 도움이 됩니다. 예를 들어 R에서 명령은 "cor"입니다. X 및 Y 값(상관하려는 두 변수)을 제공하면 즉시 상관 계수를 얻을 수 있습니다. 주어진 테이블에서 첫 번째 행을 X로 지정하고 두 번째 행을 Y로 지정하면 "cor(X, Y)" 명령을 사용하여 상관 관계 값을 얻을 수 있습니다. 이 예에서 우리는 0.787의 상관관계를 얻습니다. 이는 적당한 양의 상관관계를 나타냅니다.

Scatterplots and Correlation
Scatterplots and Correlation
  • 2020.04.14
  • www.youtube.com
Let's talk about relationships between quantitative variables!If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstat...