[통계/세션] 세션 2회차 - 신뢰구간 | 정규분포 | 가설검정 | t분포 | t검정

실제로 데이터분석가로 일을 할 때, 분석과정에서 통계 내용은 필요하게 된다. 
통계에 대한 머리가 비어 있으면?? 곤란곤란...😅
🎯 핵심 키워드 : 신뢰구간 / 정규분포 / 가설검정 : t-검정 / 귀무가설 대립가설/ 정규성 등분산성 ...

신뢰구간

: 구간추정에서 나오는 개념!

모집단의 평균(또는 비율)이 포함될지 예상되는 값의 범위

예) 95%의 신뢰수준에서 택배가 도착하는 데 걸리는 시간은 1~1.5일입니다.
→ 해석: 95% 확률로 택배가 도착하는 데 1 ~ 1.5일 걸린다
▶ 신뢰구간 : 1 ~ 1.5일 ( 1.25 ± 0.25 일)   |    점추정치 : 1.25, 오차범위: 0.25
▶ 신뢰수준 : 95%

 그래프로 이해하기


정규분포 (종모양)

: 평균에서 확률이 가장 솟아오르고, 평균을 중심으로 멀어지면 확률이 낮아진다.

특징

  1. 좌우 대칭 : 평균 = 중앙값 = 최빈값
  2. 신뢰구간 :
    • ±1σ 범위 → 약 68% 확률
    • ±2σ 범위 → 약 95.5% 확률
    • ±3σ 범위 → 약 99.7% 확률
  3. 더하기, 빼기, 나누기를 해도 여전히 정규분포 유지 → 표준화가 가능한 이유

🔍 표준화 : 분포의 평균과 분산 값을 0과 1로 통일하는 작업

▼ 표준화 예시로 이해하기

더보기

➡️ 점수는 영어가 더 높으나, 표준화 점수로 따져봤을 때 : 결국 수학 점수가 더 가치(?)가 높다!!


t-분포

모집단의 표준편차 σ를 모를 때 사용한다. 대신 표본의 표준편차 s 를 추정해서 사용하는 분포

특징 :

  1. 정규분포보다 꼬리가 두껍다!
  2. 특히 표본 수가 적을 때(n<30) 사용
  3. 자유도(df)가 커질수록 t 값은 작아짐 = t-분포는 Z 분포에 가까워진다!
    • 표본의 개수가 많아질수록, 표본 표준편차 s 가 모집단 표준편차 σ에 더 가까워짐
    • 추정의 불확실성이 줄어들면서 t-분포의 꼬리도 얇아지며 정규분포와 유사해짐

 

※ 참고1 : Z-분포 vs t-분포

  • Z-분포 (=표준 정규분포) 기반 신뢰구간 : 모집단의 표준편차를 알고 있을 때
  • t-분포 기반 신뢰구간 : 모집단의 표준편차를 모를 때

 참고2 : 카이제곱 분포 vs F 분포

  • 카이제곱 분포 : 정규분포를 따르는 독립 확률변수들의 제곱합 으로 만들어지는 분포
  • F 분포 : 두 개의 카이제곱 분포 확률변수 비율로 정의되는 분포

가설검정

가설검정이란 관찰된 효과가 우연에 의한 것인지 여부를 판단하는 과정!!!

✅ 기본 순서 : 

  1. 가설 설정 - 귀무가설과 대립가설 각각 설정
  2. 가설에 적합한 검정 방법 선택
  3. 유의수준 설정 (임계치? 기준치?를 설정)
  4. 검정방법에 따라서 표본의 검정통계량과 p-value 계산
  5. 유의수준과 p-value를 비교하여 귀무가설의 기각여부 결정

🔍 주요 개념 :

  • 귀무가설(H0) : 나는 범인이 아니야! (밝히고자 하는 가설을 부정)
  • 대립가설(H1) : 너는 범인이 맞아! (밝히고 싶은 가설)
  • 검정통계량 : 분포 그림에서 x축, 거기에 나타내는 숫자 (= Z-score ? :수학 0.72, 영어 0.37)
  • 유의수준 α : 귀무가설(H0)이 일어나기 쉬운지, 어려운지 구분하는 기준 (: p-value와 크기 비교)
  • p-value : 검정통계량(x축)에서의 확률(y축) 작을수록 일어나기 힘든일 / 높을수록 일어나기 쉬운일
  • p-value < 0.05 → H0 기각 (차이 유의함) : 대립가설(H1)이 유의미하다!

▼ 참고 : 가설검정의 종류


t-검정

1개 또는 2개의 집단 간 평균 차이를 비교하는 검정 방법. 정규분포를 가정.

⭐️ 전제:

  • 정규성 : 정규분포에서 나온 데이터 라는 것.
  • 등분산성 : 비교 대상의 분산이 같다.
    • ➡️ 전제가 어긋날 경우 비모수검정(non-parametric test) 고려해야 함

t-검정의 종류

단일표본 t검정 (one-sample t-test)

  • 하나의 집단 평균이 특정 기준값과 다른지 비교
  • 예 : 학생들의 평균 수면시간이 7시간과 다른가?
    • 귀무가설: 모집단의 평균은 7시간 이다.
    • 대립가설: 모집단의 평균은 7시간이 아니다.
  • 연구 맥락에 따라 의미 있는 기준값 설정이 중요

 

이표본 t검정 (two- sample t-test) = 독립표본 t검정

  • 서로 독립된 두 집단의 평균 차이 비교
  • 예 : 남학생과 여학생의 평균 키가 다른가?
    • 귀무가설: 두 집단의 평균은 같다.
    • 대립가설: 두 집단의 평균은 다르다.
  • 전제 조건 : 정규성, 등분산성
    • 정규성 ❌  →  Mann-Whitney U검정 사용 (비모수 대안)
    • 등분산성 ❌  →  Welch t검정을 사용 (정규성 가정은 여전하지만 분산은 달라져도 괜찮음)
[ 정리 ]
▶ 정규성 OK, 등분산 OK → Student t-test
▶ 정규성 OK, 등분산 X → Welch t-test
▶ 정규성 X, 표본 크기 충분히 큼(n≥30) → 보통 t-test 그대로 써도 무방
▶ 정규성 X, 표본 크기 작음 → t-test 신뢰 어려움 → 비모수 검정으로 대체 (가설검증인데 순위(rank)나 중앙값(median) 같은 다른 기준을 가지고 가설을 세우는 것)

 

대응표본 t검정 (paired t-test)

  • 같은 집단에서 전과 후를 비교하거나, 쌍을 이룬 데이터 비교
  • 예 : 약 복용 전후의 혈압 차이 → 비교 대상이 같은 사람, 같은 특성
  • 두 시점의 차이값(후 - 전) 자체가 정규성을 가져야 함
    • 정규성 어긋날 경우 : Wilcoxon signed-rank 검정 사용

▼ 대응여부 구분하기

더보기
구분 독립 t검정 대응 t검정
데이터 구조 두 집단이 전혀 다른 사람들 같은 사람의 전/후 변화
예시 실험군 vs 대조군 복용 전 vs 복용 후
검정 이름 이표본 t검정 대응표본 t검정

 


정규성과 등분산성 확인

정규성 : 표본이 정규분포를 따르는 모집단에서 나왔다고 가정
등분산성 : 두 집단의 분산이 동일하다고 가정

정규성 검정 방법

방법 설명 사용 시기
Q-Q플랏 정규분포와 데이터의 분위수를 비교하는 시각적 도구 탐색적 단계, 직관적 확인
샤피로-윌크 검정 귀무가설: “정규분포이다” (p < 0.05면 정규성 기각) 소표본일 때 효과적
Kolmogorov-Smirnov 검정 (KS 검정) 이론적 분포(정규분포 등)와 데이터 분포의 차이 검정 대체로 샤피로보다 덜 민감
히스토그램 확인 데이터 분포의 대칭성과 종모양을 시각적으로 확인 보조 자료로 사용

➡️ p > 0.05라도 정규성을 확정할 수는 없음 : 단지 정규분포가 아닌 것 같지 않다~ 수준의 판단

등분산성 검정 방법

방법 설명 사용 시기
Levene 검정 귀무가설: “두 집단의 분산은 같다” 가장 널리 쓰이며 정규성 민감도 낮음
F-검정 두 집단 분산이 같은지를 검정(정규성 민감) 정규성에 민감해 실제로는 잘 사용되지 않음
Bartlett 검정 세 집단 이상에서 분산 동질성 검정 2개 이상 집단의 분산이 동일한지 검정(정규성 가정 강함)

➡️ 등분산성이 기각되면 Welch t검정 또는 Welch ANOVA 사용

 

끝.