[통계/인강] 챕터2(3) - 정규분포 & 긴꼬리 분포 & 스튜던트 t 분포

🔍 정규분포 (분산= 1 / 평균= 0 인 형태, 표준 정규분포)

1) 정규분포 : 종 모양의 대충 분포 |  좌우 대칭

  • 대부분 평균 주위에 몰려 있는 분포 
  • 평균에서 멀어질수록 데이터의 빈도가 감소
  • 표준편차 ➡️ 분포의 퍼짐 정도

▶ 정규분포 : 실제로 어떻게 사용되지?

1) 대부분의 상황에서 관찰되는 분포 ➡️ 데이터 수가 많을수록 정규분포를 따름 🔥 중심극한 정리 

  • 키와 몸무게 
  • 시험 점수 : 큰 집단의 시험에서 정규분포를 따름.

2) 파이썬 실습

# 정규분포 생성
normal_dist = np.random.normal(170, 10, 1000)

# 히스토그램으로 시각화
plt.hist(normal_dist, bins=30, density=True, alpha=0.6, color='g')

# 정규분포 곡선 추가
xmin, xmax = plt.xlim()
x = np.linspace(xmin, xmax, 100)
p = stats.norm.pdf(x, 170, 10)
plt.plot(x, p, 'k', linewidth=2)
plt.title('normal distribution histogram')
plt.show()



🔍 긴 꼬리 분포(The long tail distribution)

1) 긴 꼬리 분포 : 대부분의 데이터가 한쪽 끝에 몰려 있고, 반대쪽으로 꼬리가 긴 형태인 분포 | 비대칭적

  • 특정한 하나의 분포를 의미하지 않으며 여러 종류의 분포(예: 파레토 분포, 지프의 법칙, 멱함수)를 포함
  • 소득 분포, 웹사이트 방문자 수 등에서 관찰

긴 꼬리 분포 : 실제로 어떻게 사용될까?

  • 소득 분포 : 일부 부유층이 전체 소득에서 큰 비중을 차지
  • 온라인 쇼핑 : 대형 온라인 쇼핑에서 소수의 인기 제품이 많은 판매를 기록하는 긴 꼬리 분포
  • 도서 판매 : 소수의 베스트셀러 도서가 대부분을 차지
🔥 긴 꼬리 분포는 아무리 데이터가 많아진다 하더라도, 정규분포가 되지 않는다 ‼️🔥
# 긴 꼬리 분포 생성 (예: 소득 데이터)
long_tail = np.random.exponential(1, 1000)      # (평균, 데이터크기)

# 히스토그램으로 시각화
plt.hist(long_tail, bins=30, density=True, alpha=0.6, color='b')
plt.title('long tail distribution histogram')
plt.show()



🔍 스튜던트 t 분포

1) 스튜던트 t 분포

  • 모집단의 표준편차를 모르고, 표본의 크기(30개 미만)가 작은 경우에 사용
  • 표본의 크기가 작을수록 꼬리가 두꺼워지는 특징
✅ 데이터 수가 많으면, 정규분포에 가까워지는구나!!

스튜던트 t 분포 : 어떻게 사용될까?

  • 작은 표본의 평균 비교 : 두 그룹 평균 시험점수 비교
    • ➡️ 표본의 크기가 작다면 t검정을 사용하여 평균이 유의미하게 다른지 검토 가능
  • 약물 시험 : 새로운 약물 효과 테스트
    • ➡️ 소규모 임상 시험에서 두 그룹 간의 차이를 분석하는 데 사용
# 스튜던트 t 분포 생성
t_dist = np.random.standard_t(df=10, size=1000)        # 🚨df 자유도는 바꿔가며 찾아봐야함!!

# 히스토그램으로 시각화
plt.hist(t_dist, bins=30, density=True, alpha=0.6, color='r')

# 스튜던트 t 분포 곡선 추가
x = np.linspace(-4, 4, 100)
p = stats.t.pdf(x, df=10)
plt.plot(x, p, 'k', linewidth=2)
plt.title('student t distribution histogram')
plt.show()

끝.