[통계/인강] 챕터2(3) - 정규분포 & 긴꼬리 분포 & 스튜던트 t 분포

🔍 정규분포 (분산= 1 / 평균= 0 인 형태, 표준 정규분포)

1) 정규분포 : 종 모양의 대충 분포 | 좌우 대칭

대부분 평균 주위에 몰려 있는 분포
평균에서 멀어질수록 데이터의 빈도가 감소
표준편차 ➡️ 분포의 퍼짐 정도

▶ 정규분포 : 실제로 어떻게 사용되지?

1) 대부분의 상황에서 관찰되는 분포 ➡️ 데이터 수가 많을수록 정규분포를 따름 🔥 중심극한 정리

키와 몸무게
시험 점수 : 큰 집단의 시험에서 정규분포를 따름.

2) 파이썬 실습

# 정규분포 생성
normal_dist = np.random.normal(170, 10, 1000)

# 히스토그램으로 시각화
plt.hist(normal_dist, bins=30, density=True, alpha=0.6, color='g')

# 정규분포 곡선 추가
xmin, xmax = plt.xlim()
x = np.linspace(xmin, xmax, 100)
p = stats.norm.pdf(x, 170, 10)
plt.plot(x, p, 'k', linewidth=2)
plt.title('normal distribution histogram')
plt.show()

🔍 긴 꼬리 분포(The long tail distribution)

1) 긴 꼬리 분포 : 대부분의 데이터가 한쪽 끝에 몰려 있고, 반대쪽으로 꼬리가 긴 형태인 분포 | 비대칭적

특정한 하나의 분포를 의미하지 않으며 여러 종류의 분포(예: 파레토 분포, 지프의 법칙, 멱함수)를 포함
소득 분포, 웹사이트 방문자 수 등에서 관찰

▶ 긴 꼬리 분포 : 실제로 어떻게 사용될까?

소득 분포 : 일부 부유층이 전체 소득에서 큰 비중을 차지
온라인 쇼핑 : 대형 온라인 쇼핑에서 소수의 인기 제품이 많은 판매를 기록하는 긴 꼬리 분포
도서 판매 : 소수의 베스트셀러 도서가 대부분을 차지

🔥 긴 꼬리 분포는 아무리 데이터가 많아진다 하더라도, 정규분포가 되지 않는다 ‼️🔥

# 긴 꼬리 분포 생성 (예: 소득 데이터)
long_tail = np.random.exponential(1, 1000)      # (평균, 데이터크기)

# 히스토그램으로 시각화
plt.hist(long_tail, bins=30, density=True, alpha=0.6, color='b')
plt.title('long tail distribution histogram')
plt.show()

🔍 스튜던트 t 분포

1) 스튜던트 t 분포

모집단의 표준편차를 모르고, 표본의 크기(30개 미만)가 작은 경우에 사용
표본의 크기가 작을수록 꼬리가 두꺼워지는 특징

✅ 데이터 수가 많으면, 정규분포에 가까워지는구나!!

▶ 스튜던트 t 분포 : 어떻게 사용될까?

작은 표본의 평균 비교 : 두 그룹 평균 시험점수 비교
- ➡️ 표본의 크기가 작다면 t검정을 사용하여 평균이 유의미하게 다른지 검토 가능
약물 시험 : 새로운 약물 효과 테스트
- ➡️ 소규모 임상 시험에서 두 그룹 간의 차이를 분석하는 데 사용

# 스튜던트 t 분포 생성
t_dist = np.random.standard_t(df=10, size=1000)        # 🚨df 자유도는 바꿔가며 찾아봐야함!!

# 히스토그램으로 시각화
plt.hist(t_dist, bins=30, density=True, alpha=0.6, color='r')

# 스튜던트 t 분포 곡선 추가
x = np.linspace(-4, 4, 100)
p = stats.t.pdf(x, df=10)
plt.plot(x, p, 'k', linewidth=2)
plt.title('student t distribution histogram')
plt.show()

끝.

'통계 (Statistics)' 카테고리의 다른 글

[통계/인강] 챕터2(4) - 카이제곱분포 \| 이항분포 \| 푸아송분포 \| 분포 정리하기 (0)	2025.09.22
[통계/인강] 챕터2(2) - 표본오차와 신뢰구간 \| import scipy.stats as stats \| stats.t.interval (0)	2025.09.22
[통계/인강] 챕터2(1) : 모집단과 표본 \| plt.hist( ) \| np.random.normal( ) \| np.random.choice( ) (0)	2025.09.22

🔍 정규분포 (분산= 1 / 평균= 0 인 형태, 표준 정규분포)

▶ 정규분포 : 실제로 어떻게 사용되지?

🔍 긴 꼬리 분포(The long tail distribution)

▶ 긴 꼬리 분포 : 실제로 어떻게 사용될까?

🔍 스튜던트 t 분포

▶ 스튜던트 t 분포 : 어떻게 사용될까?

'통계 (Statistics)' 카테고리의 다른 글

티스토리툴바