[통계/세션] 기술 통계(Descriptive Statistics)와 추론 통계(Inferential Statistics)

- 기술통계 : 현재의 데이터를 요약하고 설명(기술)하는 통계 - 관찰된 데이터에 집중

- 추론통계 : 일부 데이터(표본)를 바탕으로 전체 모집단을 추정(예측)하거나, 어떤 주장이 맞는지 검정하는 통계

기술 통계(Descriptive Statistics)

현재의 데이터를 요약하고 설명(기술)하는 통계 - 관찰된 데이터에 집중

중심 경향치 : 평군, 중앙값, 최빈값

개념	설명	기호
평균(mean)	모든 값을 더한 뒤 개수로 나눈 값	μ
중앙값(median)	나열했을 때, 가운데 위치한 값
최빈값(mode)	가장 많이 나타나는 값 ➡️ 예: (1, 2, 3, 3, 3, 4, 5, 5) 최빈값: 3 !!

그래프

흩어진 정도 : 분산, 표준편차(데이터가 중심에서 얼마나 흩어지고 퍼져 있는지 정도)

개념	설명	기호
편차(deviation)	각 데이터가 평균에서 얼마나 떨어져 있는지
분산(variance)	편차를 제곱해서 평균낸 값	σ²
표준편차(standard deviation)	분산에 루트를 씌운 값(원래 단위로 복원)	σ

분산을 확인할 수 있는 시각화
- 히스토그램, 박스플랏, 밀도곡선, 바이올릿플랏 등

분위수( Quantile ) : 데이터를 크기순으로 정렬했을 때, 특정 비율에 해당하는 위치의 값
- 일반적으로 p-분위수는 아래에서부터 p x 100% 위치에 있는 값

개념	설명
사분위수 (Quantile)	데이터를 4등분: - 1사분위수(Q1, 25%) : 하위 25% 지점 값 - 2사분위수(Q2, 50%) : 중앙값(Mendian) - 3사분위수(Q3, 75%) : 상위 25% 지점 값
백분위수 (Percentiles)	데이터를 100등분 - 90번째 백분위수(P90) = 전체 데이터 중 90%가 해당값 이하
십분위수 (Deciles)	데이터를 10등분 ➡️ 예: 소득분위 (1분위: 하위 10%, 10분위: 상위10%)

IQR : Q3 - Q1

IQR 방식의 이상치 처리

🔥 하단 whisker보다 작거나 상단 whisker보다 큰 값을 제거 !!!
- whisker(하단) : Q1 - ( 1.5 * IQR )
- whisker(상단) : Q3 + ( 1.5 * IQR )

기술통계 실습

📌 stroke 실습 자료
- describe()로 데이터 요약하기
- 히스토그램으로 데이터 분포 시각화
- IQR 방식으로 이상치 제거
- boxplot 그리기

추론 통계 (Inferential Statistics)

일부 데이터(표본)를 바탕으로 전체 모집단을 추정(예측)하거나, 어떤 주장이 맞는지 검정하는 통계

기술 통계는 '있는 데이터를 요약'하고, 추론 통계는 '없는 모집단을 예측'한다는 차이! (ex. 여론조사)
모집단은 전부 관측할 수 없어서 표본을 추출하지만 이 표본이 얼마나 신뢰할 수 있는 정보인지 추정해야 함

추정과 가설검정

추정 (Estimation)
- 모집단의 평균, 비율 등은 알 수 없기에 '표본'을 통해 '추정'
- 값을 추정하거나 구간을 추정할 수 있음

개념	설명	예시
점추정	하나의 숫자로 모수 추정	모집단 평균은 약 65다
구간 추정	신뢰 가능한 범위를 제시 (= 신뢰구간)	모집단의 평균은 62-68 사이일 것이다

가설검정 (Hypothesis Testing)
- 어떤 주장이 우연인지, 우연이 아닌지 확인하는 과정
  - 우연이 아니다 = 통계적으로 유의미하다.

모집단과 표본

✅ [ Key point ] 모집단을 추정한다 = 표본을 통해 모집단의 특성(평균/분산)을 추정한다.
- 표본평균과 표본분산
- 모집단과 표본이 차이가 날텐데? ➡️ 표본오차 (sampling error)
- 어떻게 추정이 가능할 수 있는거야? ➡️ 중심극한정리 !

모집단의 특성을 알아보자!

표본의 평균과 분산

우리는 표본의 평균(\bar{X})과 분산(s^2)으로 모집단의 평균과 분산을 추정할 수 있다.
why? 중심극한정리

표본오차 (Sampling Error)

: 표본평균(\bar{x}) - 모집단평균(μ)
- → 우리가 측정한 값과 실제 값(모집단)의 차이
표본을 무작위로 뽑는 과정에서 표본마다 평균이 다를 것이다. => 즉, 표본오차도 달라진다.
그렇다면 표본으로 모집단의 평균(\mu)을 어떻게 알 수 있지?
- why? 큰 수의 법칙 (Law of large numbers)

표준오차 (Standard Error)

: sampling error 의 표준편차 = 표본평균의 표준편차
중심극한 정리에 따르면, sampling error의 분산은 \frac{\sigma^2}{n}이다.
하지만 우리는 모집단의 분산($\sigma^2$)을 모르니까 우리가 아는 표본의 분산($s^2$)으로 대체한다 → $\frac{s^2}{n}$

추론통계 실습

✅ stroke 실습자료
- df.sample() 로 데이터 샘플링하기
- 샘플의 평균과 분산 구해서 전체 데이터와 비교하기
- 중심극한 정리
- 샘플 여러개를 구해서 표본평균의 히스토그램 그려보기

궁금증

sample_df = df.sample(n=30, random_state=1) 에서 random_state는 어떤 기능이야?
- 랜덤으로 평균을 구한다고 가정할 때, random_state를 특정값(아무값)으로 설정하면 항상 동일한 결과(평균)을 얻게 됨.
np.mean(..) 평균 | np.std(..) 표준편차 | np.var(..) 분산 | np.power(** , 2) **를 제곱, 3이면 세제곱
표본평균의 분산 = 표준오차의 제곱

표준편차 vs 표준오차

끝.

🔍 중심극한정리에 대한 오해와 진실

[중심극한정리에 대한 오해가 있을 수 있어 아래 내용 참고해주세요.]

중심극한정리: 모집단에서 크기가 n인 표본을 뽑아 평균을 구하는 과정을 반복하면, 이 표본평균들의 분포는 n이 충분히 클 때 정규분포에 가까워진다.

중심극한정리가 왜 중요할까요?
• 모집단이 어떤 분포든 표본평균으로 모집단의 평균에 대해 추론이 가능합니다!

핵심 포인트
1. 무엇이 정규분포가 되는가?
• 개별 데이터는 정규 분포를 따르지 않습니다.
• 표본평균들의 분포가 정규 분포를 따르게 됩니다.
2. 필수 조건
• 표본들이 서로 독립적 (표본들끼리 서로 영향을 안줌)
• 모집단의 평균과 분산이 유한
• 표본 크기(n)가 충분히 큼

예시로 이해하기
• 주사위 던지기
• 주사위 1개의 분포: 1,2,3,4,5,6이 균등하게 나옴 (정규분포 아님)
• 주사위 30개의 평균의 분포: 대부분 3~4 사이에 몰림 (정규분포에 가까움)
• 주사위 100개의 평균의 분포: 거의 항상 3.5 근처 (더욱 정규분포에 가까움)

오해할만한 사항
❌ 오해 1: "개별 데이터가 정규분포를 따른다"
✅ 진실: 개별 데이터는 그대로. 평균의 분포만 정규분포가 됨
• 예: 주사위를 아무리 많이 던져도 1~6이 균등하게 나옴. 하지만 30개씩 평균을 내면 그 평균들이 종 모양을 그림

❌ 오해 2: "많이 반복 하면 정규분포가 된다"
✅ 진실: 표본 크기(n)가 클수록 정규분포에 가까워짐. 반복 횟수는 분포 모양을 바꾸지 않음
• 10명 평균 × 10,000번 = 여전히 덜 정규분포적
• 100명 평균 × 100번 = 이미 정규분포에 가까움

❌ 오해 3: "모든 통계량이 정규분포를 따른다"
✅ 진실: 평균(또는 합계)에만 적용

❌ 오해 4: "표본의 크기가 30개면 무조건 충분하다"
✅ 진실: 30은 경험적 기준일 뿐. 개별 데이터의 분포에 따라 다름
• 대칭 분포: 20~30개도 괜찮음
• 심하게 치우친 분포(소득): 100개 이상 필요
• 극단값이 많은 분포: 수백 개 필요할 수도 있음

기술통계 추론통계 관련용어 정리표 (gpt 발췌)

항목	기술통계 (Descriptive)	추론통계 (Inferential)	핵심 질문	권장 시각화 / 예
목적	관측된 데이터셋을 요약·제시 (무엇이 관측되었나).	표본을 이용해 모집단에 대한 추정·검정 (표본 → 모집단).	“이 데이터는 어떠한가?” / “모집단에 일반화할 수 있나?”	히스토그램, 박스플롯, 빈도표
대상	주어진 데이터(표본 또는 전체).	표본을 통해 모집단(parameter)을 추정하거나 가설 검증.	—	—
주요 용어	평균(mean), 중앙값(median), 최빈값(mode), 분산(var), 표준편차(sd), 사분위수(IQR)	모수(parameter), 통계량(statistic), 표준오차(SE), 신뢰구간(CI), p-value, 검정통계량	“중심과 변동성은?” / “추정값은 얼마나 신뢰할 수?”	요약표(요약 통계량)
중심경향성	평균, 중앙값, 최빈값 — 데이터의 중심을 표현	표본평균 xˉ\bar{x}으로 모집단 평균 μ\mu 추정 (점추정)	“중심은 어디인가?”	히스토그램 + 세로선(평균/중앙값)
산포 (변동성)	분산 s2s^2, 표준편차 ss, IQR — 데이터 퍼짐	표준오차 SE=s/nSE = s/\sqrt{n}로 추정 불확실성 측정	“측정값들이 얼마나 흩어져 있나?”	박스플롯, 산점도
표본분포 / 중심극한정리	(기술적 설명은 제한적)	표본평균의 분포가 nn이 크면 정규에 근접 — 표본분포 기반으로 CI·검정 수행	“평균의 분포는 어떤가?”	표본평균의 분포 개념도
신뢰구간 (CI)	(요약값 제공)	점추정 ± 임계값×SE. 예: xˉ±z0.975×SE \bar{x} \pm z_{0.975}\times SE 또는 tt 사용	“모집단값이 어느 범위에 있을까?”	점추정과 오차막대(에러바)
가설검정 (Hypothesis test)	(없음 — 대신 기술적 비교는 가능)	귀무가설H0H_0과 대립가설H1H_1 설정 → 검정통계량 → p-value로 판단	“데이터가 우연에 의한 결과인가?”	t-분포/카이제곱 분포 등 시각화
p-value의 의미	—	귀무가설 하에서 관측값 이상 극단적 값이 나타날 확률	“이 관측은 우연히 나올 수 있는가?”	검정통계량 위치 표시
오류와 검정력	—	Type I(α: 거짓 양성), Type II(β: 거짓 음성), 검정력 = 1−β1-β	“오류 가능성은 얼마인가?”	표본크기·효과크기 시나리오 표
가정 (Assumptions)	없음(단, 요약 해석 시 분포·이상치 고려)	각 검정별 가정(정규성, 등분산성, 독립성 등). 위반 시 비모수 대안 필요	“가정이 충족되나?”	Q-Q 플롯, 잔차분석
실무적 사용 기준	데이터 설명·보고·EDA (탐색적 데이터분석)에 사용	의사결정·과학적 결론·정책 제안 등에 사용(표본 통해 모집단 결론)	—	요약 보고서, 신뢰구간 표기

📖 내용과 연계하여 읽어보면 좋을 아티클

https://yozm.wishket.com/magazine/detail/1644/

A/B 테스트 제대로 이해하기: 2A/B 테스트를 위한 기초 통계 이해하기 | 요즘IT

앞선 글에서 A/B 테스트를 설계하거나 수행할 때 ‘목표를 달성하기 위한 방안으로 A와 B 중 어느 게 더 나은가?’ 뒤에 숨은 진짜 질문에 관해 살펴보았다. 이번 글에서는 이러한 우리의 진짜 질

yozm.wishket.com

끝.

'통계 (Statistics)' 카테고리의 다른 글

[통계/인강] 챕터2(2) - 표본오차와 신뢰구간 \| import scipy.stats as stats \| stats.t.interval (0)	2025.09.22
[통계/인강] 챕터2(1) : 모집단과 표본 \| plt.hist( ) \| np.random.normal( ) \| np.random.choice( ) (0)	2025.09.22
[통계/인강] 챕터1 - 통계 중요성 & 기술통계/추론통계 & 다양한 분석방법 (1)	2025.09.18