1. 모집단과 표본
1) 모집단 : 관심의 대상이 되는 전체 집단
- 예: 한 국가의 모든 성인
2) 표본 : 모집단에서 추출한 일부
- 예: 그 국가의 성인 중 일부를 조사

3) 왜 표본을 사용하는 거지?
- 현실적인 제약 : 비용과 시간(예: 자동차 성능테스트 등), 접근성
- 대표성 : 잘 설계된 표본은 모집단의 특성을 반영할 수 있다 ➡️ 표본에서 얻은 결과를 모집단 전체에 일반화 가능
- 무작위 추출 ➡️ 편향을 최소하, 모집단의 다양한 특성 포함
- 데이터 관리 : 데이터 처리의 용이성, 데이터 품질 관리
- 모델 검증 용이 : 모델 적합도 테스트(표본 데이터으로 통계적 모델 검증)
4) 전수조사 : 모집단 전체를 조사하는 방법.
5) 표본조사 : 표본만을 조사하는 방법. 표본이 대표성을 가져야 함.
2. 실제로 어떻게 사용되어질까?
1) 실제로 모든 데이터를 다 수집할 수 없을 때 표본을 사용
- 도시 연구 : 한 도시 모든 가구 중 100가구(표본)로 평균 전략 사용량 추정
- 의료 연구 : 특정 치료법의 효과를 알아보기 위해 표본을 통해 추정하고 결론 도출
- 시장 조사 : 소비자 선호도를 파악하기 위해 무작위 표본으로 시장 트렌드 추정
- 정치 여론 조사 : 선거 전 여론 조사로 유권자의 투표 경향 추정
2) 파이썬 실습
import numpy as np
import matplotlib.pyplot as plt
# 모집단 생성 (예: 국가의 모든 성인의 키 데이터)
population = np.random.normal(174, 10, 1000)
# 표본 추출
sample = np.random.choice(population, 100)
plt.hist(population, bins=50, alpha=0.5, label='population', color='pink')
plt.hist(sample, bins=50, alpha=0.7, label='sample', color='red')
plt.legend()
plt.title('population and sample distribution')
plt.show()

[ numpy.random 은 뭐야? ]
NumPy 라이브러리 | 다양한 확률 분포에 따라 난수를 생성하는 기능 제공 | 데이터 분석, 시뮬레이션 방법 등 다양한 분야에 사용
📌 np.random.normal
정규분포(가우시안 분포)를 따르는 난수를 생성 | 정규분포는 평균과 표준편차를 중심으로 데이터가 대치적으로 분포하는 분포
📌 np.random.choicenumpy.random.normal(loc=0.0, scale=1.0, size=None)
임의로 샘플링하여 요소를 선택된 요소를 반환하는 기능 제공
numpy.random.choice(a, size=None, replace=True, p=None)
[ plt.hist 는 뭔데? ]
Matplotlib 라이브러리에서 히스토그램을 그리는 함수 | 히스토그램은 데이터의 분포를 시각화하는 데 유용한 도구
- bins : bins의 개수, 데이터의 구간 설정, 정수나 리스트로 입력 가능
- alpha : 히스토그램의 투명도를 지정 ( 0:투명 에서 1:불투명 사이의 값)
- label : 히스토그램의 레이블 지정, 여러 히스토그램을 그릴 때 범례를 추가하는 데 사용
- color : 막대의 색상
끝.
'통계 (Statistics)' 카테고리의 다른 글
| [통계/인강] 챕터2(2) - 표본오차와 신뢰구간 | import scipy.stats as stats | stats.t.interval (0) | 2025.09.22 |
|---|---|
| [통계/인강] 챕터1 - 통계 중요성 & 기술통계/추론통계 & 다양한 분석방법 (1) | 2025.09.18 |
| [통계/세션] 기술 통계(Descriptive Statistics)와 추론 통계(Inferential Statistics) (0) | 2025.09.17 |

