CH1. 데이터 전처리 완벽 가이드(1) | Notion
0. 데이터 분석? 데이터 전처리?
www.notion.so
데이터 분석이란?
정의 : 데이터를 수집하고, 정리/가공한 후, 패턴/인사이트/의미를 발견하여 의사결정에 활용하는 과정
목적 : "데이터에서 유용한 정보를 뽑아내는 것"

주요단계 :
- 문제 정의 : 무엇을 알고 싶은지, 어떤 문제를 해결할지 결정
- 데이터 수집 : 필요한 데이터를 모으기 (DB, API, 로그, 엑셀, 설문 등)
- 데이터 전처리 : 데이터 정리(결측치/이상치 처리, 형식 통일 등)
- 탐색적 분석(EDA) : 시각화, 통계, 기초 분석으로 패턴 확인
- 모델링/통계 분석 : 예측, 분류, 군집화 등 기계학습/통계 기법 적용
- 해석 및 의사결정 : 결과를 보고 문제 해결책 도출
💡 쉽게 말해, 데이터 분석 = 데이터로부터 답을 찾는 과정
전처리의 중요성
정의 : 분석하기 전에 데이터를 깨끗하고 쓸 수 있는 상태로 만드는 작업
목적 : 우본 데이터(Raw data)는 그대로 분석하기 어렵기 때문에, 오류와 불필요한 부분을 고쳐서 분석 가능한 상태로 만드는 것
데이터 분석가/사이언티스트가 시간을 가장 많이 할애하는 작업
주요 작업:
- 결측치 처리 : 값이 비어 있는 데이터 ➡️ 평균/중앙값 대체, 삭제 등
- 이상치 처리 : 너무 크거나 작은 값, 잘못 입력된 값 정리
- 데이터 형식 변환 : 날짜/문자열 ➡️ 숫자형 변환
- 스케일링/정규화 : 값의 범위를 맞추기
- 중복 제거 : 같은 행이 여러 번 들어간 경우 정리
- 인코딩 : 문자 데이터를 숫자로 변환(예 : 성별 "남/여" ➡️ 0/1)
💡쉽게 말해, 데이터 전처리 = 데이터 분석을 시작하기 위한 청소 작업
피쳐(Feature)
정의 : 피처는 데이터의 특성을 설명하는 변수(열, column)를 의미함
즉, 분석 대상(행, row)의 속성을 나타내는 정보
예시
| 고객ID | 나이 | 성별 | 구매횟수 | 총 구매금액 |
| 1 | 25 | 남성 | 10 | 200000 |
| 2 | 33 | 여성 | 3 | 50000 |
- 여기서 나이, 성별, 구매 횟수, 총 구매금액이 피처
- 한 사람(행)을 설명하는 속성들
머신러닝 맥락에서는:
- 입력값 = 피처(독립변수, X)
- 정답값 = 라벨/타켓(종속변수, y)
전처리 단계에서 피처 관련 작업들
- 불필요한 피처 제거
- 예: 고객ID(단순 식별용이라 분석에 불필요)
- 결측치 처리
- 예: 나이 값이 비었을 때 평균/중앙값으로 대체
- 스케일링 / 정규화
- 예: 구매횟수(1100) vs 총구매금액(10001000000) → 범위가 다르므로 표준화 필요
- 인코딩 (문자형 → 숫자형)
- 예: 성별("남성/여성") → (0,1)
- 피처 엔지니어링
- 기존 피처를 가공해서 새로운 피처 생성
- 예: “구매횟수 / 가입기간 = 평균 구매 주기”라는 새로운 변수 만들기
'데이터 전처리 & 시각화' 카테고리의 다른 글
| [데이터 전처리] 데이터 인덱싱과 슬라이싱 (1) | 2025.08.28 |
|---|---|
| [데이터 전처리] 데이터 불러오기 및 저장(CSV, Excel, JSON 등) (1) | 2025.08.28 |
| [데이터 전처리] Pandas 소개 및 설치 | Series와 DataFrame 기본 구조 (1) | 2025.08.28 |