데이터 분석

데이터 전처리 & 시각화 · 2025. 8. 28. fullscreen 넓게보기

[데이터 전처리] 데이터 전처리는 왜 중요할까?

CH1. 데이터 전처리 완벽 가이드

CH1. 데이터 전처리 완벽 가이드(1) | Notion

0. 데이터 분석? 데이터 전처리?

www.notion.so

데이터 분석이란?

정의 : 데이터를 수집하고, 정리/가공한 후, 패턴/인사이트/의미를 발견하여 의사결정에 활용하는 과정

목적 : "데이터에서 유용한 정보를 뽑아내는 것"

주요단계 :

문제 정의 : 무엇을 알고 싶은지, 어떤 문제를 해결할지 결정
데이터 수집 : 필요한 데이터를 모으기 (DB, API, 로그, 엑셀, 설문 등)
데이터 전처리 : 데이터 정리(결측치/이상치 처리, 형식 통일 등)
탐색적 분석(EDA) : 시각화, 통계, 기초 분석으로 패턴 확인
모델링/통계 분석 : 예측, 분류, 군집화 등 기계학습/통계 기법 적용
해석 및 의사결정 : 결과를 보고 문제 해결책 도출

💡 쉽게 말해, 데이터 분석 = 데이터로부터 답을 찾는 과정

전처리의 중요성

정의 : 분석하기 전에 데이터를 깨끗하고 쓸 수 있는 상태로 만드는 작업

목적 : 우본 데이터(Raw data)는 그대로 분석하기 어렵기 때문에, 오류와 불필요한 부분을 고쳐서 분석 가능한 상태로 만드는 것

데이터 분석가/사이언티스트가 시간을 가장 많이 할애하는 작업

주요 작업:

결측치 처리 : 값이 비어 있는 데이터 ➡️ 평균/중앙값 대체, 삭제 등
이상치 처리 : 너무 크거나 작은 값, 잘못 입력된 값 정리
데이터 형식 변환 : 날짜/문자열 ➡️ 숫자형 변환
스케일링/정규화 : 값의 범위를 맞추기
중복 제거 : 같은 행이 여러 번 들어간 경우 정리
인코딩 : 문자 데이터를 숫자로 변환(예 : 성별 "남/여" ➡️ 0/1)

💡쉽게 말해, 데이터 전처리 = 데이터 분석을 시작하기 위한 청소 작업

피쳐(Feature)

정의 : 피처는 데이터의 특성을 설명하는 변수(열, column)를 의미함

즉, 분석 대상(행, row)의 속성을 나타내는 정보

예시

고객ID	나이	성별	구매횟수	총 구매금액
1	25	남성	10	200000
2	33	여성	3	50000

여기서 나이, 성별, 구매 횟수, 총 구매금액이 피처
한 사람(행)을 설명하는 속성들

머신러닝 맥락에서는:

입력값 = 피처(독립변수, X)
정답값 = 라벨/타켓(종속변수, y)

전처리 단계에서 피처 관련 작업들

불필요한 피처 제거
- 예: 고객ID(단순 식별용이라 분석에 불필요)
결측치 처리
- 예: 나이 값이 비었을 때 평균/중앙값으로 대체
스케일링 / 정규화
- 예: 구매횟수(1100) vs 총구매금액(10001000000) → 범위가 다르므로 표준화 필요
인코딩 (문자형 → 숫자형)
- 예: 성별("남성/여성") → (0,1)
피처 엔지니어링
- 기존 피처를 가공해서 새로운 피처 생성
- 예: “구매횟수 / 가입기간 = 평균 구매 주기”라는 새로운 변수 만들기

'데이터 전처리 & 시각화' 카테고리의 다른 글

[데이터 전처리] 데이터 인덱싱과 슬라이싱 (1)	2025.08.28
[데이터 전처리] 데이터 불러오기 및 저장(CSV, Excel, JSON 등) (1)	2025.08.28
[데이터 전처리] Pandas 소개 및 설치 \| Series와 DataFrame 기본 구조 (1)	2025.08.28

데이터 전처리 & 시각화 관련 글

더 보기

티스토리툴바