[데이터 전처리] 데이터 전처리는 왜 중요할까?

CH1. 데이터 전처리 완벽 가이드

 

CH1. 데이터 전처리 완벽 가이드(1) | Notion

0. 데이터 분석? 데이터 전처리?

www.notion.so


 

데이터 분석이란?


정의 : 데이터를 수집하고, 정리/가공한 후, 패턴/인사이트/의미를 발견하여 의사결정에 활용하는 과정

목적 : "데이터에서 유용한 정보를 뽑아내는 것"

주요단계 :

  1. 문제 정의 : 무엇을 알고 싶은지, 어떤 문제를 해결할지 결정
  2. 데이터 수집 : 필요한 데이터를 모으기 (DB, API, 로그, 엑셀, 설문 등)
  3. 데이터 전처리 : 데이터 정리(결측치/이상치 처리, 형식 통일 등)
  4. 탐색적 분석(EDA) : 시각화, 통계, 기초 분석으로 패턴 확인
  5. 모델링/통계 분석 : 예측, 분류, 군집화 등 기계학습/통계 기법 적용
  6. 해석 및 의사결정 : 결과를 보고 문제 해결책 도출
💡 쉽게 말해, 데이터 분석 = 데이터로부터 답을 찾는 과정

 

 

 

전처리의 중요성


정의 : 분석하기 전에 데이터를 깨끗하고 쓸 수 있는 상태로 만드는 작업

목적 : 우본 데이터(Raw data)는 그대로 분석하기 어렵기 때문에, 오류와 불필요한 부분을 고쳐서 분석 가능한 상태로 만드는 것

데이터 분석가/사이언티스트가 시간을 가장 많이 할애하는 작업

주요 작업:

  1. 결측치 처리 : 값이 비어 있는 데이터 ➡️ 평균/중앙값 대체, 삭제 등
  2. 이상치 처리 : 너무 크거나 작은 값, 잘못 입력된 값 정리
  3. 데이터 형식 변환 : 날짜/문자열 ➡️ 숫자형 변환
  4. 스케일링/정규화 : 값의 범위를 맞추기
  5. 중복 제거 : 같은 행이 여러 번 들어간 경우 정리
  6. 인코딩 : 문자 데이터를 숫자로 변환(예 : 성별 "남/여" ➡️ 0/1)
💡쉽게 말해, 데이터 전처리 = 데이터 분석을 시작하기 위한 청소 작업

 

 

 

피쳐(Feature)


정의 : 피처는 데이터의 특성을 설명하는 변수(열, column)를 의미함

 즉, 분석 대상(행, row)의 속성을 나타내는 정보

예시

고객ID 나이 성별 구매횟수 총 구매금액
1 25 남성 10 200000
2 33 여성 3 50000
  • 여기서 나이, 성별, 구매 횟수, 총 구매금액이 피처
  • 한 사람(행)을 설명하는 속성들

머신러닝 맥락에서는:

  • 입력값 = 피처(독립변수, X)
  • 정답값 =  라벨/타켓(종속변수, y)

 

 

 

전처리 단계에서 피처 관련 작업들


  1. 불필요한 피처 제거
    • 예: 고객ID(단순 식별용이라 분석에 불필요)
  2. 결측치 처리
    • 예: 나이 값이 비었을 때 평균/중앙값으로 대체
  3. 스케일링 / 정규화
    • 예: 구매횟수(1100) vs 총구매금액(10001000000) → 범위가 다르므로 표준화 필요
  4. 인코딩 (문자형 → 숫자형)
    • 예: 성별("남성/여성") → (0,1)
  5. 피처 엔지니어링
    • 기존 피처를 가공해서 새로운 피처 생성
    • 예: “구매횟수 / 가입기간 = 평균 구매 주기”라는 새로운 변수 만들기