[Pandas] 데이터셋 탐색 순서 (feat. 구글AI)

데이터 탐색은 어떤 것들이 있고, 어떤 순서로 확인해보면 좋을지 갑자기 궁금해져 구글링을 통해 알아보았다.

판다스(Pandas)로 데이터셋을 탐색하는 일반적인 순서는 다음과 같습니다: 데이터 불러오기 > 데이터 확인 (head, info, describe) > 결측치, 이상치 확인 및 처리 > 특성(Feature) 탐색 및 이해 (컬럼 확인, 타입 확인 등) > 데이터 정렬 및 필터링 > 데이터 시각화 > 통계 분석 순서로 진행합니다.

데이터 불러오기 및 초기 확인

pd.read_csv(), pd.read_excel() 등을 사용하여 CSV, Excel 파일 등에서 데이터를 불러옵니다.
df.head(), df.tail(): 데이터의 첫 5행과 마지막 5행을 확인하여 데이터의 형태를 파악합니다.
df.info(): 데이터프레임의 각 컬럼에 대한 정보(데이터 타입, 비어 있지 않은 값의 수)를 확인합니다.
df.describe(): 수치형 데이터의 요약 통계량(평균, 표준편차, 최소값, 최대값 등)을 확인합니다.
df.columns: 데이터프레임의 컬럼 이름들을 확인합니다.

결측치 및 이상치 확인/처리

df.isnull().sum(): 각 컬럼의 결측치(NaN) 개수를 확인합니다.
결측치가 많다면 해당 컬럼을 삭제하거나, 다른 값으로 채우는(fillna) 등의 처리를 합니다.
데이터 분포를 보고 이상치(Outlier)가 있는지 확인합니다.

특성(Feature) 탐색 및 이해

df.dtypes: 각 컬럼의 데이터 타입을 확인합니다.
df['column'].value_counts(): 특정 컬럼의 고유값별 개수를 확인합니다.
df.nunique(): 각 컬럼의 고유한 값의 개수를 확인합니다.

데이터 정렬 및 필터링

df.sort_values(by='column_name'): 특정 컬럼의 값에 따라 데이터를 정렬합니다.
df.sort_index(axis=1): 컬럼 이름을 알파벳 순으로 정렬합니다.
조건을 사용하여 원하는 행만 필터링합니다 (예: df[df['age'] > 30]).

데이터 시각화

히스토그램, 막대그래프, 산점도 등 다양한 시각화 기법을 사용하여 데이터의 분포, 관계, 패턴을 파악합니다.
`df.plot()`와 같은 판다스 내장 함수를 사용하거나, Matplotlib, Seaborn 같은 라이브러리를 활용합니다.

통계 분석

데이터의 집계, 그룹화, 상관관계 등을 분석하여 더 깊이 있는 인사이트를 도출합니다.
groupby(), agg(), corr() 등의 함수를 사용합니다.

이러한 단계를 거쳐 데이터셋의 전반적인 구조와 특성을 파악하고, 분석 목적에 맞는 전처리 및 인사이트를 발견할 수 있습니다.

'데이터 전처리 & 시각화' 카테고리의 다른 글

[전처리/복습] 데이터 전처리 부실공사 보수하고 기초부터 탄탄하게!(1) - Series&DataFrame \| 인덱싱/슬라이싱 (1)	2025.09.16
그래프 시각화 한글 인코딩 문제 해결 코드 (0)	2025.09.08
[전처리/시각화] 개인과제 정리 (0)	2025.09.03

데이터 불러오기 및 초기 확인

결측치 및 이상치 확인/처리

특성(Feature) 탐색 및 이해

데이터 정렬 및 필터링

데이터 시각화

통계 분석

'데이터 전처리 & 시각화' 카테고리의 다른 글

티스토리툴바