데이터 탐색은 어떤 것들이 있고, 어떤 순서로 확인해보면 좋을지 갑자기 궁금해져 구글링을 통해 알아보았다.
판다스(Pandas)로 데이터셋을 탐색하는 일반적인 순서는 다음과 같습니다: 데이터 불러오기 > 데이터 확인 (head, info, describe) > 결측치, 이상치 확인 및 처리 > 특성(Feature) 탐색 및 이해 (컬럼 확인, 타입 확인 등) > 데이터 정렬 및 필터링 > 데이터 시각화 > 통계 분석 순서로 진행합니다.
데이터 불러오기 및 초기 확인
pd.read_csv(), pd.read_excel() 등을 사용하여 CSV, Excel 파일 등에서 데이터를 불러옵니다.
df.head(), df.tail(): 데이터의 첫 5행과 마지막 5행을 확인하여 데이터의 형태를 파악합니다.
df.info(): 데이터프레임의 각 컬럼에 대한 정보(데이터 타입, 비어 있지 않은 값의 수)를 확인합니다.
df.describe(): 수치형 데이터의 요약 통계량(평균, 표준편차, 최소값, 최대값 등)을 확인합니다.
df.columns: 데이터프레임의 컬럼 이름들을 확인합니다.
결측치 및 이상치 확인/처리
df.isnull().sum(): 각 컬럼의 결측치(NaN) 개수를 확인합니다.
결측치가 많다면 해당 컬럼을 삭제하거나, 다른 값으로 채우는(fillna) 등의 처리를 합니다.
데이터 분포를 보고 이상치(Outlier)가 있는지 확인합니다.
특성(Feature) 탐색 및 이해
df.dtypes: 각 컬럼의 데이터 타입을 확인합니다.
df['column'].value_counts(): 특정 컬럼의 고유값별 개수를 확인합니다.
df.nunique(): 각 컬럼의 고유한 값의 개수를 확인합니다.
데이터 정렬 및 필터링
df.sort_values(by='column_name'): 특정 컬럼의 값에 따라 데이터를 정렬합니다.
df.sort_index(axis=1): 컬럼 이름을 알파벳 순으로 정렬합니다.
조건을 사용하여 원하는 행만 필터링합니다 (예: df[df['age'] > 30]).
데이터 시각화
히스토그램, 막대그래프, 산점도 등 다양한 시각화 기법을 사용하여 데이터의 분포, 관계, 패턴을 파악합니다.
`df.plot()`와 같은 판다스 내장 함수를 사용하거나, Matplotlib, Seaborn 같은 라이브러리를 활용합니다.
통계 분석
데이터의 집계, 그룹화, 상관관계 등을 분석하여 더 깊이 있는 인사이트를 도출합니다.
groupby(), agg(), corr() 등의 함수를 사용합니다.
이러한 단계를 거쳐 데이터셋의 전반적인 구조와 특성을 파악하고, 분석 목적에 맞는 전처리 및 인사이트를 발견할 수 있습니다.