[전처리/복습] 데이터 전처리 부실공사 보수하고 기초부터 탄탄하게!(1) - Series&DataFrame | 인덱싱/슬라이싱

1️⃣ 데이터 전처리 (Pandas)

도대체 데이터 전처리가 왜 중요해?

  • 모델/분석 전에 쓸 수 있는 상태로 만드는 과정: 결측·이상치·타입·중복·스케일·인덱스 정리
  • 잘한 전처리 = 노이즈↓, 해석력/성능/재현성↑

 

 

2️⃣ 판다스는 뭐 어떻게 설치해?

 

 

3️⃣ 판다스 주요 데이터 타입은 뭐가 있지?

 

 

4️⃣ 시리즈(Series)가 뭐야?

  • 값(values) + 인덱스(index)가 있는 1차원 자료. DataFrame의 한 컬럼이 Series
  • 직접 생성 시 pd.Series

✅ 인덱스와 값만 존재한다.  컬러명이 없음!! 있으면 그건 데이터프레임 이다!

 

 

5️⃣ 데이터프레임(DataFrame)이 뭐야?

  • 행(row)/열(column)이 있는 2차원 표, 여러 Series의 모음
  • 직접 생성 시 pd.DataFrame

DataFrame

 

 

6️⃣ 데이터 프레임 씹고 뜯고 맛보고 즐기고!

 

 

7️⃣ 외부 데이터 불러오고, 저장하는 법은?

  1. 불러오기 : df = pd.read_csv("train.csv")   |   excel / json 다양한 형태 불러오고 저장 가능
  2. 저장하기 : df.to_csv("preprocessed_train.csv")

 

 

8️⃣ 데이터 인덱싱과 슬라이싱은 뭐지?

  •  컬럼(열) 고르기
한 컬럼만 고를 때, df['age'] 하면 Series 형태로,
여러 컬럼을 고르면, df[['PassengerId','Survived','Pclass','Sex','Age']] 하면 DataFrame 형태로 나옴
  • 로우(행) 고르기 - 인덱스   : 라벨 기반(.loc)  &  정수 위치(.iloc)

  • 로우(행) 고르기 - 슬라이싱

 

 

🔍 인덱싱과 슬라이싱 교안 살펴보기

인덱싱

 

끝.

끝나고 신나게 춤을...