1️⃣ 데이터 전처리 (Pandas)
도대체 데이터 전처리가 왜 중요해?
- 모델/분석 전에 쓸 수 있는 상태로 만드는 과정: 결측·이상치·타입·중복·스케일·인덱스 정리
- 잘한 전처리 = 노이즈↓, 해석력/성능/재현성↑
2️⃣ 판다스는 뭐 어떻게 설치해?

3️⃣ 판다스 주요 데이터 타입은 뭐가 있지?

4️⃣ 시리즈(Series)가 뭐야?
- 값(values) + 인덱스(index)가 있는 1차원 자료. DataFrame의 한 컬럼이 Series
- 직접 생성 시 pd.Series


✅ 인덱스와 값만 존재한다. 컬러명이 없음!! 있으면 그건 데이터프레임 이다!
5️⃣ 데이터프레임(DataFrame)이 뭐야?
- 행(row)/열(column)이 있는 2차원 표, 여러 Series의 모음
- 직접 생성 시 pd.DataFrame

6️⃣ 데이터 프레임 씹고 뜯고 맛보고 즐기고!




7️⃣ 외부 데이터 불러오고, 저장하는 법은?
- 불러오기 : df = pd.read_csv("train.csv") | excel / json 다양한 형태 불러오고 저장 가능
- 저장하기 : df.to_csv("preprocessed_train.csv")
8️⃣ 데이터 인덱싱과 슬라이싱은 뭐지?
- 컬럼(열) 고르기
한 컬럼만 고를 때, df['age'] 하면 Series 형태로,
여러 컬럼을 고르면, df[['PassengerId','Survived','Pclass','Sex','Age']] 하면 DataFrame 형태로 나옴
- 로우(행) 고르기 - 인덱스 : 라벨 기반(.loc) & 정수 위치(.iloc)


- 로우(행) 고르기 - 슬라이싱



🔍 인덱싱과 슬라이싱 교안 살펴보기


끝.
끝나고 신나게 춤을...

'데이터 전처리 & 시각화' 카테고리의 다른 글
| [전처리/과제] pandas 전처리(1) - 인덱싱/슬라이싱 | 단일&다중조건 필터링 (0) | 2025.09.17 |
|---|---|
| [Pandas] 데이터셋 탐색 순서 (feat. 구글AI) (0) | 2025.09.12 |
| 그래프 시각화 한글 인코딩 문제 해결 코드 (0) | 2025.09.08 |