프로젝트 발제 후 2일차
[🚨난관 봉착]
어제(10.30) 프로젝트 발제가 끝나고, 게임 데이터를 가지고 데이터 탐색을 했고 오늘은 탐색에서 분석하고 싶은 주제들을 4개 선정하여 1인 1개씩 심층 EDA를 진행하였다.
하지만, 오후에 튜터님과 게임데이터를 선택한 조가 모여서 나온 결정사항은... 데이터의 분포가 대시보드 제작에 최적화 되어있고, 통계와 머신러닝을 진행하기에는 부족한 면이 있다고 판단하여 전체적으로 게임데이터는 Drop 되었다.
그리하여 주제를 다시 정하게 되었다. 게임 데이터를 하지 못하게 된 점이 아쉽기는 하지만, 그래도 더 진행되기 전에 결정나서 다행이다.
👍🏻 다시 프로젝트 1일차 !
1. 도메인 선정
- 스타벅스 데이터
- 스타벅스의 데이터분석가라면,,,
- 고객들에게 나가는 프로모션에 대한 데이터로 의미있는 인사이트를 뽑아내야 함
>💡 데이터를 살펴보니
전처리 과정이 정말 중요할 것 같은 생각이 들었음. 결측치 처리 방향이라던지, 리스트나 딕셔너리로 채워져있는 데이터를 어떻게 처리할 것인지 등등
2. 주제 선정
- 도메인이 변경되고 나서 팀원들과 간단히 데이터 탐색하는 시간을 갖고 분석하고 싶은 방향에 대해 토의를 진행했다.
- 토의 결과
- 고객 분석 ⬅️ 2명
- 프로모션 분석 ⬅️ 2명
이렇게 나누어 진행하기로 결정함! 그 중에서 나는 프로모션 분석에 대해 진행하기로 했다.
[🔍 My 분석 방향] 할 수 있겠지?..ㅎㅎ
프로모션에 집중하여,
고객이 프로모션 offer를 받고 확인하고 거래까지 이루어지는 과정에서 거래 직전에 이탈하는 고객들을 파악하여 그 원인을 분석해보기로 한다.
3. 전처리 방향
- 우선 데이터셋 3개 merge 진행
- 각각의 데이터를 전처리 후 merge를 하느냐? vs merge 후 전처리를 하느냐?
- 일단 merge 후 데이터가 뻥튀기가 되지 않으면 merge하고 전처리 진행해도 된다는 튜터님의 의견 참고
- 고객(profile) 데이터
- gender : 결측치 및 이상치("O") ➡️ "unknown" 대체
- income : 월급/수입 관련 데이터의 결측치는 극단값의 영향이 클 수 있음 ➡️ median(중앙값) 대체
- age : 118세를 어떻게 처리하나? (알리고싶지 않은 값 또는 입력되지 않은 값을 118로 일괄 처리한 데이터?) ➡️ Drop 결정
▼ 나이 분포 Histogram
지금까지 결정된 사항은 끝!
4. 주말동안 할 것
- 할당된 주제를 가지고 데이터 탐색 및 EDA
- 태블로 강의 완강
- 머신러닝 강의 최소 4개
- SQLD ...공부 까지!
아자아자!
'프로젝트' 카테고리의 다른 글
| [프로젝트 #3-2] 탐색적 그리고 심층 EDA - 취합 및 방향 설정 (0) | 2025.11.03 |
|---|---|
| [프로젝트 #2-9] 두 번째 프로젝트 발표회가 끝났다(feedback). (0) | 2025.10.23 |
| [프로젝트 #2-8] 프로젝트 내용과 코드는 설명할 수 있을 정도로 확실하게! (1) | 2025.10.22 |
