h&m 고객 / 매출 데이터
1. ASK
- 배경 이해하기
H&M은 1947년 설립되어 전 세계 70여 개국에서 의류, 홈, 뷰티, 아동 의류를 판매하는 대표적인 패션 기업입니다.
“h&m 을 이용하는 고객의 나잇대별 매출은 어떻게 되어있는지, 또는 많이 판매가 되고 있는 상품군(의류, 악세러리, 등)은 어떤 것이 있으며, 계절에 따른 매출의 변화가 있는지, 그리고 계절에 따른 매출이 높은 상품군은 무엇인지 등 매출 추이를 파악하여, 어떤 요인들이 수익성에 가장 큰 영향을 미치는가?”를 데이터로 확인하려 한다.
단순히 “많이 팔렸다”가 아니라, 시즌성, 나이 세그먼트(?)와 같은 구체적 요인과 트렌드를 파악하는 것이 핵심이다.
- 비즈니스 이해하기
데이터 분석의 최종 목적은 고객 경험을 개선하여 매출 성장에 기여하도록 인사이트를 제공하는 것이다.
구체적으로는:
1. 어떤 요인에 매출에 가장 큰 영향을 주는가? (예 : 상품의 가격, 디자인, 색상 등)
2. 특별한 시즌(블랙프라이데이, 크리스마스 등)이 매출에 큰 영향을 주는가?
3. 가장 매출이 높은 상품군과 낮은 상품군은 무엇인가?
4. 패션 뉴스 구독이 매출 또는 장기 고객?에 영향력이 있는가?
5. 온/오프라인의 매출 차이는 어떤가?
6. 구매력이 있는 나이(추정 30-40대)는 어디인가? 20대가 가장 많았다.
→ 수익 극대화 전략을 제시하고, 고객 경험 개선의 방향을 잡는 근거로 활용하는 것이 이번 비즈니스 목표이다!
- 분석 범위 및 제한 이해하기
1. 범위 : 고객 - 상품- 거래 데이터 (customer_hm.csv, transaction_hm.csv, articles_hm.csv)
(고객 세분화, 상품군 분석, 구매 패턴 탐색)
2. 제한 :
- 고객 만족도는 확인할 수 없음
- 동종업계 경쟁사에 대한 데이터를 확인할 수 없음
- 고객의 유입 경로를 알 수 없음
- 산출물 이해하기
H&M의 매출 성장 전략을 위한 의사결정을 지원할 수 있는 분석 보고서(PPT)를 만들자!!
- 나이대별 총 매출 시각화
- 계절/시즌별 구매 패턴 분석
- 나이대별 선호 상품군(탑5) 시각화??????
- 판매가 낮은 상품군의 패턴????
- 구매를 위해 온라인을 이용하는 고객의 나이대 -> 청년들 -> 결제프로세스 축소
-
ㅌ
2. Prepare
- 데이터 출처 파악하기 : 캐글 데이터
- 데이터 형식과 구조 이해하기
- 형식 : CSV 파일
- 구성 : customer_hm.csv, transaction_hm.csv, articles_hm.csv (2019년 1년치 데이터, 약 104만 행)
- 주요 컬럼 구조 : 구글 공유폴더를 참고한다.
- 데이터 품질 검토하기
1. price : 스웨덴 화폐단위 --> 원화 화폐단위 변환 시도. 소숫점 반올림 .round(-1)
2. t_dat : 구매일 컬럼을 'object' --> 'datetime' 변환
3. 결측치 : 'detail_desc' 416개 -> , '언노운' 처리
, 'fashion news frequency' 1개 --> 행을 삭제 or 'NONE' 대체하면 될까?
4. 중복 데이터 : transaction 테이블에서 중복데이터 약 8700개 존재 -> 중복값을 찍어본다.
→ 위와 같은 품질 이슈들이 있었으나, 처리가능한 일반적인 수준이므로 최종적으로 해당 데이터셋을 사용하기로 결정합니다!
정규분포 -
목표컬럼, 핵심컬럼 이상치 체킹
이상치 값
price 이상치? age 이상치?
융합해서 새로운 파생변수?
3. Process
- 0. 탐색적 데이터 분석
'프로젝트' 카테고리의 다른 글
| [기초 프로젝트] 2일차 : 데이터 탐색 및 전처리(중복값, 전처리) 정리(feat. 멘붕) (0) | 2025.09.05 |
|---|---|
| [기초 프로젝트] 1일차 : 분석방법론 APPASA 세션 및 적용 (0) | 2025.09.04 |
| [기초 프로젝트] 기획안 작성하기 (0) | 2025.09.04 |