[기초 프로젝트] H&M 고객 / 매출 데이터 분석 | 매출 성장 전략 수립

h&m 고객 / 매출 데이터 

1. ASK

  • 배경 이해하기 
H&M은 1947년 설립되어 전 세계 70여 개국에서 의류, 홈, 뷰티, 아동 의류를 판매하는 대표적인 패션 기업입니다.

“h&m 을 이용하는 고객의 나잇대별 매출은 어떻게 되어있는지, 또는 많이 판매가 되고 있는 상품군(의류, 악세러리,  등)은 어떤 것이 있으며, 계절에 따른 매출의 변화가 있는지, 그리고 계절에 따른 매출이 높은 상품군은 무엇인지 등 매출 추이를 파악하여, 어떤 요인들이 수익성에 가장 큰 영향을 미치는가?”를 데이터로 확인하려 한다.

단순히 “많이 팔렸다”가 아니라, 시즌성, 나이 세그먼트(?)와 같은 구체적 요인과 트렌드를 파악하는 것이 핵심이다.
  • 비즈니스 이해하기
데이터 분석의 최종 목적은 고객 경험을 개선하여 매출 성장에 기여하도록 인사이트를 제공하는 것이다.

구체적으로는:
 1. 어떤 요인에 매출에 가장 큰 영향을 주는가? (예 : 상품의 가격, 디자인, 색상 등)
 2. 특별한 시즌(블랙프라이데이, 크리스마스 등)이 매출에 큰 영향을 주는가?
 3. 가장 매출이 높은 상품군과 낮은 상품군은 무엇인가?
 4. 패션 뉴스 구독이 매출 또는 장기 고객?에 영향력이 있는가?
 5. 온/오프라인의 매출 차이는 어떤가? 
 6. 구매력이 있는 나이(추정 30-40대)는 어디인가? 20대가 가장 많았다.

→ 수익 극대화 전략을 제시하고, 고객 경험 개선의 방향을 잡는 근거로 활용하는 것이 이번 비즈니스 목표이다!
  • 분석 범위 및 제한 이해하기
1. 범위 : 고객 - 상품- 거래 데이터 (customer_hm.csv, transaction_hm.csv, articles_hm.csv)
     (고객 세분화, 상품군 분석, 구매 패턴 탐색)

2. 제한 :
   - 고객 만족도는 확인할 수 없음
   - 동종업계 경쟁사에 대한 데이터를 확인할 수 없음
   - 고객의 유입 경로를 알 수 없음
  • 산출물 이해하기
H&M의 매출 성장 전략을 위한 의사결정을 지원할 수 있는 분석 보고서(PPT)를 만들자!!
 - 나이대별 총 매출 시각화
 - 계절/시즌별 구매 패턴 분석
 - 나이대별 선호 상품군(탑5) 시각화??????
 - 판매가 낮은 상품군의 패턴????
 - 구매를 위해 온라인을 이용하는 고객의 나이대 -> 청년들 -> 결제프로세스 축소
 - 

 

2. Prepare

  • 데이터 출처 파악하기 : 캐글 데이터
  • 데이터 형식과 구조 이해하기
 - 형식 : CSV 파일
 - 구성 : customer_hm.csv, transaction_hm.csv, articles_hm.csv (2019년 1년치 데이터, 약 104만 행)
 - 주요 컬럼 구조 : 구글 공유폴더를 참고한다.
  • 데이터 품질 검토하기
1. price : 스웨덴 화폐단위 --> 원화 화폐단위 변환 시도. 소숫점 반올림 .round(-1)  
2. t_dat : 구매일 컬럼을 'object' --> 'datetime' 변환
3. 결측치 : 'detail_desc' 416개  -> , '언노운' 처리
   , 'fashion news frequency' 1개   --> 행을 삭제 or 'NONE' 대체하면 될까? 
4. 중복 데이터 : transaction 테이블에서 중복데이터 약 8700개 존재 -> 중복값을 찍어본다.

→ 위와 같은 품질 이슈들이 있었으나, 처리가능한 일반적인 수준이므로 최종적으로 해당 데이터셋을 사용하기로 결정합니다!

 

정규분포 -

목표컬럼, 핵심컬럼 이상치 체킹 

이상치 값

price 이상치? age 이상치?

융합해서 새로운 파생변수?

 

3. Process

  • 0. 탐색적 데이터 분석