[기초 프로젝트] H&M 고객 / 매출 데이터 분석

h&m 고객 / 매출 데이터

1. ASK

배경 이해하기

H&M은 1947년 설립되어 전 세계 70여 개국에서 의류, 홈, 뷰티, 아동 의류를 판매하는 대표적인 패션 기업입니다.

“h&m 을 이용하는 고객의 나잇대별 매출은 어떻게 되어있는지, 또는 많이 판매가 되고 있는 상품군(의류, 악세러리, 등)은 어떤 것이 있으며, 계절에 따른 매출의 변화가 있는지, 그리고 계절에 따른 매출이 높은 상품군은 무엇인지 등 매출 추이를 파악하여, 어떤 요인들이 수익성에 가장 큰 영향을 미치는가?”를 데이터로 확인하려 한다.

단순히 “많이 팔렸다”가 아니라, 시즌성, 나이 세그먼트(?)와 같은 구체적 요인과 트렌드를 파악하는 것이 핵심이다.

비즈니스 이해하기

데이터 분석의 최종 목적은 고객 경험을 개선하여 매출 성장에 기여하도록 인사이트를 제공하는 것이다.

구체적으로는:
1. 어떤 요인에 매출에 가장 큰 영향을 주는가? (예 : 상품의 가격, 디자인, 색상 등)
2. 특별한 시즌(블랙프라이데이, 크리스마스 등)이 매출에 큰 영향을 주는가?
3. 가장 매출이 높은 상품군과 낮은 상품군은 무엇인가?
4. 패션 뉴스 구독이 매출 또는 장기 고객?에 영향력이 있는가?
5. 온/오프라인의 매출 차이는 어떤가?
6. 구매력이 있는 나이(추정 30-40대)는 어디인가? 20대가 가장 많았다.

→ 수익 극대화 전략을 제시하고, 고객 경험 개선의 방향을 잡는 근거로 활용하는 것이 이번 비즈니스 목표이다!

분석 범위 및 제한 이해하기

1. 범위 : 고객 - 상품- 거래 데이터 (customer_hm.csv, transaction_hm.csv, articles_hm.csv)
(고객 세분화, 상품군 분석, 구매 패턴 탐색)

2. 제한 :
- 고객 만족도는 확인할 수 없음
- 동종업계 경쟁사에 대한 데이터를 확인할 수 없음
- 고객의 유입 경로를 알 수 없음

산출물 이해하기

H&M의 매출 성장 전략을 위한 의사결정을 지원할 수 있는 분석 보고서(PPT)를 만들자!!
- 나이대별 총 매출 시각화
- 계절/시즌별 구매 패턴 분석
- 나이대별 선호 상품군(탑5) 시각화??????
- 판매가 낮은 상품군의 패턴????
- 구매를 위해 온라인을 이용하는 고객의 나이대 -> 청년들 -> 결제프로세스 축소
-

ㅌ

2. Prepare

데이터 출처 파악하기 : 캐글 데이터
데이터 형식과 구조 이해하기

- 형식 : CSV 파일
- 구성 : customer_hm.csv, transaction_hm.csv, articles_hm.csv (2019년 1년치 데이터, 약 104만 행)
- 주요 컬럼 구조 : 구글 공유폴더를 참고한다.

데이터 품질 검토하기

1. price : 스웨덴 화폐단위 --> 원화 화폐단위 변환 시도. 소숫점 반올림 .round(-1)
2. t_dat : 구매일 컬럼을 'object' --> 'datetime' 변환
3. 결측치 : 'detail_desc' 416개 -> , '언노운' 처리
, 'fashion news frequency' 1개 --> 행을 삭제 or 'NONE' 대체하면 될까?
4. 중복 데이터 : transaction 테이블에서 중복데이터 약 8700개 존재 -> 중복값을 찍어본다.

→ 위와 같은 품질 이슈들이 있었으나, 처리가능한 일반적인 수준이므로 최종적으로 해당 데이터셋을 사용하기로 결정합니다!

정규분포 -

목표컬럼, 핵심컬럼 이상치 체킹

이상치 값

price 이상치? age 이상치?

융합해서 새로운 파생변수?

3. Process

0. 탐색적 데이터 분석

'프로젝트' 카테고리의 다른 글

[기초 프로젝트] 2일차 : 데이터 탐색 및 전처리(중복값, 전처리) 정리(feat. 멘붕) (0)	2025.09.05
[기초 프로젝트] 1일차 : 분석방법론 APPASA 세션 및 적용 (0)	2025.09.04
[기초 프로젝트] 기획안 작성하기 (0)	2025.09.04

[기초 프로젝트] H&M 고객 / 매출 데이터 분석 | 매출 성장 전략 수립

'프로젝트' 카테고리의 다른 글

티스토리툴바