드디어 [기초 프로젝트]가 시작되었다. 오전에는 기초 프로젝트 발제가 있었고, 오후에는 분석방법론[APPASA]에 대한 세션이 있었다. 이 분석방법론을 활용하여, 이번 기초 프로젝트를 진행하고자 한다.
아래와 같이 각 단계의 내용을 정리하고, 바로 아래쪽에 팀 프로젝트에 적용해보고자 한다. 아직은 초기 단계이기 때문에 하나씩 채워나갈 예정이다.
1. Ask
- 배경 이해하기 : 분석이 필요하게 된 상황과 문제의 맥락을 정리. 단순히 매출이 줄었다라고 하기보다는 언제부터 줄었고, 어떤 고객층에서 줄었는지, 외부 요인이 있었는지 파악한다.
- 비즈니스 이해하기 : 배경에서 도출한 문제를 구체적인 질문이나 해결 과제로 바꿉니다. "왜 이런 현상이 생겼는가?", "어떻게 개선할 수 있는가?" 형태로 정리한다.
- 협업 범위 정의하기 : 프로젝트에 참여하는 사람들과 그들의 역할을 명확히 한다.
- 분석 범위 및 제한 이해하기 : 데이터로 할 수 있는 것과 할 수 없는 것을 미리 정리한다. 예: 기간, 지표, 사용할 수 있는 데이터의 수준.
- 산출물 이해하기 : 분석 결과가 어떤 형태로 제공될지 정해본다. 예: 대시보드, 보고서, 프레젠테이션 등.
📌 프로젝트 적용 사항 (2025.09.04. 목요일)
1. 주제 : [커머스] H&M 고객 / 매출 데이터 분석
2. 선정 이유 : 팀원 모두가 다루어 보고 싶은 주제와 데이터 였으며, 고객 정보 및 매출 현황을 통해 타켓을 정하고 궁극적으로 매출 성장 전략을 수립하는 과정에 흥미가 있어 보였음
3. 배경과 비즈니스를 이해하여 "어떤 고객에게 매출이 줄었고 그 이유는 무엇인지", 혹은 "어떤 상품군이 매출이 높은지", "이를 분석하여 어떻게 개선할 수 있는지"를 파악해 나가보면 매출 성장 전략에 도움이 될 인사이트를 도출할 수 있음
4. 나는 이번 프로젝트에서 리더 및 리허설 발표 역할을 담당하였다. 하지만, 데이터 탐색 및 분석, 시각화 과정은 팀원 모두가 함께 하기로 정리 하였음
5. 오늘 저녁 이후 시간에는 팀원 모두가 3개의 데이터 파일(customer_hm, articles_hm, transactions_hm)이 어떻게 구성되어 있고, 어떤 컬럼들이 있으며, 어떤 정보를 활용하면 좋을지 데이터 탐색하고 검토하는 시간을 가졌음
그 결과, 공통된 컬럼을 통해 각 테이블 간의 관계성을 알 수 있었고, 't_dat'(구매일) 컬럼은 dtype= 'object'로 되어 있어 'datetime'으로 변환해야겠구나 라고 생각했고 이외에 다른 것들 또한 정리했다. 그리고 간단한 시각화를 통해서 '여성복'의 상품수와 구매내역이 많음을 알 수 있어 매출 성장 전략에 활용하면 좋겠다는 인사이트를 얻게 되었다.
⬇️ To_Be_Continue...
2. Prepare
- 데이터 출처 파악하기 : 필요한 데이터가 어디에서 오는지 확인합니다. 내부 시스템, 설문조사, 공개 데이터, 외부 API 등 출처를 명확히 기록한다.
- 데이터 형식과 구조 이해하기 : 데이터가 어떤 형태(엑셀, CSV, SQL DB 등)인지, 어떤 단위(행 = 고객 1명, 열 = 속성)로 구성되어 있는지 확인한다.
- (데이터 품질 검토하기 : 결측, 중복, 불일치 대략 검토, 품질 파악, 신뢰성/분석가능성 초기 판단, 15%가 이메일이 결측이, 중복 입력된 사례)
- (데이터 접근성 및 권한 확인하기 : 개인정보 컬럼은 비식별화 후 사용, 데이터는 사내 보안 서버에만 저장 가능)
📌 프로젝트 적용사항 (2025.09.05. 금요일)
3. Process
탁색적 데이터 분석 : 변수 간 관계 분포 트렌드 파악 인사이트의 단서 서칭, 데이터 특징을 빠르게 파악, 심화분석방향을 바르게 설정토록 고객 연령대별 구매 금액 평균을 살펴보니, 20대 후반에서 가장 높은 지출을 보임
결측치 처리하기 : 빠진 값을 찾고, 상황에 맞게 처리(다양한 방법 시도) 왜곡이 없고 머신러닝 모델 학습을 위해, 신뢰도 상승, 고객 나이 컬럼에서 비어있는 값은 동일 연령대 평균으로 채움
이상치 처리하기 : 지나치게 크거나 작은 비정상적인 값을 탐지, 제거, 적절히 조정, 왜곡방지를 위해, 극단값에 휘둘리지 않게 됨. 구매 금액이 1억원으로 기록된 값은 오류로 판단해 제거
데이터 정제하기 : 중복데이터 제거, 잘못된 입력값 수정, 형식 통일 등, 분석협업시 데이터 활용이 수월해지고 오류 예방 가능, 중복 가입된 고객id 를 제거하고, 날짜 포맷을 yyyy-mm-dd로 통일했다.
데이터 변환하기 : 분석에 적합하도록 변수를 변환, 새로운 변수를 생성. 구매 금액을 로그 변환해 분포를 안정화하고, 고객 연령대 등으로 묶어 새로운 변수로 만들었다.
(데이터 샘플링.리샘플링하기) : 데이터가 너무 크거나 불균형 -> 일부 추출하거나 비율을 맞춤. 구매 고객 중 10%만 샘플링하여 테스트 분석을 진행했다.
📌 적용
4. Analyze
패턴 및 트렌드 분석 : 시간에 따른 변화, 집간 간 차이, 변수 간 상관관계를 분석해 규칙성 찾기. 변화의 방향을 이해해야 의사결정에 도움됨. 어제 어땟는가? 보다 앞으로 어떻게 될 것인가?를 예측 가능, 지난 얼마간 꾸준히 감소 추세였고, 어디에서 특히 하락 폭이 컸다.
인사이트 도출 : 데이터에서 발견한 사실을 정리하고, 비즈니스 문제 해결에 도움이 되는 해석을 붙인다. 데이터가 의미하는바를 명확히 설명해야 함. 단순히 수치 계산을 넘어 실제전략과 행동 지침으로 이어진다.
📌 적용
5. Share
결과 시각화하기 : 메시지를 잘 전달할 수 잇는 형태로 시각화. 신규 고객 추세화를 막대그래프로 매출 추세는 선 그래프로 등
스토리로 전달하기 : 문제제기-분석-과정-발견-제안, 스토리로 전달, 심각한 척!!!
청중 맞춤형 보고 : 듣는 사람에 맞춰 결과를 다르게 표현, 경영진에게는 1페이지 요약본을 마케팅팀에는 채널별 세부 분석 리포트를...
(협업 도구 활용하기) : 노션, 구글 슬라이드 등 활용하여 공유, 누구나 검토 가능하도록, 소통 원활
(결과 검증 및 피드백 수집하기) : 이해 관계자들의 피드백 수집, 어떠한 데이터가 더 필요할 것 같다. 등
📌 적용
6. Act
실행계획 수립하기 : 결과 바탕 구체적 실행 전략. 누가 언제 어떧ㄴ 방식으로?, 신규고객 확보를 위해 00을 하기로했다.
전략 실행하기 : 수립한 실행계획 현장 적용. 캠페인 집행, 가격정책 변경, 서비스 기능 개선 등 구체적 행동 포함
성과 측정하기 : 실제 목표에 기여했는지 성과를 평가. 매출, 전환율 등. 000가 개선되었다.
지속적 개선하기 : 성과를 바탕을 전략을 조종하거나 새롭게 보완. 00는 효과적이엇으나, 00는 효과가 없었다.
📌 적용
'프로젝트' 카테고리의 다른 글
| [기초 프로젝트] 2일차 : 데이터 탐색 및 전처리(중복값, 전처리) 정리(feat. 멘붕) (0) | 2025.09.05 |
|---|---|
| [기초 프로젝트] H&M 고객 / 매출 데이터 분석 | 매출 성장 전략 수립 (0) | 2025.09.05 |
| [기초 프로젝트] 기획안 작성하기 (0) | 2025.09.04 |