[기초 프로젝트] 1일차 : 분석방법론 APPASA 세션 및 적용

드디어 [기초 프로젝트]가 시작되었다. 오전에는 기초 프로젝트 발제가 있었고, 오후에는 분석방법론[APPASA]에 대한 세션이 있었다. 이 분석방법론을 활용하여, 이번 기초 프로젝트를 진행하고자 한다.

아래와 같이 각 단계의 내용을 정리하고, 바로 아래쪽에 팀 프로젝트에 적용해보고자 한다. 아직은 초기 단계이기 때문에 하나씩 채워나갈 예정이다.

 

 

1.  Ask

  • 배경 이해하기 : 분석이 필요하게 된 상황과 문제의 맥락을 정리. 단순히 매출이 줄었다라고 하기보다는 언제부터 줄었고, 어떤 고객층에서 줄었는지, 외부 요인이 있었는지 파악한다.
  • 비즈니스 이해하기 : 배경에서 도출한 문제를 구체적인 질문이나 해결 과제로 바꿉니다. "왜 이런 현상이 생겼는가?", "어떻게 개선할 수 있는가?" 형태로 정리한다.
  • 협업 범위 정의하기 : 프로젝트에 참여하는 사람들과 그들의 역할을 명확히 한다.
  • 분석 범위 및 제한 이해하기 : 데이터로 할 수 있는 것과 할 수 없는 것을 미리 정리한다. 예: 기간, 지표, 사용할 수 있는 데이터의 수준.
  • 산출물 이해하기 : 분석 결과가 어떤 형태로 제공될지 정해본다. 예: 대시보드, 보고서, 프레젠테이션 등.
📌  프로젝트 적용 사항 (2025.09.04. 목요일)
1.  주제 : [커머스] H&M 고객 / 매출 데이터 분석

2. 선정 이유 : 팀원 모두가 다루어 보고 싶은 주제와 데이터 였으며, 고객 정보 및 매출 현황을 통해 타켓을 정하고 궁극적으로 매출 성장 전략을 수립하는 과정에 흥미가 있어 보였음

3. 배경과 비즈니스를 이해하여 "어떤 고객에게 매출이 줄었고 그 이유는 무엇인지", 혹은 "어떤 상품군이 매출이 높은지", "이를 분석하여 어떻게 개선할 수 있는지"를 파악해 나가보면 매출 성장 전략에 도움이 될 인사이트를 도출할 수 있음

4. 나는 이번 프로젝트에서 리더 및 리허설 발표 역할을 담당하였다. 하지만, 데이터 탐색 및 분석, 시각화 과정은 팀원 모두가 함께 하기로 정리 하였음

5. 오늘 저녁 이후 시간에는 팀원 모두가 3개의 데이터 파일(customer_hm, articles_hm, transactions_hm)이 어떻게 구성되어 있고, 어떤 컬럼들이 있으며, 어떤 정보를 활용하면 좋을지 데이터 탐색하고 검토하는 시간을 가졌음
그 결과, 공통된 컬럼을 통해 각 테이블 간의 관계성을 알 수 있었고, 't_dat'(구매일) 컬럼은 dtype= 'object'로 되어 있어 'datetime'으로 변환해야겠구나 라고 생각했고 이외에 다른 것들 또한 정리했다. 그리고 간단한 시각화를 통해서 '여성복'의 상품수와 구매내역이 많음을 알 수 있어 매출 성장 전략에 활용하면 좋겠다는 인사이트를 얻게 되었다.

⬇️ To_Be_Continue...

 

 

2.  Prepare

  • 데이터 출처 파악하기 : 필요한 데이터가 어디에서 오는지 확인합니다. 내부 시스템, 설문조사, 공개 데이터, 외부 API 등 출처를 명확히 기록한다.
  • 데이터 형식과 구조 이해하기 : 데이터가 어떤 형태(엑셀, CSV, SQL DB 등)인지, 어떤 단위(행 = 고객 1명, 열 = 속성)로 구성되어 있는지 확인한다.
  • (데이터 품질 검토하기 : 결측, 중복, 불일치 대략 검토, 품질 파악, 신뢰성/분석가능성 초기 판단, 15%가 이메일이 결측이, 중복 입력된 사례)
  • (데이터 접근성 및 권한 확인하기 : 개인정보 컬럼은 비식별화 후 사용, 데이터는 사내 보안 서버에만 저장 가능)
📌 프로젝트 적용사항 (2025.09.05. 금요일)

 

 

3.  Process

탁색적 데이터 분석 : 변수 간 관계 분포 트렌드 파악 인사이트의 단서 서칭, 데이터 특징을 빠르게 파악, 심화분석방향을 바르게 설정토록 고객 연령대별 구매 금액 평균을 살펴보니, 20대 후반에서 가장 높은 지출을 보임

결측치 처리하기 : 빠진 값을 찾고, 상황에 맞게 처리(다양한 방법 시도) 왜곡이 없고 머신러닝 모델 학습을 위해, 신뢰도 상승, 고객 나이 컬럼에서 비어있는 값은 동일 연령대 평균으로 채움

이상치 처리하기 : 지나치게 크거나 작은 비정상적인 값을 탐지, 제거, 적절히 조정, 왜곡방지를 위해, 극단값에 휘둘리지 않게 됨. 구매 금액이 1억원으로 기록된 값은 오류로 판단해 제거

데이터 정제하기 : 중복데이터 제거, 잘못된 입력값 수정, 형식 통일 등, 분석협업시 데이터 활용이 수월해지고 오류 예방 가능, 중복 가입된 고객id 를 제거하고, 날짜 포맷을 yyyy-mm-dd로 통일했다.

데이터 변환하기 : 분석에 적합하도록 변수를 변환, 새로운 변수를 생성. 구매 금액을 로그 변환해 분포를 안정화하고, 고객 연령대 등으로 묶어 새로운 변수로 만들었다.

(데이터 샘플링.리샘플링하기) : 데이터가 너무 크거나 불균형 -> 일부 추출하거나 비율을 맞춤. 구매 고객 중 10%만 샘플링하여 테스트 분석을 진행했다.

📌 적용

 

 

4.  Analyze

패턴 및 트렌드 분석 : 시간에 따른 변화, 집간 간 차이, 변수 간 상관관계를 분석해 규칙성 찾기. 변화의 방향을 이해해야 의사결정에 도움됨. 어제 어땟는가? 보다 앞으로 어떻게 될 것인가?를 예측 가능, 지난 얼마간 꾸준히 감소 추세였고, 어디에서 특히 하락 폭이 컸다.

인사이트 도출 : 데이터에서 발견한 사실을 정리하고, 비즈니스 문제 해결에 도움이 되는 해석을 붙인다. 데이터가 의미하는바를 명확히 설명해야 함. 단순히 수치 계산을 넘어 실제전략과 행동 지침으로 이어진다.

📌 적용

 

 

5.  Share

결과 시각화하기 : 메시지를 잘 전달할 수 잇는 형태로 시각화. 신규 고객 추세화를 막대그래프로 매출 추세는 선 그래프로 등

스토리로 전달하기 : 문제제기-분석-과정-발견-제안, 스토리로 전달, 심각한 척!!!

청중 맞춤형 보고 : 듣는 사람에 맞춰 결과를 다르게 표현, 경영진에게는 1페이지 요약본을 마케팅팀에는 채널별 세부 분석 리포트를...

(협업 도구 활용하기) : 노션, 구글 슬라이드 등 활용하여 공유, 누구나 검토 가능하도록, 소통 원활

(결과 검증 및 피드백 수집하기) : 이해 관계자들의 피드백 수집, 어떠한 데이터가 더 필요할 것 같다. 등

📌 적용

 

 

6.  Act

실행계획 수립하기 : 결과 바탕 구체적 실행 전략. 누가 언제 어떧ㄴ 방식으로?, 신규고객 확보를 위해 00을 하기로했다. 

전략 실행하기 : 수립한 실행계획 현장 적용. 캠페인 집행, 가격정책 변경, 서비스 기능 개선 등 구체적 행동 포함

성과 측정하기 : 실제 목표에 기여했는지 성과를 평가. 매출, 전환율 등. 000가 개선되었다.

지속적 개선하기 : 성과를 바탕을 전략을 조종하거나 새롭게 보완. 00는 효과적이엇으나, 00는 효과가 없었다. 

📌 적용