[프로젝트 #4] 12월 23일(화) - TIL

머신러닝을 위한 테이블 생성과 대시보드 스케치에 대한 회의 진행

 

진행사항

  • city, inst 구간화
    • topN + other 구간화
집계 과정에서 범주형 컬럼 가져올 때 주의점⚠️
❌ 이유
- nan도 그냥 first로 잡힘
- 운 나쁘면 다 nan 나옴
- 따라서, 결측이 있는 데이터에서 단독 사용 금지

 

 

팀 회의 | 결정사항

  • 수치형 결측치 중앙값으로 채워서 다시 해볼 것
  • 인코딩 후 계층군집 해볼것
  • 전처리 과정 : birthplace 카테고화 ← 나
  • 통계 과정 : 전처리 과정 birthplace에서 추가 카테고리화 ← 수아님
  • success_master 만드는 과정 : 테이블 집계 - 조인 과정 재점검 ← 소희님 (모두함께)
  • reinvest_flag → 수아님만 확인하면 되므로, 수아님이 조인해서 사용하기로!

⇒ success_master 테이블과 founder_master 테이블 변경사항을 적용한 통계 결과내용 업데이트 확인 필요

  • 대시보드 구성 계획 - 스케치
  • vc 투자 패턴에 대한 클러스터 조합 매칭 → vc 클러스터별로 우선 봐야할 스타트업

 

튜터링

  • 대시보드
  • 특정연도에 특정산업의 성공률을 보면 재밌을 것 같다.
  • 필터링 시 → KPI 뿐만 아니라 그래프도 바뀌도록! interactive 상호작용
  • 각각에 따라서 적용되는 것을 다르게 해야겠네요

 

 

회고

EDA, 통계, 머신러닝 등 각 단계 진행을 위해서 그때마다 조인과 집계를 해야한다는 것이 참 비효율적인 것 같다..으아아

아무래도 계속 언급되었던 "분석 목적" 이라는 것이 다르기 때문이겠지.

'프로젝트' 카테고리의 다른 글

[프로젝트 #4] 12월 24일(수) - TIL  (0) 2025.12.24
[프로젝트 #4] 12월 22일(월) -TIL  (1) 2025.12.22
[프로젝트 #4] 12월 19일 (금) - TIL  (0) 2025.12.19