머신러닝을 위한 테이블 생성과 대시보드 스케치에 대한 회의 진행
진행사항
- city, inst 구간화
- topN + other 구간화
집계 과정에서 범주형 컬럼 가져올 때 주의점⚠️
❌ 이유
- nan도 그냥 first로 잡힘
- 운 나쁘면 다 nan 나옴
- 따라서, 결측이 있는 데이터에서 단독 사용 금지
팀 회의 | 결정사항
- 수치형 결측치 중앙값으로 채워서 다시 해볼 것
- 인코딩 후 계층군집 해볼것
- 전처리 과정 : birthplace 카테고화 ← 나
- 통계 과정 : 전처리 과정 birthplace에서 추가 카테고리화 ← 수아님
- success_master 만드는 과정 : 테이블 집계 - 조인 과정 재점검 ← 소희님 (모두함께)
- reinvest_flag → 수아님만 확인하면 되므로, 수아님이 조인해서 사용하기로!
⇒ success_master 테이블과 founder_master 테이블 변경사항을 적용한 통계 결과내용 업데이트 확인 필요
- 대시보드 구성 계획 - 스케치
- vc 투자 패턴에 대한 클러스터 조합 매칭 → vc 클러스터별로 우선 봐야할 스타트업
튜터링
- 대시보드
- 특정연도에 특정산업의 성공률을 보면 재밌을 것 같다.
- 필터링 시 → KPI 뿐만 아니라 그래프도 바뀌도록! interactive 상호작용
- 각각에 따라서 적용되는 것을 다르게 해야겠네요
회고
EDA, 통계, 머신러닝 등 각 단계 진행을 위해서 그때마다 조인과 집계를 해야한다는 것이 참 비효율적인 것 같다..으아아
아무래도 계속 언급되었던 "분석 목적" 이라는 것이 다르기 때문이겠지.
'프로젝트' 카테고리의 다른 글
| [프로젝트 #4] 12월 24일(수) - TIL (0) | 2025.12.24 |
|---|---|
| [프로젝트 #4] 12월 22일(월) -TIL (1) | 2025.12.22 |
| [프로젝트 #4] 12월 19일 (금) - TIL (0) | 2025.12.19 |