통계를 위한 파생변수 생성
- success_flag : 성공 플래그
- size_bin : 회사 규모
- diff_tot_cur_rel : 관계 변화량
- reinvest_flag (재투자 여부)
- total_invested : 원금
- round_tempo_months : 투자 템포 (개월)
- time_to_last_round : 첫 투자 → 마지막 투자
통계검정 시작 전 전략
- 통계를 위한 조인
- 목적에 맞게 집계 및 조인
- 집계 및 조인 후 → 한 행의 의미가 명확해야 함
가설 설정 → 창업자 part 담당
📌 스타트업 창업자의 특성은 투자 성공률에 영향을 미친다.
- 창업자의 출생지는 투자 성공률과 유의미한 상관관계가 있다. (예: 대도시, 국가, 엑싯률 차이)
- 창업자의 출신 학교는 투자 성공률과 유의미한 상관관계가 있다.(예: 명문대)
- 창업자가 높은 학위를 가지고 있을 수록 성공확률이 높다.
- IT 전공 출신의 창업자의 기업이 투자 성공률이 높다.
- 창업자 전공과 회사 카테고리가 일치하면 성공확률이 높다.
- 마일스톤 키워드에 따라 성공률에 유의미한 차이가 있다.
- 관계 수 변화가 적을수록 성공확률이 높다. (obj)
- 회사의 규모가 클수록 성공확률이 높다. (obj)
- 스타트업의 직원(직무) 구성이 다양할수록 투자 성공률이 높다.
문제점과 해결
학력 정보를 집계하는 과정에서 최종 학력이 2개 이상인 것들은 어떻게 집계할 것인지에 대한 난항에 봉착.
→ graduated_at 컬럼(결측 47%지만)을 필요없을 것 같아 제거했으나, 다시 불러옴.
→ 다행히도 최종학력이 2개 이상인 행들에는 graduated_at에 결측치가 없었음을 확인하였음!
→ 그래서 최근 날짜를 불러오기로 결정!
But, 최종학력이 2개 이상이면서, graduated_at까지 동일한 것들도 존재 ㅎㅎ..
'프로젝트' 카테고리의 다른 글
| [프로젝트 #4] 12월 18일(목) - TIL (1) | 2025.12.18 |
|---|---|
| [프로젝트 #4] 12월 16일(화) - TIL (0) | 2025.12.16 |
| [프로젝트 #4] 12월 15일(월) - TIL (0) | 2025.12.15 |