[프로젝트 #4] 12월 17일 (수) - TIL

통계를 위한 파생변수 생성

  • success_flag : 성공 플래그
  • size_bin : 회사 규모
  • diff_tot_cur_rel : 관계 변화량
  • reinvest_flag (재투자 여부)
  • total_invested : 원금
  • round_tempo_months : 투자 템포 (개월)
  • time_to_last_round : 첫 투자 → 마지막 투자

 

 

통계검정 시작 전 전략

  1. 통계를 위한 조인
  2. 목적에 맞게 집계 및 조인
  3. 집계 및 조인 후 → 한 행의 의미가 명확해야 함

 

 

 

가설 설정 → 창업자 part 담당

📌 스타트업 창업자의 특성은 투자 성공률에 영향을 미친다.

  1. 창업자의 출생지는 투자 성공률과 유의미한 상관관계가 있다. (예: 대도시, 국가, 엑싯률 차이)
  2. 창업자의 출신 학교는 투자 성공률과 유의미한 상관관계가 있다.(예: 명문대)
  3. 창업자가 높은 학위를 가지고 있을 수록 성공확률이 높다.
  4. IT 전공 출신의 창업자의 기업이 투자 성공률이 높다.
  5. 창업자 전공회사 카테고리가 일치하면 성공확률이 높다.
  6. 마일스톤 키워드에 따라 성공률에 유의미한 차이가 있다.
  7. 관계 수 변화가 적을수록 성공확률이 높다. (obj)
  8. 회사의 규모가 클수록 성공확률이 높다. (obj)
  9. 스타트업의 직원(직무) 구성이 다양할수록 투자 성공률이 높다.

 

 

문제점과 해결

학력 정보를 집계하는 과정에서 최종 학력이 2개 이상인 것들은 어떻게 집계할 것인지에 대한 난항에 봉착.

→ graduated_at 컬럼(결측 47%지만)을 필요없을 것 같아 제거했으나, 다시 불러옴.

→ 다행히도 최종학력이 2개 이상인 행들에는 graduated_at에 결측치가 없었음을 확인하였음!

→ 그래서 최근 날짜를 불러오기로 결정!

 

But, 최종학력이 2개 이상이면서, graduated_at까지 동일한 것들도 존재 ㅎㅎ..

'프로젝트' 카테고리의 다른 글

[프로젝트 #4] 12월 18일(목) - TIL  (1) 2025.12.18
[프로젝트 #4] 12월 16일(화) - TIL  (0) 2025.12.16
[프로젝트 #4] 12월 15일(월) - TIL  (0) 2025.12.15