[프로젝트 #4] 12월 19일 (금) - TIL

오늘도 역시나 어김없이 찾아온 집계의 굴레 😵‍💫

 

 

오늘의 이슈

1.

  • 나는 단지 rel(only founder) - peo - deg(최종학력)를 조인해서 founder_master를 만들면 되는 줄 알았으나,
  • founder_master['rel_cf_id'] 에는 f: 값들도 존재하여 다시 정리하였음 → founder_master 생성
# rel_p_id, rel_cf_id 기준 집계 : agg_founder_profile
agg_founder_profile = founder_profile.groupby(['rel_p_id', 'rel_cf_id']).agg(
    is_past      = ('is_past', 'first'),
    sequence     = ('sequence', 'max'),
    birthplace   = ('cat_people_birthplace', 'first'),
    degree_level = ('degree_level', 'max'),
    subject      = ('cat_degrees_subject', 'first'),
    institution  = ('institution_normalized', 'first'),
    graduated_at = ('graduated_at', 'first')
).reset_index()

# agg_founder_profile 에서 c:만 필터링 (이유 : 창업자와 창업한 회사만 보고, 투자자는 제외하려고)
c_agg_founder_profile = agg_founder_profile[agg_founder_profile['rel_cf_id'].str.startswith('c:')].copy()

# 창업자가 창업한 회사 수 : cnt_founding
cnt_founding = c_agg_founder_profile.groupby('rel_p_id').agg(
    n_founding = ('rel_cf_id', 'nunique')
)

# agg_founder_profile과 cnt_founding을 merge
founder_master = c_agg_founder_profile.merge(
    cnt_founding,
    how = 'left',
    on = 'rel_p_id'
)

founder_master

: 이에 따라서 f: 를 제외한 n_founding(창업한 회사 수) 다시 집계

 

2. 

  • 나는 창업자의 속성에 따른 성공률을 보기 때문에 모든 창업자(성공했든 실패했든)를 봐야하고, 
  • 창업자의 속성에 따른 투자자의 의사결정을 보기 위해서는 모든 창업자 중에서 투자를 받은 창업자만 필터링 했어야 한다?

3. 

  • 성공률의 공식은 어떻게 되는가?
  • 나는 창업자의 속성에 따른 성공률이기 때문에 집계 과정에서 success_flag의 mean값을 구하면 됨.
  • 반면에, 대가설 1번에서는 다른 기준이 있어야 했나봄. (확인해봐야함)

4. 

  • 문제점 : 한 창업자가 여러 회사를 창업한 case / 한 회사에 공동 창업자가 있는 case 등 master 테이블 생성의 어려움
  • [창업자 - 창업한 회사]의 관계를 보기위해
  • ['rel_p_id', 'rel_cf_id']의 쌍이 고유한 테이블이어야 함!
  • 이 테이블을 가지고, 가설에 따라 집계하여 보면 되는 것.

 

회고

founder_master 테이블을 몇 번의 수정을 거쳐 완성했는지...

혼자 고민하는 것 보다는 궁금증이나 의문을 나누고 같이 고민하는 것이 훨씬 해결이 빠르게 해결될 뿐만 아니라 발견하지 못했을 문제점까지 발견할 수 있다는 크나는 장점을 알게된 하루였다.

 

그리고 튜터링을 받는 시간도 마찬가지였다. 결국에는 "가설에 따라(분석 목적에 따라) 집계 기준을 딜리하여 결합할 것"이었던 것이 혼자 고민할 때에는 뭐 그리 막막한지... 자연스럽게 해결되는 시간이었다.

 

주저리주저리 무튼 끝.

 

주말 동안에도 빡세게 해야겠네. 통계 얼른 끝내고 ppt 고민 좀 해보자!!!

 

 

'프로젝트' 카테고리의 다른 글

[프로젝트 #4] 12월 22일(월) -TIL  (1) 2025.12.22
[프로젝트 #4] 12월 18일(목) - TIL  (1) 2025.12.18
[프로젝트 #4] 12월 17일 (수) - TIL  (0) 2025.12.17