오늘도 역시나 어김없이 찾아온 집계의 굴레 😵💫
오늘의 이슈
1.
- 나는 단지 rel(only founder) - peo - deg(최종학력)를 조인해서 founder_master를 만들면 되는 줄 알았으나,
- founder_master['rel_cf_id'] 에는 f: 값들도 존재하여 다시 정리하였음 → founder_master 생성
# rel_p_id, rel_cf_id 기준 집계 : agg_founder_profile
agg_founder_profile = founder_profile.groupby(['rel_p_id', 'rel_cf_id']).agg(
is_past = ('is_past', 'first'),
sequence = ('sequence', 'max'),
birthplace = ('cat_people_birthplace', 'first'),
degree_level = ('degree_level', 'max'),
subject = ('cat_degrees_subject', 'first'),
institution = ('institution_normalized', 'first'),
graduated_at = ('graduated_at', 'first')
).reset_index()
# agg_founder_profile 에서 c:만 필터링 (이유 : 창업자와 창업한 회사만 보고, 투자자는 제외하려고)
c_agg_founder_profile = agg_founder_profile[agg_founder_profile['rel_cf_id'].str.startswith('c:')].copy()
# 창업자가 창업한 회사 수 : cnt_founding
cnt_founding = c_agg_founder_profile.groupby('rel_p_id').agg(
n_founding = ('rel_cf_id', 'nunique')
)
# agg_founder_profile과 cnt_founding을 merge
founder_master = c_agg_founder_profile.merge(
cnt_founding,
how = 'left',
on = 'rel_p_id'
)
founder_master
: 이에 따라서 f: 를 제외한 n_founding(창업한 회사 수) 다시 집계
2.
- 나는 창업자의 속성에 따른 성공률을 보기 때문에 모든 창업자(성공했든 실패했든)를 봐야하고,
- 창업자의 속성에 따른 투자자의 의사결정을 보기 위해서는 모든 창업자 중에서 투자를 받은 창업자만 필터링 했어야 한다?
3.
- 성공률의 공식은 어떻게 되는가?
- 나는 창업자의 속성에 따른 성공률이기 때문에 집계 과정에서 success_flag의 mean값을 구하면 됨.
- 반면에, 대가설 1번에서는 다른 기준이 있어야 했나봄. (확인해봐야함)
4.
- 문제점 : 한 창업자가 여러 회사를 창업한 case / 한 회사에 공동 창업자가 있는 case 등 master 테이블 생성의 어려움
- [창업자 - 창업한 회사]의 관계를 보기위해
- ['rel_p_id', 'rel_cf_id']의 쌍이 고유한 테이블이어야 함!
- 이 테이블을 가지고, 가설에 따라 집계하여 보면 되는 것.
회고
founder_master 테이블을 몇 번의 수정을 거쳐 완성했는지...
혼자 고민하는 것 보다는 궁금증이나 의문을 나누고 같이 고민하는 것이 훨씬 해결이 빠르게 해결될 뿐만 아니라 발견하지 못했을 문제점까지 발견할 수 있다는 크나는 장점을 알게된 하루였다.
그리고 튜터링을 받는 시간도 마찬가지였다. 결국에는 "가설에 따라(분석 목적에 따라) 집계 기준을 딜리하여 결합할 것"이었던 것이 혼자 고민할 때에는 뭐 그리 막막한지... 자연스럽게 해결되는 시간이었다.
주저리주저리 무튼 끝.
주말 동안에도 빡세게 해야겠네. 통계 얼른 끝내고 ppt 고민 좀 해보자!!!
'프로젝트' 카테고리의 다른 글
| [프로젝트 #4] 12월 22일(월) -TIL (1) | 2025.12.22 |
|---|---|
| [프로젝트 #4] 12월 18일(목) - TIL (1) | 2025.12.18 |
| [프로젝트 #4] 12월 17일 (수) - TIL (0) | 2025.12.17 |