[프로젝트 #4] 12월 18일(목) - TIL

정말 거북이 걸음으로 나아가고 있다.

 

진행 사항

  • founder_master 와 success_master 테이블 조인
  • success_master 테이블에 회사(c:)가 여러행 분포해서 집계해서 조인을 해야함
  • 분석 목적은 "창업자 속성에 따른 성공률 분석" 이므로, 아래와 같이 집계를 했는데...
  •  
agg_founder_success = founder_with_success.groupby('rel_p_id').agg(
    cnt_company          = ('rel_cf_id', 'nunique'),             # cnt_company : 창업자의 창업 횟수
    founder_ever_success = ('founder_ever_success', 'first'),    # founder_ever_success : 창업자가 한번이라도 성공경험이 있는가
    birthplace           = ('cat_people_birthplace', 'first'),
    degree_level         = ('degree_level', 'first'),
    institution          = ('institution_normalized', 'first'),
    degree_subject       = ('cat_degrees_subject', 'first'),
    company_size         = ('size_bin', 'first'),                # company_size : 회사규모
    company_category     = ('obj_category_filled', 'first')      # 회사 산업분야
).reset_index()

print(f"rel_p_id 중복 행수:", agg_founder_success['rel_p_id'].duplicated().sum())
print(f"rel_p_id 유니크 수:", agg_founder_success['rel_p_id'].nunique())

display(agg_founder_success)     # ✅ agg_founder_success : 창업자 x 성공경험 여부 x 출생지 x 학위 x 학교 x 전공 x 회사규모 x 산업

진행해보자...

 

 

회고

지금 한 거의 일주일째 조인과 집계에 대해서 골머리를 앓았다. 통계검정 분석 과정이 지금 살짝 거의 흐릿한 수준인데,, 잘 찾아가면서 세워진 가설에 대해 검정을 해나가야겠다. 

 

아이고 머리야...