[프로젝트 #4] 12월 22일(월) -TIL

이제 마지막 주차라고 생각하고 해야할 시기!

 

진행사항

  • 튜터링 후 스타트업 유형 피처 테이블 담기
  • peo. birthplace에 제대로 매핑이 되어있지 않은 것들 재 전처리하여 매핑
  • 머신러닝을 위한 조인

 

팀 회의 | 결정사항

  • 수아, 소희 → 통계 심화
  • 채연, 재규 → 머신러닝 
  • 재규 → 스타트업 유형 군집, k-means (거리기반)
  • f: 만 제외된 모든 창업자(투자기업의 창업자 포함) vs 투자기업의 창업자를 제외한 창업자(← 우리가 봐야할 것)

 

튜터링

  • 스타트업 유형 군집 + VC 유형 군집 
  • 주요피처 선택 시, 성공과 관련된 직접적인 피처는 제외할 것
  • 원-핫 : 고유값이 많을 때 → 구간화(1차 매핑) → 원-핫
  • 군집결과를 원본과 대치하여 비교
  • 범주를 숫자로 할때 기억해야할 것

 

회고

그놈의 집계 기준!

테이블이 많고, 데이터 안에서 객체들이 서로 관계적으로 얽혀있다보니 어떤 기준으로 집계를 하더라도, 그 속에서 어떤 것들은 또 제외를 시켜줘야하는 상황이 단계를 거쳐올때마다 발생하는 것 같다. 도메인 지식이 부족한 탓일까,,,

 

종종 슬랙에 튜터님들이 채용공고를 올려주시고 있다. 영어를 사용하는 환경, 포트폴리오 제출 등... 준비가 되지 않은 상황으로 지원하지 못하는 상황은 정말 아쉬운 것 같다.