재규
* degree 부분에 0(other-No degree)에 대해 검토필요
* 전처리 최신파일로 된 건지 확인필요
* leadersip-change에 대해 접근방법 생각해보기
* relationships 테이블 title 카테고리화 재정리
공통
* 엑싯 성공률
> acquisiton, ipo 에서 헐값에 팔린 0값들
> 투자 원금대비 가치 평가액이 높아야 이득 → 투자금 회수
> 엑싯 성공률을 합쳐서 보면 안될듯
→ 엑싯을 acq 비공개/0값 아닌 것들 ipo투자원금보다 가치금액 큰 것들,
> other에 대해 세부 카테고리화
* 오늘은 EDA 수정 → 추가 EDA 하면서 통계 병행
산업, 지역, 학력, 연도별, ACQ, IPO
[통계를 위해]
1. 성공/실패에 대한 명확한 정의 → 컬럼생성(파생변수)
2. 성공/실패 요인이 되는 변수 추려오기
> 점시먹고 추가 EDA하고 2시에 튜터님 만나기
2. 2시 멘토링 전 미팅
# 성공/실패 정의
[성공]
1. 생존 + 후속투자 유치
> + 성장기간
> 소희: 투자자에 페르소나(전제조건)이 있을 때 유효한 개념같음
> 채연: 도메인 상 정해진 기준이 없다면 임의로 정하는 건 위험할수도
> 재규: 데이터상 없는 것을 정하는 것이 조심스러움
2. 창업자 CEO에 대해서
> 창업자는 없는데 ceo만 있는 경우가 있는가 찾아보기(재규)
[민정튜터님 멘토링]
1. 통계 → 머신러닝 / 머신러닝 → 통계
> 일반: 통계에서 머신러닝 → 기초통계라도 먼저 수행해서 감을 잡는 것 추천
- 통계: 패턴이 존재하는지 검증하는 단계
> 어떤 변수가 중요한 신호인지 파악
> 파생변수 추가해서 데이터셋 보완필요한지 확인
- 통계가 선행되지 않으면 머신러닝이 과적합 여부 파악이 어려움
- 머신러닝 결과 해석 시 통계적으로 추가해야할 부분이 판별됨
> 머신러닝 먼저
CASE1) 데이터 너무 고차원, 변수가 너무 많음.
> 머신러닝으로 중요변수 먼저 걸러내고 통계적으로 검증
> 극단적인 상황은 아니지만 변수가 많긴함..
CASE2) 예측 정확도를 보는 예측 모델 구축이면 머신러닝 먼저 돌리고 패턴을 통계적으로 해석하기도 함
> 데이터, 변수 너무 많으면 차원축소도 방법
CASE3) PCA 먼저 확인하고싶을 때 (차원축소 - 군집 - 통계) 하기도함
> 논리에 맞게 통계/ML 뭐부터 시작할지 선택필요
> 기초통계 선수행 후 차후 단계(통계/ML) 재조정
2. 여러 목적에 따라 조인된 상태. ML 돌릴 때 피러는 어떤 테이블 기준으로?
> 머신러닝 통해 보고싶은 것은
1) 스타트업 유형 파악
> 스타트업이 어떤 성장패턴을 가진 그룹인지
> 클러스터로 따로 구성된 ML 목적에 맞는 데이터셋 필요
> 클러스터링 할 수 잇는 피처 따로 구성(피처 선택필요)
> PCA 시도는 좋음.
> 계층분석 (덴드로그램) K추출
> K-MEANS 군집 관련 알고리즘 돌리기 . 최종 K 값 선택 → 지표에 대한 값이 나올 것
> ML전용 데이터셋은 하나. 목적에 맞게 2개 이상 될 수 있음.
→ 보통 하나로 만들어서 진행.
> 통계분석은 기존 데이터셋으로 진행.
2) 나눠진 스타트업 유형에 대해 EXIT 가능성 예측
3. 기초통계 이후 역할을 나눠보자. (ML 2~3일)
> 리서치담당(머신러닝 선수행시 , 모델/알고리즘 조사, PCA 조사 등)
>
4. Other 값에 대해 처리 방법 ( 세분화 전처리 추가 진행?) → EDA 추가 진행
> other값이 지나치게 나오는 경우 기존 카테고리 너무 세분화 되어있을 수 있음
> other가 포함되어있는 모든 분포(long-tail) 확인해서 치우친 경우 조치필요
> other안에 무엇이 묶였나 살펴보고 의미에 따라 재분류 필요할듯.
머신러닝은 한번에 잘 안됨... 다양한 시행착오 있을 것..
[논의사항]
1. 창업자 founder가 없는 데이터를 어떻게 봐야하나 → CEO만 보나?
> CEP, FOUNDER 다 봐야하지 않나.
> REL 볼 때 FR, OBJ 조인해서 보는 거면, status가 운영중인 데이터만 보기?
> 준석 튜터님 sos
2. 추가 EDA부분
[준석 튜터님 멘토링]
1. UNIQUE값에서 FOUNDER랑 의미가 비슷한 데이터가 있나
> 이미 1차 분류 완료된 상태임.
2. FOUNDER & CEO 모두 존재하지 않는 케이스 존재
> CEO는 FOUNDER다 라는 규칙 성립 X
> FOUNDER 행, CEO 행, 둘다 없는 행 으로 분리
> 창업자 분석 FOUNDER행
> 창업자 외 리더 분석 FOUNDER+CEO행
> 둘다 없는 케이스는 요약 ( 유의미한 패턴이 있을수도)
3. 데이터 핀테크 위주라는 코멘트는 어떤근거?
> CRUNCHBASE + 미국 데이터에서 추측한 것. 오피셜은 X
> 산업분석 진행 필요
4. EDA 어느정도 마무리. 다음 단계는 무엇(통계/ML)?
> 기초통계 선수행 후 결정하는 것 추천(민정T)
> 통계/ML은 흐름이 이어지지 않을 수 있음.
> ML: 패턴 분석 + 예측을 위한 FEATURE가 중요.
> 머신러닝 FEATURE 후보군 선정을 위해서는 통계분석이 필요하다고 생각.
> 하지만 통계먼저 진행하는 것이 항상 정답은 아님.
> ML 전에 FEATURE를 뽑을 텐데, BASELINE MODEL 작성하면 좋음
> BASELINE? FEATURE뽑았고 모델링 돌렸을 때 잘 만들어진 모델링인지 비교를 위해 순정 모델 성능 지표가 필요
> BASELINE모델은 통계 전에 만들 수 있음
5. 기초통계 진행 시 일반 FEATURE끼리 상관관계 분석? 파생변수?
> 파생변수 관계분석
> ★FEATURE ENGINEERING은 통계 전에 있음 (EDA 다음에 진행) → 모델 성능 좌우함★
6. 여러 목적에 따라 여러 테이블 생성했는데, 통계분석 시 어떻게?
> 모델링에 필요한 테이블 선정해서 EDA 진행한 질문에 맞게 분석 진행
7. ML에 적절하지 않으면 새로 조인해야 하는데, 집계기준 중요. 우리가 만든 테이블 중 EVENT기준 있음. ML 시 집계기준 하나 정해서 조인?
> 일단 그렇게 진행해보기.
> 도메인적으로 연관된 내용만 선정하기
> 집계하고 붙이기.
8. ML 떄는 하나의 테이블?
> 하고자하는 게 하나라면 하나의 테이블 .
> 하나의 ML 은 하나의 테이블
9. 성공/실패에 대한 정의, 성장기간 고려해야하나?
> 예외상황 없다면 10년이 걸려도 성공으로 봐야하지 않을까.
> 빠르게 VS 느리게 성장한 케이스 비교해볼 수 도 있음
10. 금액 컬럼 결측치 높음. 공개된 거래금액으로만 진행해도 설득력 있을까?
> 데이터가 없고 + 주요 타겟 컬럼이라면 어쩔 수 없음. 무조건 사용 → 설득력에 대해서는 방법이 없음. 데이터의 한계인 것임.
11. IPO 에서 VC기업은 상장 당시 VAL의 일정 부분을 수익으로 가져오는 것, 투자 원금이 상장 당시 VAL보다 적은경우가 있나? (손해)
> ㅇㅇ. 9건 존재. (예외)
'프로젝트' 카테고리의 다른 글
| [프로젝트 #4] 12월 16일(화) - TIL (0) | 2025.12.16 |
|---|---|
| [프로젝트 #4] 12월 12일(금) - TIL (0) | 2025.12.12 |
| [프로젝트 #4] 12월 11일(목) - TIL (0) | 2025.12.11 |