이제 마지막 주차라고 생각하고 해야할 시기! 진행사항튜터링 후 스타트업 유형 피처 테이블 담기peo. birthplace에 제대로 매핑이 되어있지 않은 것들 재 전처리하여 매핑머신러닝을 위한 조인 팀 회의 | 결정사항수아, 소희 → 통계 심화채연, 재규 → 머신러닝 재규 → 스타트업 유형 군집, k-means (거리기반)f: 만 제외된 모든 창업자(투자기업의 창업자 포함) vs 투자기업의 창업자를 제외한 창업자(← 우리가 봐야할 것) 튜터링스타트업 유형 군집 + VC 유형 군집 주요피처 선택 시, 성공과 관련된 직접적인 피처는 제외할 것원-핫 : 고유값이 많을 때 → 구간화(1차 매핑) → 원-핫군집결과를 원본과 대치하여 비교범주를 숫자로 할때 기억해야할 것 회고그놈의 집계 기준!테이블이 많고, 데이터 ..
러닝의 기본 개념 이해대표적인 딥러닝 아키텍처 학습딥러닝 적용 분야 파악최신 AI 트렌드 이해강화학습 개념 이해 대규모 데이터를 통해 다층 신경망, CNN, RNN, Transformers 등 다양한 구조를 활용하여 복잡한 패턴을 학습하고, 이미지 / 자연어 / 생성형 AI 등 폭넓은 영역에서 강력한 성능을 발휘하는 기술딥러닝(Deep Leanring)인공신경망의 기본은 퍼셉트론(Perceptron): 퍼셉트론의 단층 구조 -> 다층 퍼셉트론(MLP) -> 딥러닝(Deep Neural Network) 여러 층으로 구성 -> 딥(Deep): 입력 계층(input layer)과 출력 계층(Output layer) 사이에 여러 개의 은닉층(Hidden layer)을 두어 복잡한 패턴까지 학습 (* 은닉층이 ..
- 이상 탐지 개념- 주요 알고리즘 원리와 활용법- 산업별 사례 이상 탐지(Anomaly Detection)정상 패턴에서 크게 다른 행위를 보이는 특이한 패턴을 찾는 기법 금융 사기 예방제조업 -> 기계 설비에서 발생하는 고장을 사전에 예측하여 보수 비용 절감보안 -> 네트워크 침입 시도나 데이터 탈취 등 빠르게 감지이상치 탐지(Outlier Detection)와의 차이통계적으로 극단값을 찾는 데 초점 vs 이상탐지는 단순 극단값 뿐 아니라, 맥락이나 시계열 상의 패턴을 함께 고려해서 '비정상'인지를 판단하는 것을 의미주요 이상 탐지 알고리즘두 가지 모두 비지도 학습 One-Class SVM오로지 정상 데이터만 보고 그 특징에 따라서 결정 경계를 만들어 주고, 결정 경계를 벗어나면 이상으로 봄✔️ 즉,..
- 차원 축소의 필요성- PCA 개념과 절차- 비선형 차원 축소(t-SNE, UMAP) 활용법차원 축소! 차원 축소를 통해 고차원 데이터를 효율적으로 시각화.분석하고, 노이즈를 제거함으로써 핵심 패턴을 발견할 수 있음 차원 축소의 필요성고차원 데이터 : 데이터의 피처가 매우 많은 상태. 이미지 데이터는 픽셀 수 만큼 피처가 있을 수 있음 어떤 문제가 있을 때?모델 학습 시 연산 복잡도가 급증하여 시간이 오래걸림많은 피처 중 일부는 중요한 정보를 주지 못함차원이 너무 높아지면 시각화하기 어려워 패턴 파악 힘듦차원 축소의 장점노이즈 제거 -> 모델 성능 및 일반화 능력 개선2차원, 3차원으로 축소 -> 시각적으로 직관적인 분석 가능핵심 구조나 패턴을 쉽게 발견차원 축소 기본 개념✔️ 선형 차원 축소: 데이터..
클러스터링 (군집분석) 별도의 정답(레이블)없이 데이터 패턴을 파악, 세분화 비지도 학습데이터의 군집화차원 축소이상치 탐지🔍 핵심! 비지도 학습은 '라벨' 대신 '데이터 자체의 유사성과 패턴'에 집중 군집분석비슷한 특성을 가진 데이터를 묶어서,각 그룹 내 데이터끼리 유사도를 최대화 하고,다른 그룹과 차이는 최대화하는 기법데이터의 구조 파악 : 정답 없이 데이터의 자연스러운 분포를 확인세분화 : 마케팅 -> 고객 세분화, 제조업 -> 센서 데이터로 기계작동 패턴 분류 등 군집분석의 절차1. 데이터 수집 및 전처리 : 이상치 제거, 결측치 처리, 스케일링/정규화2. 군집 수 또는 파라미터 설정 : k-means는 k 설정, DBSCAN은 거리(ε), 최소 데이터 수(minPts) 등3. 군집화 알고리즘 ..
- 앙상블 기법, 배깅과 부스팅의 원리와 장단점- 과적합과 과소적합을 구별하고 해결 방안- 하이퍼파라미터 튜닝으로 모델 최적화 방법 한문장 요약!여러 모델을 결합하고, 손실 함수를 활용해 예측 오류를 측정하며 과적합 방지/하이퍼파라미터 튜닝 -> 모델 성능 최적화앙상블 기법여러 개의 모델을 조합하나의 모델보다 더 좋은 예측 성능왜 사용?서로 다른 관점(모델)을 결합함으로써 오류를 줄임개별 모델의 편향과 분산을 상호 보완 배깅학습 데이터를 무작위로 여러 부분 샘플(부트스트랩)로 나누어 각각 독립적으로 모델 학습: 예측시 여러 모델의 결과를 평균 -> 회귀 | 다수결 -> 분류 예시 : 랜덤 포레스트 - 분류, 회귀 모두 가능결정 트리 여러 개를 만들 때, 각 트리에 사용하는 피처와 데이터 샘플을 무작위..