회귀(Regression)란
연속형의 결과값을 예측하는 기법
데이터값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계학 기법
회귀모델의 기본원리

실제값의 오차를 최소화 하는 것에 목적이 있다.
주요 기본 개념
y = ax + b
독립변수: 원인: 분석수단
종속변수: 결과: 분석대상
예: 광고비와 매출, 공부시간과 시험점수, 근무연수와 연봉
회귀계수/절편
절편: x가 0일 때 y 예상값 -> 광고비가 0일 때 예상 매출액
회귀계수: x가 1 증가할 때 y 변화량 -> 광고비가 1만원 증가할 때 매출은 1.4만원 증가
결정계수(R^2, R-squared)
모델이 데이터를 얼마나 잘 설명하는가(설명력) 를 나타내는 지표

📌 결정계수가 1에 가까울수록 좋은 모델
= SST 내에서 SSR이 커질수록 예측력이 좋아짐
= SSR이 1에 가까울수록 좋은 모델임
= SSR이 0에 가까울수록 안 좋은 모델임
참고) Adj. R-squared (수정된 결정계수)
독립변수 개수가 많아질수록 R^2은 자동으로 커지므로, 자유도 보정된 R^2를 함께 본다.
회귀모델의 종류
독립변수의 개수에 따라
- 독립변수 1개: 단순(simple) 회귀
- 독립변수 2개 이상: 다중(multiple) 회귀
회귀계수의 형태에 따라
- 선형(linear) 회귀
- 비선형(non-linear) 회귀
회귀모델 결과 해석하기

💡 coef 값: x의 영향의 크기이며, 값이 크다는 것은 x가 y에 주는 영향이 크다!
▼ 용어 의미
다중공선성(Multicollinearity)
여러 독립변수들 간에 강한 선형관계(상관관계)가 존재하는 현상을 의미
쉽게 말해, 같이 움직이는 변수들을 독립변수에 두었을 때 생기는 현상
예: 매출과 판매량, 광고비와 노출수
- 광고비 = 노출 수 x 단가
높으면 다음과 같은 문제 발생
-> 독립변수들이 서로 비슷한 정보를 가지고 있어 회귀모형이 어떤 변수가 종속변수에 실제로 영향을 주는지 구분하기 어려워짐.

(실습코드)
'통계 (Statistics)' 카테고리의 다른 글
| [통계] "이상치는 무조건 제거 해야 한다."는 잘못된 생각 (0) | 2025.10.12 |
|---|---|
| [통계/Q&A] 가설검정 관련 질문 답변 (0) | 2025.10.12 |
| [통계] 마인드맵으로 통계 맥락 알아보기 👀 (1) | 2025.10.12 |
