[통계/세션] 5회차 - 회귀(Regression)

회귀(Regression)란

연속형의 결과값을 예측하는 기법

데이터값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계학 기법

 

 

 

회귀모델의 기본원리

실제값의 오차를 최소화 하는 것에 목적이 있다.

 

 

주요 기본 개념

y = ax + b

독립변수: 원인: 분석수단

종속변수: 결과: 분석대상

예: 광고비와 매출, 공부시간과 시험점수, 근무연수와 연봉

 

회귀계수/절편

절편: x가 0일 때 y 예상값 -> 광고비가 0일 때 예상 매출액

회귀계수: x가 1 증가할 때 y 변화량 -> 광고비가 1만원 증가할 때 매출은 1.4만원 증가

 

 

결정계수(R^2, R-squared)

모델이 데이터를 얼마나 잘 설명하는가(설명력) 를 나타내는 지표

 

 

📌 결정계수가 1에 가까울수록 좋은 모델
= SST 내에서  SSR이 커질수록 예측력이 좋아짐
= SSR이 1에 가까울수록 좋은 모델임
= SSR이 0에 가까울수록 안 좋은 모델임

 

 

 

 

 

참고) Adj. R-squared (수정된 결정계수)

독립변수 개수가 많아질수록 R^2은 자동으로 커지므로, 자유도 보정된 R^2를 함께 본다.

 

 

회귀모델의 종류

독립변수의 개수에 따라

- 독립변수 1개: 단순(simple) 회귀

- 독립변수 2개 이상: 다중(multiple) 회귀

회귀계수의 형태에 따라

- 선형(linear) 회귀

- 비선형(non-linear) 회귀

 

 

회귀모델 결과 해석하기

💡 coef 값: x의 영향의 크기이며, 값이 크다는 것은 x가 y에 주는 영향이 크다! 

▼ 용어 의미

 

다중공선성(Multicollinearity)

여러 독립변수들 간에 강한 선형관계(상관관계)가 존재하는 현상을 의미

쉽게 말해, 같이 움직이는 변수들을 독립변수에 두었을 때 생기는 현상

예: 매출과 판매량, 광고비와 노출수

- 광고비 = 노출 수 x 단가

 

높으면 다음과 같은 문제 발생

-> 독립변수들이 서로 비슷한 정보를 가지고 있어 회귀모형이 어떤 변수가 종속변수에 실제로 영향을 주는지 구분하기 어려워짐.


(실습코드)