[프로젝트 #3-3] 회귀분석 odds ratio / R square

내 진행 사항

로지스틱 회귀분석을 진행했는데, 결과가 이게 맞는지 모르겠다.

 

 

팀 결정사항

내일까지 통계부분 마무리해야 한다.

 

 

회고

로지스틱 회귀분석을 하고자, 프롬프트를 작성해가며 gpt에서 뽑아냈고 결과를 봤는데 맞는지 잘 모르겠다. 모델 설명력 지표인 R square나 수정된 R square 값이 음수로 나오는 것 보면은 맞지 않는 모델인 것 같다. 무엇이 문제였을까...?

사실 결과를 뽑아내는 데에만 급급해서 종속변수, 독립변수가 어떤 유형이어야 하는지를 간과한 게 아니었을까? 그래서 '로지스틱 회귀분석'은 언제 사용하는지에 대해서 구글링을 했고 이를 인지하고 진행을 해봐야 할 것 같다.

 

로지스틱 회귀분석을 사용하는 경우

더보기

로지스틱 회귀분석은 종속변수가 범주형일 때, 특히 이진 분류 문제에서 사용됩니다. 즉, 독립 변수들을 사용하여 데이터가 0 또는 1과 같이 두 가지 범주 중 어느 쪽에 속할지 예측할 때 주로 활용됩니다. 예를 들어, 스팸 메일 여부(스팸/정상), 질병 유무(발병/미발병), 고객의 상품 구매 여부 등을 예측하는 데 사용됩니다. 

 

로지스틱 회귀분석을 사용하는 경우 

  • 종속변수가 이진형(두 가지 범주)인 경우예: 스팸 메일 여부, 질병 유무, 성별(남/녀)
  • 사건 발생 확률을 추정하고 싶을 때: 독립 변수들의 값에 따라 특정 사건이 발생할 확률을 추정하여 예측합니다.
  • 데이터를 분류해야 할 때: 예측된 확률이 특정 임계값(threshold) 이상이면 한 범주로, 미만이면 다른 범주로 분류합니다.
  • 다중 변수(독립변수)를 통해 예측할 때: 하나 이상의 독립 변수들을 사용하여 종속변수(이진 결과)를 예측할 수 있습니다. 

로지스틱 회귀분석의 장점 

  • 간단하고 효과적: 비교적 간단한 알고리즘으로 이진 분류 문제에서 강력하고 효과적인 모델입니다.
  • 해석 가능성: 회귀 계수(OR ) 통해 독립변수가 결과에 미치는 영향력을 해석할 있습니다

아마도, 현재 데이터에서는 "다중 변수(독립변수)를 통해 예측할 때" 인 상황인 것 같은데! 

데이터는 잘못이 없다. 내가 실력을 더 키워야 한다.

 

 

내일 할 것

- 로지스틱 회귀분석 다시 해보기

- 관련해서 통계결과 뽑아보고 시각화 까지

- 대시보드 레이아웃은 만들어야 할 것 같은데?

  • 만든다면, 운영 대시보드를 만들어야 하지 않을까 싶다.