내 진행 사항
로지스틱 회귀분석을 진행했는데, 결과가 이게 맞는지 모르겠다.
팀 결정사항
내일까지 통계부분 마무리해야 한다.
회고
로지스틱 회귀분석을 하고자, 프롬프트를 작성해가며 gpt에서 뽑아냈고 결과를 봤는데 맞는지 잘 모르겠다. 모델 설명력 지표인 R square나 수정된 R square 값이 음수로 나오는 것 보면은 맞지 않는 모델인 것 같다. 무엇이 문제였을까...?
사실 결과를 뽑아내는 데에만 급급해서 종속변수, 독립변수가 어떤 유형이어야 하는지를 간과한 게 아니었을까? 그래서 '로지스틱 회귀분석'은 언제 사용하는지에 대해서 구글링을 했고 이를 인지하고 진행을 해봐야 할 것 같다.
▼ 로지스틱 회귀분석을 사용하는 경우
더보기
로지스틱 회귀분석은 종속변수가 범주형일 때, 특히 이진 분류 문제에서 사용됩니다. 즉, 독립 변수들을 사용하여 데이터가 0 또는 1과 같이 두 가지 범주 중 어느 쪽에 속할지 예측할 때 주로 활용됩니다. 예를 들어, 스팸 메일 여부(스팸/정상), 질병 유무(발병/미발병), 고객의 상품 구매 여부 등을 예측하는 데 사용됩니다.
로지스틱 회귀분석을 사용하는 경우
- 종속변수가 이진형(두 가지 범주)인 경우: 예: 스팸 메일 여부, 질병 유무, 성별(남/녀)
- 사건 발생 확률을 추정하고 싶을 때: 독립 변수들의 값에 따라 특정 사건이 발생할 확률을 추정하여 예측합니다.
- 데이터를 분류해야 할 때: 예측된 확률이 특정 임계값(threshold) 이상이면 한 범주로, 미만이면 다른 범주로 분류합니다.
- 다중 변수(독립변수)를 통해 예측할 때: 하나 이상의 독립 변수들을 사용하여 종속변수(이진 결과)를 예측할 수 있습니다.
로지스틱 회귀분석의 장점
- 간단하고 효과적: 비교적 간단한 알고리즘으로 이진 분류 문제에서 강력하고 효과적인 모델입니다.
- 해석 가능성: 회귀 계수(OR 값)를 통해 각 독립변수가 결과에 미치는 영향력을 해석할 수 있습니다.
아마도, 현재 데이터에서는 "다중 변수(독립변수)를 통해 예측할 때" 인 상황인 것 같은데!
데이터는 잘못이 없다. 내가 실력을 더 키워야 한다.
내일 할 것
- 로지스틱 회귀분석 다시 해보기
- 관련해서 통계결과 뽑아보고 시각화 까지
- 대시보드 레이아웃은 만들어야 할 것 같은데?
- 만든다면, 운영 대시보드를 만들어야 하지 않을까 싶다.
'프로젝트' 카테고리의 다른 글
| [프로젝트 #3-5] time 컬럼에 대한 정의, 커뮤니케이션 error (0) | 2025.11.05 |
|---|---|
| [프로젝트 #3-2] 탐색적 그리고 심층 EDA - 취합 및 방향 설정 (0) | 2025.11.03 |
| [프로젝트 #3-1] 도메인 재 선정, 다시 시작! (0) | 2025.10.31 |