✍️ 프로젝트 7일차 요약: 발표자료에 담을 통계 내용을 요약, 정리하고 발표자가 작성한 스크립트를 같이 점검하였다.
개인 진행 사항
발표자료(canva)에 담을 통계 파트 정리
price의 히스토그램을 그려봤을 때, 오른쪽으로 긴 꼬리분포였음. 정규성을 맞춰주기 위해 로그변환 시도 -> 히스토그램 확인 결과 정규성 충족 t-test 1. 슈퍼호스트 여부에 따른 평균 가격 차이 검정 데이터 분포
- 등분산성 검정(Levene's 검정) : 불만족 -> Welch t-test 사용 - 가설검정 : p < 0.05 (귀무가설 기각) - 슈퍼호스트 여부에 따른 평균 가격에 통계적으로 유의한 차이가 있음 (일반호스트가 근소하게 높음) - 비즈니스 해석 : 대표본 효과로 인해 통계적으로는 유의하지만 실무적으로는 의미 없는 수준의 차이 슈퍼호스트 여부에 따른 평균가격 차이 검정 결과 2. 즉시예약 가능여부에 따른 평균 가격 차이 검정 데이터 분포
- 등분산성 검정(Levene's 검정) : 불만족 -> Welch t-test 사용 - 가설검정 : p < 0.05 (귀무가설 기각) - 즉시예약 가능여부에 따른 평균 가격에 통계적으로 유의한 차이가 있음 (즉시예약 가능의 가격이 훨씬 높음) - 비즈니스 해석 : 즉시예약 가능할 시 가격을 높게 책정할 수 있으며, 즉시예약 가능하도록 예약 조건 변경 권고 3. 단기/장기 숙박에 따른 평균 가격 차이 검정
- 등분산성 검정(Levene's 검정) : 불만족 -> Welch t-test 사용 - 가설검정 : p < 0.05 (귀무가설 기각) - 단기숙소와 장기숙소의 평균 가격에 통계적으로 유의한 차이가 있음 - 통계적으로 유의하지만 실질적 의미는 제한적 4. 신원인증 여부에 따른 평균 가격 차이 검정
- 등분산성 검정(Levene's 검정) : 불만족 -> Welch t-test 사용 - 가설검정 : p < 0.05 (귀무가설 기각) - 신원 인증과 미인증 호스트의 숙소 평균 가격에 통계적으로 유의한 차이가 있음 - 신원 인증 숙소의 가격이 더 높음 (통계적으로 유의하며 어느 정도 실질적 의미가 있음) - 비즈니스 해석 : 신원 인증 절차 확인 및 호스트의 신원인증 실행 권고 5. 룸타입에 따라 숙소의 평균 가격 차이 검정 - 등분산성 검정 : p < 0.05, 불만족 -> Welch ANOVA - Welch ANOVA
- p-value 가 매우 작으므로 귀무가설 기각 -> 룸 타입에 따라 평균 가격 차이가 있다. - 사후 검정 : holm 6-1. 같은 room_type(== 'entire home/apt')일 경우에 지역별 숙소의 평균 가격 차이 검정 - 등분산성 검정(Levene's 검정) : 불만족 -> Welch ANOVA 사용 - 결과
- 사후검정 : games-howell Games-Howell 사후검정 결과 6-2. 같은 room_type(== 'Private room')일 경우에 지역별 숙소의 평균 가격 차이 검정 - 등분산성 검정(Levene's 검정) : 불만족 -> Welch ANOVA 사용 - 결과
- 사후검정 : Games-Howell 7. 숙소 유형에 따라 평균 가격 차이 검정 : property_type_norm - 등분산성 검정 : p < 0.05, 불만족 -> Welch ANOVA - Welch ANOVA
- p-value=1.0 > 0.05 이므로, 귀무가설 채택 -> 숙소 유형에 따라 평균 가격 차이가 없다. 8. 수용인원에 따른 가격 차이 검정 : accommodates X price_log 피어슨 상관계수 검정 : 두 연속형 변수 간의 선형 관계가 통계적으로 유의미한지 여부를 판단하는 통계적 방법 - 귀무가설 : 수용인원과 가격 간의 상관계수는 0이다(상관관계 없음). - 대립가설 : 수용인원과 가격 간의 상관수는 0이 아니다(상관관계 있음)
🚨 시도해보려고 했으나, 전제조건인 '두 연속형 변수'에서 기각되었다. accommodates(1부터 16까지의 정수)는 이산형 변수라고 하여 시도하지 않았음.
발표자료에 통계 내용을 어떻게 담아내야 할지 계속 고민을 했다. 내용도 많고 어떤 것을 사용해야 할지 모르겠어서 고민이 있었는데, 결론을 하나였다. 비즈니스 목표에 맞으면서, 주요컬럼에 해당하는 통계 내용을 필수적으로 담아내는 것. 방향이 맞는지는 모르겠지만, 처음이니깐 부딪히고 배우도록 해보자.
대본이나 발표자료를 팀원들과 다 같이 보면서 수정하는 시간에 최대한 집중해서 보고 수정사항에 대해 적극적으로 전달하려고 노력했다. 왜냐하면 '우리의 프로젝트'니깐! 내 생각과 의견을 전달하는 것에 망설이지 말자.
그래도 이렇게 어느정도 마무리 가닥이라도 밟은 것은 팀장님의 프로젝트 관리(스케줄, 해야할 내용, 튜터님과 소통 등) 덕분인 것 같다. 대단하고, 그 고마움을 잊지말자!👍🏻