[프로젝트 #2-1] 주제 선정 및 컬럼 확인을 해보았더니...👀

프로젝트 개요

- 심화 프로젝트 주간 : 2025.10.13(월) 부터 10.23(목) 까지

- 데이터셋 선택 : airbnb 데이터셋 (호스트, 위치, 숙소정보, 가격 및 예약, 리뷰 및 평점 정보 등)

- 역할 선택: 모든 영역에서 다 같이 하고 담당자가 파트장 느낌으로 진행

  • PM
  • 데이터 이해 및 대략적 탐색(EDA)
  • 데이터 전처리
  • EDA 및 시각화
  • 통계 분석 ✔️
  • PPT제작
  • 발표

▼ 진행할 통계분석 내용

더보기
제공된 통계분석 내용
- 정규성 보정 : 가격은 왜도가 크므로 log(price +1)을 병행 검토
- t-검정(독립표본/Welch)
예1: Manhattan vs Brooklyn 평균 (log)price
예2: Entire home/apt vs Private room 평균 (log)price
전체: 정규성(표본추출 후 Shapiro), 등분산성(Levene, Welch권장)
- 일원 ANOVA
예: 대분류 지역(Manhattan/Brooklyn/Queens/Bronx/Staten Island) 간 (log)price 평균 차이
사후검정: 등분산 충족시 Tukey HSD, 미충족 시 Games-Howell
- 카이제곱 독립성 & Cramer's V
예: instant_bookable과 room_type의 독립성 여부 및 연관 크기 해석
희소 셀 방생 시 범주 통합(예: 희귀 room_type 묶기)

✚ 추가적으로 생각해본 내용
- 슈퍼호스트인 그룹 vs 슈퍼호스트가 아닌 그룹의 평균 금액 비교
- accomodates(수용가능인원) - 가격(price) 의 관계? 양의 선형관계?

 

 

프로젝트 일정은 아래와 같이 계획하였다.

 

데이더셋.shape >>> (22308, 73)

 

▼ 컬럼 리스트(총 73개)

더보기

볼드체 ➡️ 주요컬럼 선정 ( 분석진행하며 추가되거나 제거될 수 있음 )

[

'Unnamed: 0',

'id', 'source', 'name', 'description', 'neighborhood_overview',

 

'host_id', 'host_name', 'host_since'(호스트 가입일), 'host_location', 'host_about', 'host_response_time', 'host_response_rate', 'host_acceptance_rate', 'host_is_superhost', 'host_neighbourhood', 'host_listings_count', 'host_total_listings_count', 'host_verifications', 'host_has_profile_pic', 'host_identity_verified',

 

'neighbourhood', 'neighbourhood_cleansed', 'neighbourhood_group_cleansed(지역명 대분류)', 'latitude', 'longitude',

 

'property_type(숙소 유형)', 'room_type(방 타입: private or entire 등)', 'accommodates', 'bathrooms', 'bathrooms_text', 'bedrooms', 'beds', 'amenities',

 

'price', 핵심컬럼

 

'minimum_nights', 'maximum_nights', 'minimum_minimum_nights', 'maximum_minimum_nights', 'minimum_maximum_nights', 'maximum_maximum_nights', 'minimum_nights_avg_ntm', 'maximum_nights_avg_ntm',

 

'calendar_updated',

 

'has_availability', 'availability_30', 'availability_60', 'availability_90', 'availability_365',   : 예약가능여부 및 가능일수

 

'calendar_last_scraped',

 

'number_of_reviews', 'number_of_reviews_ltm', 'number_of_reviews_l30d', 'availability_eoy', 'number_of_reviews_ly', 'estimated_occupancy_l365d', 'estimated_revenue_l365d', 'first_review', 'last_review', 'review_scores_rating', 'review_scores_accuracy', 'review_scores_cleanliness', 'review_scores_checkin', 'review_scores_communication', 'review_scores_location', 'review_scores_value', 'license', 'instant_bookable(즉시 예약 가능여부)', 'calculated_host_listings_count', 'calculated_host_listings_count_entire_homes', 'calculated_host_listings_count_private_rooms', 'calculated_host_listings_count_shared_rooms', 'reviews_per_month'

]

대략적으로 추려보았다.

컬럼만 들여다보고 내가 생각했던 것은 review 데이터가 있으니, scores가 높은 숙소들의 특징(유형, 지역 등)을 파악해서 그 숙소들의 가격 분포를 확인해보고, 가격 range를 설정해서 제안하자! 라는 생각을 했다.

 

여러 review 컬럼들도 확인해보면 좋겠다 싶었으나, 확인해본 결과 만족도 분포가 거의 4점 후반과 5점에 몰려있어서(hist 그려보니 왼쪽으로 꼬리가 긴 분포), 차별점이 없다고 판단하였다.(with 팀원들) 다만, 평점이 낮은 것들은 왜 그런지 원인을 찾아보기로 하였다.(궁금하기도 하니깐!)

 

amenity 컬럼은 리스트 형식으로 데이터가 포함되어 있는데, 개수로 변환해서 파생변수로 받고 분석을 해보는 시도도 생각 중이다!

 

 

달성 가능한 목표:

  • 가격 분포와 변동성 파악
  • 주요 요인(예:지역, 숙소 유형, 수용 인원, 리뷰/가용성 지표 등)과 가격 간 관계를 시각화와 통계 검정으로 확인
  • 숙소 운영 및 정책 수립에 실질적인 인사이트 제공

오늘의 회고:

기초 프로젝트를 끝나고, 심화 프로젝트에서는 꼭 'EDA 및 전처리 part'를 맡을거라고 다짐을 했었다. 그래서 지원을 했으나, 생각보다 많은 분들이 지원을 했고 나는 다른 분에게 양보를 하고(어차피 다같이 데이터 탐색, 전처리를 같이 할 예정이니) 통계 분석을 맡겠다고 의견을 전했다. 통계는 개념과 용어를 제대로 알고 있어야 한다는 튜터님의 말씀을 믿고 진행해 보자! 

 

내일 계획:

  • 데이터 이해 및 전처리 1차
    • 데이터 이해 및 대략적 탐색
    • 전처리
    • 팀원들과 공유하는 시간
    • 의미있는 내용 취합