갑자기 문뜩 들었던 생각!
아~ 데이터 분석을 배우고 있는데, 이와 관련된 용어들은 한번쯤 정리를 해야겠다.
스스로에게 도움이 되길 바라본다 👍🏻
⬇️ 용어 정리에 참고한 내용을 가져왔다.
[출처 : 매드타임스(MADTimes)(https://www.madtimes.co.kr/news/articleView.html?idxno=23329)]
✅ 기본 데이터 분석 용어
데이터 마이닝 (Data Mining) 대량의 데이터에서 패턴을 찾아 유용하고 가치 있는 정보를 찾아내는 과정을 의미합니다. 데이터 마이닝은 분석 전략 중 하나로 이해할 수 있습니다.
머신러닝 (Machine Learning) 컴퓨터가 알고리즘을 이용하여 데이터를 분석하고 학습하여 판단 및 예측을 하는 과정입니다. 머신러닝의 성능을 위해서는 양질의 데이터가 중요합니다. 고품질의 데이터를 학습시켜야 좋은 결과를 낼 수 있기 때문입니다.
정형 데이터 (Structured Data) 정량적이고 구조화된 데이터를 의미합니다. 예를 들어 고객 ID나 구매 시간처럼 수치로 정량화 할 수 있고 구조를 갖춘 데이터입니다.
비정형 데이터 (Unstructured Data) 텍스트, 이미지, 영상처럼 구조화되지 않은 데이터입니다. 예시로, 고객 리뷰 데이터처럼 정량화가 어렵고 구조가 없이 자유로운 데이터를 들 수 있습니다.
EDA (Exploratory Data Analysis) 탐색적 데이터 분석. 데이터를 다양한 각도에서 관찰하고 이해하는 분석 과정으로, 데이터 속의 잠재적인 문제를 발견할 수 있고, 데이터에서 드러나는 현상을 잘 이해할 수 있습니다. 또한 다양한 각도에서 관찰하면서 데이터를 활용한 가설을 수립할 수 있습니다.
데이터 시각화 (Data Visualization) 차트나 그래프를 사용하여 데이터를 표현하는 기술입니다. 데이터 분석에서는 시각화가 매우 중요합니다. 분석 결과를 어떻게 시각화 하느냐에 따라 가독성이 달라지기 때문입니다.
✅ 데이터 분석 기법 및 모델링 용어
회귀 분석 (Regression Analysis) 변수 간 관계를 분석하여 예측하는 기법입니다. 회귀 분석을 통해 변수 간의 상관 관계를 확인할 수 있습니다. 예를 들어 ‘프로모션 페이지 방문’이 높아지면 ‘구매수’가 높아지는지 확인하는 방법입니다. 아래 콘텐츠를 확인하면 회귀 분석을 더 잘 이해할실 수 있습니다.
▶︎ 함께 보면 좋은 콘텐츠 : 데이터 분석의 기초: 회귀분석 이해하기↗︎
클러스터링 (Clustering) 비슷한 특성을 가진 데이터를 그룹화하는 기법입니다. 서로 유사한 속성을 갖는 데이터를 군집화합니다. 이를 활용하여 유사한 특징을 가진 고객을 세그먼트화 할 수 있습니다. 클러스터링에도 여러 방법이 있는데, 가장 대표적인 방법으로 K-means 클러스터링이 있습니다. 이는 각 데이터와 군집 내의 중심점 사이의 평균 거리를 계산하여 가강 가까운 K개의 군집으로 배정하는 방법입니다.
A/B 테스트 (A/B Testing) 두 개의 버전을 비교하여 최적의 선택을 찾는 실험입니다. 두 집단에게 서로 다른 버전을 제공하고, 어떤 쪽이 더 높은 성과를 보이는지 측정합니다. A/B 두 개의 안이 아닌, A/B/n으로 여러 개의 버전으로 테스트 할 수도 있습니다. A/B Test를 통해 원하는 목표를 이루기 위하여 영향을 주는 요인을 찾을 수도 있습니다.
시계열 분석 (Time Series Analysis) 시간의 흐름에 따라 변화하는 데이터의 패턴에서 유의미한 정보를 추출하는 기법입니다. 시계열 분석이 가능한 데이터는 월별 매출, 시간대별 방문 수 등 시간의 흐름에 따라 순차적으로 기록된 데이터 입니다.
✅ 마케팅 및 비즈니스 데이터 분석 용어