본문 바로가기

Project/Kaggle

[Kaggle] 통신사 고객 이탈 예측 - 뼈대 구상

 

 

캐글 커널 링크 : https://www.kaggle.com/pavanraj159/telecom-customer-churn-prediction

 

Telecom Customer Churn Prediction

Explore and run machine learning code with Kaggle Notebooks | Using data from Telco Customer Churn

www.kaggle.com

 

 

안녕하세요!

오늘은 캐글의 'Telecom Customer Churn Prediction'에 대해서 포스팅 해보려 합니다.

대회는 아니지만 좋은 커널이기도 하고, 요즘 진행하는 프로젝트와 연관이 있어서 정리를 해봤습니다.

포스팅은 총 세 번으로 나눠서 진행할 예정이고, 순서는 다음과 같습니다.

 

  1. 데이터 구성 파악 및 뼈대 구상
  2. 코드 및 결과 분석
  3. 실전이라면? - 손익분기점 파악

 


 

1. 데이터 구성 파악 및 뼈대 구상

1-1. 데이터 구성 파악

- 목표 : 주어진 데이터를 가지고 모델을 학습시켜 고객의 이탈 예측 및 방지

 

- 주어진 데이터 :

약 7000개의 데이터

고객 ID, 성별, 결혼 여부, 자녀 수, 남은 약정 개월 수, 약정 기간, 여러가지 인터넷 및 전화 서비스 가입 여부, 전자청구서 신청 여부, 결제 방식, 월 청구 금액, 총 청구 금액 등에 대한 데이터

 

 

 

1-2. 뼈대 구상

  1. 데이터 전처리 후, 특성 간의 상관관계를 파악하고 이탈에 각 특성이 얼마나 영향을 끼치는지 파악
  2. 시계열적 특성이 없고, 외부 데이터의 사용도 할 수 없기 때문에 바로 모델 학습으로 들어감
  3. 지도학습의 여러가지 알고리즘을 적용시켜보고, 성능을 비교해봄
이탈을 할지 안할지, 0인지 1인지, 분류하는 문제이기 때문에 로지스틱회귀, 랜덤포레스트 그리고 몇 가지 앙상블 시도해보자

 

 


 

결론

선택한 알고리즘 리스트 선택 이유
로지스틱 회귀 분류의 대표적인 알고리즘
랜덤 포레스트 특성 간의 상관성을 배제한 특성 중요도를 파악하기 위해
XGBoost 대부분의 캐글 수상작이 사용한 앙상블 기법
LightGBM
CatBoost