캐글 커널 링크 : https://www.kaggle.com/pavanraj159/telecom-customer-churn-prediction
안녕하세요!
오늘은 캐글의 'Telecom Customer Churn Prediction'에 대해서 포스팅 해보려 합니다.
대회는 아니지만 좋은 커널이기도 하고, 요즘 진행하는 프로젝트와 연관이 있어서 정리를 해봤습니다.
포스팅은 총 세 번으로 나눠서 진행할 예정이고, 순서는 다음과 같습니다.
- 데이터 구성 파악 및 뼈대 구상
- 코드 및 결과 분석
- 실전이라면? - 손익분기점 파악
1. 데이터 구성 파악 및 뼈대 구상
1-1. 데이터 구성 파악
- 목표 : 주어진 데이터를 가지고 모델을 학습시켜 고객의 이탈 예측 및 방지
- 주어진 데이터 :
약 7000개의 데이터
고객 ID, 성별, 결혼 여부, 자녀 수, 남은 약정 개월 수, 약정 기간, 여러가지 인터넷 및 전화 서비스 가입 여부, 전자청구서 신청 여부, 결제 방식, 월 청구 금액, 총 청구 금액 등에 대한 데이터
1-2. 뼈대 구상
- 데이터 전처리 후, 특성 간의 상관관계를 파악하고 이탈에 각 특성이 얼마나 영향을 끼치는지 파악
- 시계열적 특성이 없고, 외부 데이터의 사용도 할 수 없기 때문에 바로 모델 학습으로 들어감
- 지도학습의 여러가지 알고리즘을 적용시켜보고, 성능을 비교해봄
이탈을 할지 안할지, 0인지 1인지, 분류하는 문제이기 때문에 로지스틱회귀, 랜덤포레스트 그리고 몇 가지 앙상블 시도해보자
결론
선택한 알고리즘 리스트 | 선택 이유 |
로지스틱 회귀 | 분류의 대표적인 알고리즘 |
랜덤 포레스트 | 특성 간의 상관성을 배제한 특성 중요도를 파악하기 위해 |
XGBoost | 대부분의 캐글 수상작이 사용한 앙상블 기법 |
LightGBM | |
CatBoost |
'Project > Kaggle' 카테고리의 다른 글
[Kaggle] 사이킷런 없이 Titanic 생존자 예측하기 (0) | 2020.10.17 |
---|---|
[Kaggle] 산탄데르 은행 제품 추천 - Baseline (0) | 2020.06.18 |
[Kaggle] 통신사 고객 이탈 예측 - 재현율/ 정밀도의 손익분기점 (0) | 2020.06.04 |
[Kaggle] 통신사 고객 이탈 예측 - 코드 및 결과 분석 (0) | 2020.06.04 |