본문 바로가기

Project/한이음 ICT 멘토링 (KT 연계)

한이음 공모전 입선, 한국정보처리학회 추계학술대회 은상 수상 후기

2020년 7월부터 12월까지 약 6개월간의 장기 프로젝트를 마쳤습니다~~

해당 프로젝트는 타 대학교 4명의 학생들과 KT 직원 한 분까지 총 6명으로 구성하여 진행되었고,

주제는 '머신러닝/ 딥러닝을 이용한 통신서비스 이용고객 분석 및 이탈예측' 이었습니다.

프로젝트의 타임라인은 아래와 같이 크게 4부분으로 나뉠 수 있는데요, 한 번 살펴봅시다.

1. 캐글의 통신사 고객 데이터를 이용하여 이탈 예측 모델링 연습

2. 실제 KT 고객 데이터를 이용하여 데이터 전처리 및 모델링

3. 태블로(Tableau)를 이용한 대쉬보드 시각화

4. 장고(Django)를 이용한 웹 구현

그리고 대망의 결과는..

한이음 공모전 입선!!!

한국정보처리학회 추계학술대회 은상!!!

그럼 그 수상작을 가볍게 보여드리겠습니다 ㅎㅎ


1. 이탈확률 별 대쉬보드

아래 대쉬보드는 이탈 확률을 0~100% 라고 했을때 5부분으로 카테고리화 한 후 countplot 으로 시각화 한 것입니다.

특히 그래프의 블럭을 클릭하면 아래 데이터 프레임이 블럭에 해당하는 값으로 필터링 되는데요,

이는 대쉬보드의 사용자가 이탈확률이 80~100%인 고객, 60~80%인 고객을 별도로 확인하게 하기 위함입니다.

이탈 확률별 대쉬보드

80~100% 고객군 필터링

2. 월 요금별 대쉬보드

왼쪽 상단 그래프는 월 요금별 사람 수를 시각화 한 그래프이고,

오른쪽 상단 그래프는 월 요금별 이탈 비율을 시각화 한 그래프입니다.

왼쪽 그래프에서는 빈도수가 적은 카테고리의 경우 이탈 비율이 정확하게 확인되지 않는 단점이 있습니다.

따라서 오른쪽 그래프에서 이를 보완해주도록 했고,

아래 대쉬보드를 보면 월 요금이 만원~십만원인 고객군이 가장 많고, 백만원 이상의 고객군이 이탈율이 가장 높은 것을 확인할 수 있습니다.

월 요금별 대쉬보드

만원~십만원 고객군 필터링

3. 지역별 대쉬보드

아래 대쉬보드는 우리나라 지도에 지역별 이탈 비율을 색상으로 구분한 것입니다.

진한 빨간색일수록 이탈 비율이 높은 지역이고,

진한 파란색일수록 이탈 비율이 낮은 지역입니다.

대쉬보드를 살펴보면 충청남도의 이탈비율이 상대적으로 가장 높고,

제주지역의 이탈비율이 상대적으로 가장 낮은 것을 확인할 수 있습니다.

이는 사용자로 하여금 지역별 특성이 이탈 비율에 미치는 영향을 분석해 볼 수 있게 하거나,

지역별 관리가 필요한 경우 해당 대쉬보드가 유용하게 사용될 수 있습니다.

지역별 대쉬보드

충청남도 필터링

4. 고객 유형별 대쉬보드

멘토님으로부터 받은 데이터는 공공기관 혹은 기업을 대상으로 한 데이터 입니다.

따라서 왼쪽 상단 그래프는 각 유형이 차지하는 비율을 나타내기 위한 파이차트이고,

오른쪽 상단 그래프는 각 유형별 이탈 비율을 나타내는 bar 차트 입니다.

그래프를 보면 기업고객의 경우가 절반 이상을 차지하며, 이탈 비율은 공공고객에서 더 높게 나타나는 것을 확인할 수 있습니다.

즉 사용자는 공공고객의 유입을 높일 수 있는 방안을 찾아보거나,

공공고객의 이탈을 방지할 수 있는 방안을 모색하는 전략을 기획할 수 있습니다.

고객 유형별 대쉬보드

공공고객 필터링

이번 프로젝트를 통해서 배운 점이 참 많습니다!

KT의 고객 데이터가 완전 대용량이었기 때문에 전처리시 메모리를 고려한 코드의 중요성을 알게 되었고,

모델의 성능을 평가하는 방법으로 재현율, 정밀도, f score 등 다양한 기준이 있다는 점을 배웠습니다.

또한 태블로의 사용법을 이번 프로젝트를 계기로 처음 익히게 되었는데,

태블로가 노력 시간 대비 시각화 성능이 아주 좋은 고효율의 툴이라는 것을 알게 되었습니다! (태블로 쓰세요 여러분!)

만약 한이음을 다시 할 것이냐고 물어본다면 '아니!!' 라고 하겠지만,

IT 관련 분야로 관심이 있는 학생이라면 한 번 추천해 볼 법한 프로그램이었습니다.

그럼 이제 한이음 안녕~