본문 바로가기

Project/Kaggle

(5)
[Kaggle] 사이킷런 없이 Titanic 생존자 예측하기 이번 포스팅은 seaborn 과 matplotlib 을 이용하여 EDA 를 진행하고, 이를 바탕으로 numpy 와 pandas 만을 이용하여 예측 모델을 직접 만드는 것입니다. 정확도를 높이는 것이 목적이 아닌, 다양한 측면에서 데이터를 바라보며 새로운 인사이트를 발견하는 과정, 그리고 직접 모델을 만들어 봄으로써 데이터에 대한 깊은 이해를 쌓고자 합니다. 데이터 공부를 시작하는 여러분에게도 좋은 밑거름이 되었으면 좋겠습니다! 그럼 시작해 볼게요! 순서 Feature 하나씩 뜯어보기 EDA 를 통해 얻은 인사이트 정리 모델링 구성 짜기 모델링 테스트셋에 적용 및 결과 분석 1. Feature 하나씩 뜯어보기 1-1. 데이터 로드 및 라이브러리 # 라이브러리 import pandas as pd import..
[Kaggle] 산탄데르 은행 제품 추천 - Baseline 캐글 대회 링크 : https://www.kaggle.com/c/santander-product-recommendation Santander Product Recommendation Can you pair products with people? www.kaggle.com 안녕하세요! 오늘은 캐글의 'Santander Product Recommendation' 대회를 주제로 포스팅하려 합니다. 시작하기 앞서 이번 포스팅은 '캐글 우승작으로 배우는 머신러닝 탐구생활' 도서의 베이스라인 코드를 분석한 것임을 밝힙니다. 오늘은 저자의 베이스라인 코드를 자세히 들여다보고 느낀 점과 배운 점을 정리하며 마무리 할 계획입니다. 바로 시작해볼게요!! 순서 데이터 구성 파악 뼈대 구상 전체 코드 공유 느낀 점 및 배운 ..
[Kaggle] 통신사 고객 이탈 예측 - 재현율/ 정밀도의 손익분기점 3. 실전이라면? - 손익분기점 파악 이전 포스팅인 Part 2 에서 예측의 두 가지 오류에 대해서 언급했습니다. 1) 이탈할 사람을 이탈하지 않을 것이라고 잘못 예측한 경우 2) 이탈하지 않을 사람을 이탈할 것이라고 잘못 예측한 경우 1번의 경우에는 이탈을 막지 못해 손해가 발생하고, 2번의 경우에는 불필요한 사람에게 솔루션을 제공해서 손해가 발생합니다. 그리고 1번의 경우에는 낮은 재현율에 따른 손해이고, 2번의 경우에는 낮은 정밀도에 따른 손해입니다. 우리는 재현율이 정밀도보다 중요하다고 여기기 때문에 재현율을 높이는 것을 목표로 하지만, 재현율을 높이게 되면 정밀도가 낮아지기 때문에 적당한 선까지만 재현율을 높여야 합니다. 즉 이탈할 사람 대부분을 예측하는 것이 중요하지만, 적자가 되면 안된다는 ..
[Kaggle] 통신사 고객 이탈 예측 - 코드 및 결과 분석 2. 코드 분석 및 결과 분석 2-1. 코드분석 전체 코드는 아래 깃허브를 참고해 주세요. https://github.com/sanghwi-git/predict_churn/blob/master/Final%20handling.ipynb sanghwi-git/predict_churn Contribute to sanghwi-git/predict_churn development by creating an account on GitHub. github.com 과정 데이터 전처리 데이터 로드 결측치 처리 타입 변경하기 이탈 =1/ 이탈하지 않음=0 : 이탈율 확인을 위함 탐색적 자료 분석(EDA) 특성별 빈도수 파악 특성별 이탈율 파악 카테고리형 연속형 상관관계 행렬 EDA 결과 분석 특성 공학(Feature En..
[Kaggle] 통신사 고객 이탈 예측 - 뼈대 구상 캐글 커널 링크 : https://www.kaggle.com/pavanraj159/telecom-customer-churn-prediction Telecom Customer Churn Prediction Explore and run machine learning code with Kaggle Notebooks | Using data from Telco Customer Churn www.kaggle.com 안녕하세요! 오늘은 캐글의 'Telecom Customer Churn Prediction'에 대해서 포스팅 해보려 합니다. 대회는 아니지만 좋은 커널이기도 하고, 요즘 진행하는 프로젝트와 연관이 있어서 정리를 해봤습니다. 포스팅은 총 세 번으로 나눠서 진행할 예정이고, 순서는 다음과 같습니다. 데이터 구..