본문 바로가기

Project

(18)
[BOAZ] 백화점 고객 성별 예측 컴피티션 안녕하세요. 오늘은 BOAZ 머신러닝 스터디에서 진행한 '백화점 고객 성별 예측 컴피티션' 후기를 남겨보려 합니다. 약 2주간 진행되었고, 새로운 feature 생성에 신경을 많이 썼던 대회였습니다. 바로 시작해 볼게요! 순서 데이터 설명 변수 아이디어 정리 코드 설명 결론 및 배운점 1. 데이터 설명 train - 약 70만개의 구매/환불 데이터 + 성별 정보 test - 약 34만개의 구매/환불 데이터 * 데이터 형태 데이터의 첫 번째 줄을 대략적으로 해석해보면 "고객번호(custid)가 0인 사람이 2000년 6월 25일 12시 12분 무역지점에서 제품코드(goodcd)가 2.12E+12인 에스티로더 화장품을 3개월 할부로 81000원에 샀다" 라고 합니다. 여기서 저희가 예측해야할 것은 이 사람의..
[Kaggle] 산탄데르 은행 제품 추천 - Baseline 캐글 대회 링크 : https://www.kaggle.com/c/santander-product-recommendation Santander Product Recommendation Can you pair products with people? www.kaggle.com 안녕하세요! 오늘은 캐글의 'Santander Product Recommendation' 대회를 주제로 포스팅하려 합니다. 시작하기 앞서 이번 포스팅은 '캐글 우승작으로 배우는 머신러닝 탐구생활' 도서의 베이스라인 코드를 분석한 것임을 밝힙니다. 오늘은 저자의 베이스라인 코드를 자세히 들여다보고 느낀 점과 배운 점을 정리하며 마무리 할 계획입니다. 바로 시작해볼게요!! 순서 데이터 구성 파악 뼈대 구상 전체 코드 공유 느낀 점 및 배운 ..
[Guesthouse] 경쟁사 가격 조사 - 지금 가격이 적당해? 게스트하우스든 음식점이든 카페든 내가 사장이면 참 해야할게 많습니다. 그 중 하나가 가격 결정인데, 가격을 결정하는데 있어 '시세' 라는게 큰 영향을 미칩니다. 음식점이나 카페와 같이 가격이 고정적이면 처음에 조금만 발품을 팔면 시세를 쉽게 파악할 수 있습니다. 하지만 제가 일하던 게스트하우스와 같이 성수기, 비수기, 평일, 주말, 명절, 연박, 얼리버드 등 다양한 요소에 의해 가격이 끊임없이 변동하는 경우에는 시세를 파악하기 쉽지 않습니다. 그래서 직접 해봤습니다. 실시간 가격 비교 프로그래밍!! 코드와 관련한 내용은 제일 아래의 링크를 참고해주시고, 이번 포스팅은 분석에 포커스를 맞추겠습니다. 결론부터 말씀드리면 '실시간으로 경쟁사들의 가격을 보여주는 프로그램'을 만드는 것은 실패했습니다. 사실 끝까..
[Guesthouse] 입국자 분석 - 몇 월에 어떤 나라 사람이 많이 올까? 게스트하우스에서 직원으로 근무를 하며 나름 다양한 분석을 해봤습니다. 그 중 가장 유의미했던 '입국자 분석'에 대해 기록해보겠습니다. 순서 입국자 분석의 필요성 분석 방법 데이터 로드 데이터 전처리 - R , Excel 편차 계산 시각화 결과 및 제안 1. 입국자 분석의 필요성 고객들의 예약관리와 체크인 업무를 하다보니 신기한 현상을 발견할 수 있었습니다. 그건 바로 '고객들의 패턴' 이었는데요, 어떤 날에는 일본인 손님으로 가득 차는 날이 있었고, 또 어떤 날에는 말레이시아 손님으로 가득 차는 날이 있었습니다. 만약 진짜 이런 패턴이 존재하는 것이라면, 그 패턴을 바탕으로 다양한 시도를 해볼 수 있을 것 같았습니다. 마케팅의 타겟층을 좁혀서 더 섬세한 플랜(ex. 개별적 메일 수신, 쿠폰제공, 제휴 업..
[Kaggle] 통신사 고객 이탈 예측 - 재현율/ 정밀도의 손익분기점 3. 실전이라면? - 손익분기점 파악 이전 포스팅인 Part 2 에서 예측의 두 가지 오류에 대해서 언급했습니다. 1) 이탈할 사람을 이탈하지 않을 것이라고 잘못 예측한 경우 2) 이탈하지 않을 사람을 이탈할 것이라고 잘못 예측한 경우 1번의 경우에는 이탈을 막지 못해 손해가 발생하고, 2번의 경우에는 불필요한 사람에게 솔루션을 제공해서 손해가 발생합니다. 그리고 1번의 경우에는 낮은 재현율에 따른 손해이고, 2번의 경우에는 낮은 정밀도에 따른 손해입니다. 우리는 재현율이 정밀도보다 중요하다고 여기기 때문에 재현율을 높이는 것을 목표로 하지만, 재현율을 높이게 되면 정밀도가 낮아지기 때문에 적당한 선까지만 재현율을 높여야 합니다. 즉 이탈할 사람 대부분을 예측하는 것이 중요하지만, 적자가 되면 안된다는 ..
[Kaggle] 통신사 고객 이탈 예측 - 코드 및 결과 분석 2. 코드 분석 및 결과 분석 2-1. 코드분석 전체 코드는 아래 깃허브를 참고해 주세요. https://github.com/sanghwi-git/predict_churn/blob/master/Final%20handling.ipynb sanghwi-git/predict_churn Contribute to sanghwi-git/predict_churn development by creating an account on GitHub. github.com 과정 데이터 전처리 데이터 로드 결측치 처리 타입 변경하기 이탈 =1/ 이탈하지 않음=0 : 이탈율 확인을 위함 탐색적 자료 분석(EDA) 특성별 빈도수 파악 특성별 이탈율 파악 카테고리형 연속형 상관관계 행렬 EDA 결과 분석 특성 공학(Feature En..
[Kaggle] 통신사 고객 이탈 예측 - 뼈대 구상 캐글 커널 링크 : https://www.kaggle.com/pavanraj159/telecom-customer-churn-prediction Telecom Customer Churn Prediction Explore and run machine learning code with Kaggle Notebooks | Using data from Telco Customer Churn www.kaggle.com 안녕하세요! 오늘은 캐글의 'Telecom Customer Churn Prediction'에 대해서 포스팅 해보려 합니다. 대회는 아니지만 좋은 커널이기도 하고, 요즘 진행하는 프로젝트와 연관이 있어서 정리를 해봤습니다. 포스팅은 총 세 번으로 나눠서 진행할 예정이고, 순서는 다음과 같습니다. 데이터 구..
[Dacon] 전력수요 및 SMP 예측 AI 경진대회 - 결과분석 3. 결과 분석 5월 25일부터 현재(5월 31일)까지의 점수로는 17등을 기록하고 있습니다. 시간이 지날수록 실제 데이터 값이 공개되면서 등수가 변경되는데, supply를 예측할때 22일 이후를 기점으로 모델에 변화(학습데이터 60개 -> 90개)를 주었기 때문에 6월 9일을 기점으로 등수가 떨어지거나 오르거나 할 것 같습니다. - 아쉬운 점 Part 1에서도 언급했듯 유가 데이터가 SMP 예측에 가장 큰 영향을 주는 요인입니다. 하지만 유가데이터의 예측 모델을 보면 정확하게 예측하고 있지 못하고 있음을 확인할 수 있는데 이는 모델이 최근 코로나 사태나 사우디와 러시아 사이 관계를 고려할수 없기 때문입니다. 그래서 생각한 방법이 딥러닝인데 (특히 LSTM), 딥러닝 지식이 전무할 뿐만아니라 텐서플로우 ..