본문 바로가기

분류 전체보기

(76)
한이음 공모전 입선, 한국정보처리학회 추계학술대회 은상 수상 후기 2020년 7월부터 12월까지 약 6개월간의 장기 프로젝트를 마쳤습니다~~ 해당 프로젝트는 타 대학교 4명의 학생들과 KT 직원 한 분까지 총 6명으로 구성하여 진행되었고, 주제는 '머신러닝/ 딥러닝을 이용한 통신서비스 이용고객 분석 및 이탈예측' 이었습니다. 프로젝트의 타임라인은 아래와 같이 크게 4부분으로 나뉠 수 있는데요, 한 번 살펴봅시다. 1. 캐글의 통신사 고객 데이터를 이용하여 이탈 예측 모델링 연습 2. 실제 KT 고객 데이터를 이용하여 데이터 전처리 및 모델링 3. 태블로(Tableau)를 이용한 대쉬보드 시각화 4. 장고(Django)를 이용한 웹 구현 그리고 대망의 결과는.. 한이음 공모전 입선!!! 한국정보처리학회 추계학술대회 은상!!! 그럼 그 수상작을 가볍게 보여드리겠습니다 ㅎㅎ..
selenium - 지하철역 인근 점포 수(카페, 호프집, 제과점 등) 크롤링 서울역 근처에는 카페가 몇 개 있을까? 강남역 근처에는 빵집이 몇 개 있을까? 이태원역 근처에는 술집이 몇 개 있을까? 오늘은 이 물음에 대한 솔루션을 주제로 포스팅을 준비해봤습니다. 바로 시작해볼게요! 준비물 서울시 상권 데이터 - 크롤링 지하철역 주소 데이터 - 파일 다운 법정동, 행정동 맵핑 데이터 - 파일 다운 1. 서울시 상권 데이터 먼저 서울시의 '상권분석서비스'에서 특정 지역의 점포 수를 크롤링하는 과정입니다. 준비물에 걸어둔 링크로 들어가시면, 지역별로 다양한 형태의 데이터를 제공하는 것을 확인할 수 있습니다. 그 중 저는 2018년 1, 2, 3, 4분기, 2019년 1분기의 외식업 데이터, 특히 제과점, 호프/주점, 카페 수 데이터를 필요로 합니다. 해당 데이터는 url로 들어가면 바로..
너 대학 다닐 때 뭐 했냐? 인생에는 몇 가지 큰 갈림길이 있다. 지금까지는 대학 입시 혹은 취업 정도로 생각된다. 갈림길에 섰을때, 이 글이 나에게 도움이 되길 바란다. 2015 - 대학교 입학, 산업공학 전공 - 학과 소모임 '컨포인트' (기술경영&컨설팅 학술 동아리) 기업 성공 사례 분석 및 주 1회 케이스 스터디 - 교내 농구 동아리 'SMASH' 2016 ~ 2017 - 군대 2018 - 학과 소모임 '컨포인트' (기술경영&컨설팅 학술 동아리) 프리미엄 과일 판매 기업('위버켓') 실제 컨설팅 고객 세분화를 통해 고객 맞춤형 과일컵 전략 제안/ "비타민 B가 부족한 수험생을 위한 과일컵", "철분이 부족한 임산부를 위한 과일컵" 과 같은 형태 - 인액터스 (사회적 기업형 창업 동아리) 주제 : 자활근로자와 함께하는 못난이 ..
[Kaggle] 사이킷런 없이 Titanic 생존자 예측하기 이번 포스팅은 seaborn 과 matplotlib 을 이용하여 EDA 를 진행하고, 이를 바탕으로 numpy 와 pandas 만을 이용하여 예측 모델을 직접 만드는 것입니다. 정확도를 높이는 것이 목적이 아닌, 다양한 측면에서 데이터를 바라보며 새로운 인사이트를 발견하는 과정, 그리고 직접 모델을 만들어 봄으로써 데이터에 대한 깊은 이해를 쌓고자 합니다. 데이터 공부를 시작하는 여러분에게도 좋은 밑거름이 되었으면 좋겠습니다! 그럼 시작해 볼게요! 순서 Feature 하나씩 뜯어보기 EDA 를 통해 얻은 인사이트 정리 모델링 구성 짜기 모델링 테스트셋에 적용 및 결과 분석 1. Feature 하나씩 뜯어보기 1-1. 데이터 로드 및 라이브러리 # 라이브러리 import pandas as pd import..
seaborn 완벽 정리 여러분은 처음 seaborn을 어떻게 사용했나요? seaborn이 시각화에 좋다고 해서 그냥 import seaborn as sns 를 하고, 있을 법한 그래프를 메소드로 써서 실행시켜보시지는 않았나요? displot이 어떤 plot인지도 모른채로, sns.distplot 인가, sns.displot 인가 고민하시지는 않았나요? 네, 제가 그랬습니다. 그래서 정리했습니다. seaborn!! * 참고 자료 : seaborn.pydata.org/tutorial/function_overview.html seaborn은 matplotlib 기반의 파이썬 시각화 라이브러리 입니다. matplotlib 보다 더 이쁘고 쉽게 만들수 있다고 알려져 있죠. 그런데 이 seaborn 도 크게 두 가지 함수로 나뉘어져 있다..
matplotlib 완벽 정리 데이터 분야 공부를 시작할때 가장 먼저 만나는 세 가지 라이브러리를 꼽자면 numpy, pandas, matplotlib 입니다. 오늘은 그 중 matplotlib 에 대해서 정리해볼텐데요, 개인적으로 처음 이 라이브러리를 접했을때 정말 헷갈렸습니다. 어떤 커널에서는 plt.plot으로 표현하고, 또 다른 커널에서는 ax.plot 혹은 axes[0,0].plot으로 표현되어있기 때문입니다. 그리고 가령 히스토그램을 그린다면 누구는 plt.hist로 구현했는데, 또 다른 누구는 plt.plot(kind='hist)로 구현했기 때문에 일목요연하게 정리되지 않았습니다. 그래서 오늘 포스팅을 기획하게 되었는데요, 해당 포스팅의 목적은 두 가지 입니다. 첫 번째, 왜 이렇게 표현방식이 다양하고, 어떻게 정리할 수..
[Python] 예외 처리 - 아이디 만들기 구현 안녕하세요. 오늘은 간단하게 예외처리(try, except) 문법을 이용해서 간단한 예제를 만들어보았습니다. 개념공부만 하는 것보다는 직접 해봐야 머리 속에 잘 들어오더라구요! 그래서 이런 예외 처리를 실무에서는 어떻게 사용할지 한번 생각해보고 간단하게 구현해봤습니다. (물론 실무에서는 이렇게 사용하지 않겠죠..?) 제가 생각해본 예제의 목표는 다음과 같습니다. 아이디를 만들기 위해 input 값을 사용자로부터 받을 것 대문자가 포함된 아이디는 에러를 발생시킬 것 특수문자가 포함된 아이디는 에러를 발생시킬 것 사용 가능한 아이디를 입력할때까지 자동 반복될 것 그럼 시작해볼까요!! 먼저 사용자 정의 에러 클래스를 만들었습니다. 처음부터 모든 코드를 작성하는 방법보다, 기존 클래스를 상속받아 함수를 수정하는..
[Python] 모듈 사용법, pip의 원리 지난 포스팅에서 비슷한 코드의 작성을 피하기 위해 클래스가 필요하다고 했습니다. 오늘은 이 클래스를 파일로 저장하고, 필요할 때마다 호출해서 사용하는 방법을 공부해보겠습니다. 클래스와 함수들을 모아둔 파일(.py)을 모듈이라고 합니다. 코딩을 시작하기 전 import numpy as np 혹은 import pandas as pd 를 작성해본 적 있으시죠? 이게 쉽게 말하면 내 컴퓨터에 저장되어 있는 numpy.py 라는 파일과 pandas.py 라는 파일을 호출하는 것입니다. 나는 컴퓨터에 그런 파일을 저장한 적이 없으시다구요? numpy와 pandas의 경우에는 아주 기본적인 모듈이기 때문에 파이썬을 설치하면 자동으로 컴퓨터 저장됩니다. 그래서 따로 저장할 필요가 없었던거죠. 새로운 모듈의 경우에는 별..