본문 바로가기

분류 전체보기

(74)
너 대학 다닐 때 뭐 했냐? 인생에는 몇 가지 큰 갈림길이 있다. 지금까지는 대학 입시 혹은 취업 정도로 생각된다. 갈림길에 섰을때, 이 글이 나에게 도움이 되길 바란다. 2015 - 대학교 입학, 산업공학 전공 - 학과 소모임 '컨포인트' (기술경영&컨설팅 학술 동아리) 기업 성공 사례 분석 및 주 1회 케이스 스터디 - 교내 농구 동아리 'SMASH' 2016 ~ 2017 - 군대 2018 - 학과 소모임 '컨포인트' (기술경영&컨설팅 학술 동아리) 프리미엄 과일 판매 기업('위버켓') 실제 컨설팅 고객 세분화를 통해 고객 맞춤형 과일컵 전략 제안/ "비타민 B가 부족한 수험생을 위한 과일컵", "철분이 부족한 임산부를 위한 과일컵" 과 같은 형태 - 인액터스 (사회적 기업형 창업 동아리) 주제 : 자활근로자와 함께하는 못난이 ..
[Kaggle] 사이킷런 없이 Titanic 생존자 예측하기 이번 포스팅은 seaborn 과 matplotlib 을 이용하여 EDA 를 진행하고, 이를 바탕으로 numpy 와 pandas 만을 이용하여 예측 모델을 직접 만드는 것입니다. 정확도를 높이는 것이 목적이 아닌, 다양한 측면에서 데이터를 바라보며 새로운 인사이트를 발견하는 과정, 그리고 직접 모델을 만들어 봄으로써 데이터에 대한 깊은 이해를 쌓고자 합니다. 데이터 공부를 시작하는 여러분에게도 좋은 밑거름이 되었으면 좋겠습니다! 그럼 시작해 볼게요! 순서 Feature 하나씩 뜯어보기 EDA 를 통해 얻은 인사이트 정리 모델링 구성 짜기 모델링 테스트셋에 적용 및 결과 분석 1. Feature 하나씩 뜯어보기 1-1. 데이터 로드 및 라이브러리 # 라이브러리 import pandas as pd import..
seaborn 완벽 정리 여러분은 처음 seaborn을 어떻게 사용했나요? seaborn이 시각화에 좋다고 해서 그냥 import seaborn as sns 를 하고, 있을 법한 그래프를 메소드로 써서 실행시켜보시지는 않았나요? displot이 어떤 plot인지도 모른채로, sns.distplot 인가, sns.displot 인가 고민하시지는 않았나요? 네, 제가 그랬습니다. 그래서 정리했습니다. seaborn!! * 참고 자료 : seaborn.pydata.org/tutorial/function_overview.html seaborn은 matplotlib 기반의 파이썬 시각화 라이브러리 입니다. matplotlib 보다 더 이쁘고 쉽게 만들수 있다고 알려져 있죠. 그런데 이 seaborn 도 크게 두 가지 함수로 나뉘어져 있다..
matplotlib 완벽 정리 데이터 분야 공부를 시작할때 가장 먼저 만나는 세 가지 라이브러리를 꼽자면 numpy, pandas, matplotlib 입니다. 오늘은 그 중 matplotlib 에 대해서 정리해볼텐데요, 개인적으로 처음 이 라이브러리를 접했을때 정말 헷갈렸습니다. 어떤 커널에서는 plt.plot으로 표현하고, 또 다른 커널에서는 ax.plot 혹은 axes[0,0].plot으로 표현되어있기 때문입니다. 그리고 가령 히스토그램을 그린다면 누구는 plt.hist로 구현했는데, 또 다른 누구는 plt.plot(kind='hist)로 구현했기 때문에 일목요연하게 정리되지 않았습니다. 그래서 오늘 포스팅을 기획하게 되었는데요, 해당 포스팅의 목적은 두 가지 입니다. 첫 번째, 왜 이렇게 표현방식이 다양하고, 어떻게 정리할 수..
[Python] 예외 처리 - 아이디 만들기 구현 안녕하세요. 오늘은 간단하게 예외처리(try, except) 문법을 이용해서 간단한 예제를 만들어보았습니다. 개념공부만 하는 것보다는 직접 해봐야 머리 속에 잘 들어오더라구요! 그래서 이런 예외 처리를 실무에서는 어떻게 사용할지 한번 생각해보고 간단하게 구현해봤습니다. (물론 실무에서는 이렇게 사용하지 않겠죠..?) 제가 생각해본 예제의 목표는 다음과 같습니다. 아이디를 만들기 위해 input 값을 사용자로부터 받을 것 대문자가 포함된 아이디는 에러를 발생시킬 것 특수문자가 포함된 아이디는 에러를 발생시킬 것 사용 가능한 아이디를 입력할때까지 자동 반복될 것 그럼 시작해볼까요!! 먼저 사용자 정의 에러 클래스를 만들었습니다. 처음부터 모든 코드를 작성하는 방법보다, 기존 클래스를 상속받아 함수를 수정하는..
[Python] 모듈 사용법, pip의 원리 지난 포스팅에서 비슷한 코드의 작성을 피하기 위해 클래스가 필요하다고 했습니다. 오늘은 이 클래스를 파일로 저장하고, 필요할 때마다 호출해서 사용하는 방법을 공부해보겠습니다. 클래스와 함수들을 모아둔 파일(.py)을 모듈이라고 합니다. 코딩을 시작하기 전 import numpy as np 혹은 import pandas as pd 를 작성해본 적 있으시죠? 이게 쉽게 말하면 내 컴퓨터에 저장되어 있는 numpy.py 라는 파일과 pandas.py 라는 파일을 호출하는 것입니다. 나는 컴퓨터에 그런 파일을 저장한 적이 없으시다구요? numpy와 pandas의 경우에는 아주 기본적인 모듈이기 때문에 파이썬을 설치하면 자동으로 컴퓨터 저장됩니다. 그래서 따로 저장할 필요가 없었던거죠. 새로운 모듈의 경우에는 별..
딥러닝 입문자를 위한 모델 구조 (Computer Vision) 머신러닝을 처음 공부할때 어려웠던 점 중 하나는 지금 어떤 부분을 공부하고 있는지 몰랐던 겁니다. 예를 들어, tree 기반 알고리즘을 공부할때 '불순도' 라는 개념을 공부했을 것입니다. 그 당시에는 불순도가 이런거고, gini계수랑 엔트로피가 이런거구나!! 했지만, 전체적인 머신러닝 모델 관점에서 봤을때는 이 개념이 왜 필요한지, 어디 부분인지를 몰랐습니다. 하지만 머신러닝에 대한 지식이 어느 정도 쌓인 지금은 대답할 수 있습니다. 전처리, 모델링, 학습 및 평가 중 모델링에 속하고, 모델링의 알고리즘에는 로지스틱, 랜덤포레스트, XGBoost 등 다양한 알고리즘이 존재하지만, 그 중 tree 기반의 알고리즘에서 노드가 분할하기 위한 기준으로 불순도가 사용된다는것을요! 만약 불순도를 처음 공부할 때 이..
[Python] 파이썬 클래스, 이거 한 번만 읽어봐! Q. 야, 클래스가 뭐야? 왜 필요해? A. 썼던 내용들 반복 안하려고! 미리 정의해두고 필요할 때만 호출해서 쓰려고! Q. 그럼 그냥 함수를 만들어서 쓰면 되잖아!! A. 맞아, 근데 클래스가 함수들을 모아둔거야! 머신러닝 알고리즘 써봤어? 로지스틱 알고리즘 사용할 때 model = LogisticRegression() 쓴거 기억나? 이게 사실은 LogisticRegression 이라는 클래스를 호출해서 model이라는 객체에 넣은거야. 그리고 model.fit(X_train, y_train) 했었지? 여기서 fit이 LogisticRegression 클래스 안에 있던 하나의 함수였던거지! Q. 야, 어떤 사람이 클래스 쓴거 봤는데 init이랑 양옆에 underbar( __ )랑 self랑 처음 보는 ..