본문 바로가기

Study doc./Summary

(3)
딥러닝 입문자를 위한 모델 구조 (Computer Vision) 머신러닝을 처음 공부할때 어려웠던 점 중 하나는 지금 어떤 부분을 공부하고 있는지 몰랐던 겁니다. 예를 들어, tree 기반 알고리즘을 공부할때 '불순도' 라는 개념을 공부했을 것입니다. 그 당시에는 불순도가 이런거고, gini계수랑 엔트로피가 이런거구나!! 했지만, 전체적인 머신러닝 모델 관점에서 봤을때는 이 개념이 왜 필요한지, 어디 부분인지를 몰랐습니다. 하지만 머신러닝에 대한 지식이 어느 정도 쌓인 지금은 대답할 수 있습니다. 전처리, 모델링, 학습 및 평가 중 모델링에 속하고, 모델링의 알고리즘에는 로지스틱, 랜덤포레스트, XGBoost 등 다양한 알고리즘이 존재하지만, 그 중 tree 기반의 알고리즘에서 노드가 분할하기 위한 기준으로 불순도가 사용된다는것을요! 만약 불순도를 처음 공부할 때 이..
머신러닝 입문자를 위한 모델 구조 * 해당 포스팅은 파이썬 머신러닝 완벽 가이드(권철민, 2019) 교재를 참고하여 공부하며 작성한 글입니다. "내일 강수량을 예측해봐!" "우리 고객이 언제 이탈할지 예측해봐!" 다음과 같은 업무를 부여받았다면 여러분은 어떻게 하시겠습니까? 날씨의 경우에는 작년 이맘때의 강수량과 지난 한 주간의 강수량 등을 고려해서 미래의 강수량을 예측해볼 수 있을 것 같습니다. 고객 이탈의 경우에는 이탈했던 사례들의 특성들을 분석하고 기존 고객의 특성과 비교하며 이탈 여부를 예측할 수 있을 것입니다. 즉 과거 데이터들을 기반으로 미래를 예측한다는 말과 같은데요, 머신러닝/ 딥러닝이 있기 전까지는 수학적, 통계적 능력이 뛰어나신 분들만이 할 수 있는 영역이었습니다. 하지만 요즘에는 모든 프로세스를 컴퓨터가 연산하기 때문..
모델 평가하기 - 정확도만 높으면 좋은 모델? * 카테고리 별로 읽기보다, 글 순서대로 읽는걸 추천드려요. 순서 정확도의 문제 재현율, 정밀도 F score 임계값 조절 PR curve vs ROC curve Confusion Matrix 1. 정확도의 문제 모델 성능을 비교할 때 그리고 그리드 서치를 이용하여 최적은 매개변수를 구할 때, 어떤 값을 기준으로 모델을 선택하고 매개변수를 선택하시나요? 이 주제에 대한 고민을 안해보셨다면 대부분 정확도를 기준으로 선택하셨을텐데, 정확도만을 가지고 성능을 비교하면 어떤 문제점이 있는지 알려드릴게요! 가장 유명하게 알려진 예시로 암 환자의 진단을 들어보겠습니다. 어떤 회사에서 두 종류의 암 진단 키트를 발명했다고 가정해봅시다 !! A 키트의 정확도는 99% B 키트의 정확도는 95% 라고 발표했을 때, 우리..