본문 바로가기

Project

(18)
[BOAZ] 보아즈 데이터 분석 부문 수료 및 활동 후기 보아즈 활동을 하기 전까지만 해도 데이터 분석을 독학하는데 어려움이 정말 많았습니다. 말이 쉬워 데이터 분석이지, 처음 공부를 결심하고 뛰어들었을때에는 뭐가 이렇게 생소한 용어가 많은지,, 파이프라인, 파이썬, C언어, 자바, 코딩테스트, 하이브, 하둡, 머신러닝, 딥러닝, SQL 등 모든걸 공부해야하는 줄 알았고, 그래서 무엇부터 공부해야할지, 어떻게 공부해야할지 감도 안잡혔습니다. 첫 한 달 동안은 이것저것 다 해봤던것 같아요! 무작정 서점에 가서 이런저런 책을 뒤져보기도 하고, 캐글이라는 사이트를 알게돼서 코드를 필사해보기도 하고, 유튜브에서 컴피티션 솔루션 강의를 찾아보기도 했습니다. 하지만 뭔가,, 계속해서 커다란 벽이 느껴졌습니다. 독학이다보니 딱 내가 아는 것 까지만 알 수 있었고, 보이는 ..
[BOAZ] ADV 프로젝트 - 특정 시간대의 주가 변동 패턴을 이용한 실시간 주가 예측 (2) 보통 활동의 최종 발표격인 ADV 프로젝트를 할 때에는 딥러닝을 이용한 프로젝트를 하는게 일반적입니다. 영상처리, 이미지처리, 자연어처리 등 주제부터가 전문적이고, 실제 결과물이 머신러닝에 비해 고급져보이기 때문이죠! 저도 그런 흐름을 타고 ADV 프로젝트로 딥러닝을 해볼까 고민을 했지만, 개인적으로 실생활에서 가지는 궁금증을 프로젝트에 담아보고 싶다는 마음이 더 컸기 때문에 결국 주식 프로젝트를 기획하고 진행했습니다! 대부분의 굵직한 프로젝트들이 그렇듯, 프로젝트 과정에서 기술적인 시행착오들, 방향성에 대한 의문들에 정말 많이 부딪히고 고민했지만, 그런 고민들을 함께할 팀원들이 있어서 끝까지 잘 마무리할 수 있었던 것 같습니다. 이번 프로젝트를 끝으로 보아즈 활동은 공식적으로 마무리했고, 지난 1년간 ..
빅데이터 연합 동아리 BOAZ 17기 모집 국내 최초 빅데이터 연합동아리 “BOAZ”에서 17기 신입회원을 모집합니다! (~6/23) - 17기 신입회원 지원서 : https://forms.gle/y77ZkiCerdQEt17y8 - 17기 신입회원 홍보책자 : https://drive.google.com/file/d/13v1ZCSlCLDzgoyKWYkFAna_Q7W6XWzxU/view?usp=sharing ※ 책자에 동아리의 자세한 활동 내용 및 커리큘럼이 수록되어 있습니다. - BOAZ SlideShare : https://goo.gl/4KV848 ※ Slideshare에서 지금까지 BOAZ 컨퍼런스에서 진행한 프로젝트를 보실 수 있습니다. - 지원자격 • 최소 활동기간 1년(2021.07 ~ 2022.07)을 충족할 수 있는 분 • 전공 제한..
갤럭시 S21 광고에 대한 소비자 반응 분석 (유튜브, 네이버 지식인) 광고를 기획하는 것만큼 중요한 것이 광고 효과를 분석하는 것이라고 생각합니다. 최근 갤럭시 S21 광고가 소비자들에게 어떻게 다가왔는지, 유튜브 댓글과 네이버 지식인 글을 크롤링하여 워드 클라우드를 생성함으로써 분석해보겠습니다. 전체적인 순서는 다음과 같습니다. 1. 크롤링 1-1. 유튜브 크롤링 1-2. 네이버 지식인 크롤링 2. 형태소 분석, 명사 추출, 불용어 제거 2-1. 유튜브 2-2. 네이버 지식인 3. 워드 클라우드 생성 4. 결과 분석 5. 참고 자료 1. 크롤링 1-1. 유튜브 댓글 크롤링 크롤링과 관련한 포스팅은 이전에 다루었기 때문에 새롭게 추가되는 개념만 말씀드리면, 스크롤 다운 명령을 필요로 한다는 점입니다. 유튜브 댓글의 html 특성상 스크롤을 아래로 내려야 댓글들이 보이기 때..
[BOAZ] ADV 프로젝트 - 특정 시간대의 주가 변동 패턴을 이용한 실시간 주가 예측 (1) BOAZ 활동을 시작한지 벌써 반 년이 지났습니다. 지난 6개월은 Base 세션으로 머신러닝과 딥러닝의 이론적인 부분들에 집중했다면, 앞으로 6개월은 Adv 세션으로 본인이 선택한 하나의 프로젝트에 집중하게 됩니다! (종합설계(?), 캡스톤디자인(?) 과 같은 성격이라고 볼 수 있어요) 아무튼 저는 어떤 주제를 가지고 프로젝트를 진행해볼지 고민을 많이 했는데, 아무래도 평소 관심있는 주제를 가지고 지금까지 배운 내용을 적용해보고 싶은 마음이 가장 컸습니다. 특히 데이터 공부를 하며 꼭 해보고 싶었던 프로젝트가 있었는데 그게 바로 "주식 프로젝트" 였고, '이번 기회에 마음 맞는 친구들과 열심히 한 번 해보자' 해서 팀을 꾸리고 Adv 프로젝트를 시작하게 되었습니다. 앞으로 이 프로젝트의 포스팅이 얼마나 ..
[BOAZ] 미니 프로젝트 - 데이콘 소설작가분류 경진대회 1등 코드 분석 안녕하세요. 오늘은 보아즈에서 진행한 미니 프로젝트를 리뷰하겠습니다! 지난 학기 보아즈 세션의 주제가 자연어 처리(NLP)였던 만큼 프로젝트의 방향성도 자연어 쪽으로 흘러갔는데요, 저를 포함한 팀원 모두 처음 진행하는 주제이다보니 새로운 코드를 짜기보다, 다른 사람의 코드를 뜯어보는 형태로 진행했습니다. 코드 분석에 앞서, 대회와 코드의 출처를 밝힙니다. 대회 명 : 소설 작가 분류 AI 경진대회 대회 설명 : 소설 속 문장 뭉치 분석을 통한 저자 예측 데이터 형태 : 코드 출처 : 하이하이123님 코드 공유 (private score 3등, 최종 1등) 0. 분석 개요 1. 파일 및 라이브러리 호출 2. 피쳐 생성 2-1. 메타 피쳐 2-2. Jacard 유사도 2-3. Fast text 2-4. 머신..
한이음 공모전 입선, 한국정보처리학회 추계학술대회 은상 수상 후기 2020년 7월부터 12월까지 약 6개월간의 장기 프로젝트를 마쳤습니다~~ 해당 프로젝트는 타 대학교 4명의 학생들과 KT 직원 한 분까지 총 6명으로 구성하여 진행되었고, 주제는 '머신러닝/ 딥러닝을 이용한 통신서비스 이용고객 분석 및 이탈예측' 이었습니다. 프로젝트의 타임라인은 아래와 같이 크게 4부분으로 나뉠 수 있는데요, 한 번 살펴봅시다. 1. 캐글의 통신사 고객 데이터를 이용하여 이탈 예측 모델링 연습 2. 실제 KT 고객 데이터를 이용하여 데이터 전처리 및 모델링 3. 태블로(Tableau)를 이용한 대쉬보드 시각화 4. 장고(Django)를 이용한 웹 구현 그리고 대망의 결과는.. 한이음 공모전 입선!!! 한국정보처리학회 추계학술대회 은상!!! 그럼 그 수상작을 가볍게 보여드리겠습니다 ㅎㅎ..
[Kaggle] 사이킷런 없이 Titanic 생존자 예측하기 이번 포스팅은 seaborn 과 matplotlib 을 이용하여 EDA 를 진행하고, 이를 바탕으로 numpy 와 pandas 만을 이용하여 예측 모델을 직접 만드는 것입니다. 정확도를 높이는 것이 목적이 아닌, 다양한 측면에서 데이터를 바라보며 새로운 인사이트를 발견하는 과정, 그리고 직접 모델을 만들어 봄으로써 데이터에 대한 깊은 이해를 쌓고자 합니다. 데이터 공부를 시작하는 여러분에게도 좋은 밑거름이 되었으면 좋겠습니다! 그럼 시작해 볼게요! 순서 Feature 하나씩 뜯어보기 EDA 를 통해 얻은 인사이트 정리 모델링 구성 짜기 모델링 테스트셋에 적용 및 결과 분석 1. Feature 하나씩 뜯어보기 1-1. 데이터 로드 및 라이브러리 # 라이브러리 import pandas as pd import..