본문 바로가기

Project/BOAZ

(6)
[BOAZ] 보아즈 데이터 분석 부문 수료 및 활동 후기 보아즈 활동을 하기 전까지만 해도 데이터 분석을 독학하는데 어려움이 정말 많았습니다. 말이 쉬워 데이터 분석이지, 처음 공부를 결심하고 뛰어들었을때에는 뭐가 이렇게 생소한 용어가 많은지,, 파이프라인, 파이썬, C언어, 자바, 코딩테스트, 하이브, 하둡, 머신러닝, 딥러닝, SQL 등 모든걸 공부해야하는 줄 알았고, 그래서 무엇부터 공부해야할지, 어떻게 공부해야할지 감도 안잡혔습니다. 첫 한 달 동안은 이것저것 다 해봤던것 같아요! 무작정 서점에 가서 이런저런 책을 뒤져보기도 하고, 캐글이라는 사이트를 알게돼서 코드를 필사해보기도 하고, 유튜브에서 컴피티션 솔루션 강의를 찾아보기도 했습니다. 하지만 뭔가,, 계속해서 커다란 벽이 느껴졌습니다. 독학이다보니 딱 내가 아는 것 까지만 알 수 있었고, 보이는 ..
[BOAZ] ADV 프로젝트 - 특정 시간대의 주가 변동 패턴을 이용한 실시간 주가 예측 (2) 보통 활동의 최종 발표격인 ADV 프로젝트를 할 때에는 딥러닝을 이용한 프로젝트를 하는게 일반적입니다. 영상처리, 이미지처리, 자연어처리 등 주제부터가 전문적이고, 실제 결과물이 머신러닝에 비해 고급져보이기 때문이죠! 저도 그런 흐름을 타고 ADV 프로젝트로 딥러닝을 해볼까 고민을 했지만, 개인적으로 실생활에서 가지는 궁금증을 프로젝트에 담아보고 싶다는 마음이 더 컸기 때문에 결국 주식 프로젝트를 기획하고 진행했습니다! 대부분의 굵직한 프로젝트들이 그렇듯, 프로젝트 과정에서 기술적인 시행착오들, 방향성에 대한 의문들에 정말 많이 부딪히고 고민했지만, 그런 고민들을 함께할 팀원들이 있어서 끝까지 잘 마무리할 수 있었던 것 같습니다. 이번 프로젝트를 끝으로 보아즈 활동은 공식적으로 마무리했고, 지난 1년간 ..
빅데이터 연합 동아리 BOAZ 17기 모집 국내 최초 빅데이터 연합동아리 “BOAZ”에서 17기 신입회원을 모집합니다! (~6/23) - 17기 신입회원 지원서 : https://forms.gle/y77ZkiCerdQEt17y8 - 17기 신입회원 홍보책자 : https://drive.google.com/file/d/13v1ZCSlCLDzgoyKWYkFAna_Q7W6XWzxU/view?usp=sharing ※ 책자에 동아리의 자세한 활동 내용 및 커리큘럼이 수록되어 있습니다. - BOAZ SlideShare : https://goo.gl/4KV848 ※ Slideshare에서 지금까지 BOAZ 컨퍼런스에서 진행한 프로젝트를 보실 수 있습니다. - 지원자격 • 최소 활동기간 1년(2021.07 ~ 2022.07)을 충족할 수 있는 분 • 전공 제한..
[BOAZ] ADV 프로젝트 - 특정 시간대의 주가 변동 패턴을 이용한 실시간 주가 예측 (1) BOAZ 활동을 시작한지 벌써 반 년이 지났습니다. 지난 6개월은 Base 세션으로 머신러닝과 딥러닝의 이론적인 부분들에 집중했다면, 앞으로 6개월은 Adv 세션으로 본인이 선택한 하나의 프로젝트에 집중하게 됩니다! (종합설계(?), 캡스톤디자인(?) 과 같은 성격이라고 볼 수 있어요) 아무튼 저는 어떤 주제를 가지고 프로젝트를 진행해볼지 고민을 많이 했는데, 아무래도 평소 관심있는 주제를 가지고 지금까지 배운 내용을 적용해보고 싶은 마음이 가장 컸습니다. 특히 데이터 공부를 하며 꼭 해보고 싶었던 프로젝트가 있었는데 그게 바로 "주식 프로젝트" 였고, '이번 기회에 마음 맞는 친구들과 열심히 한 번 해보자' 해서 팀을 꾸리고 Adv 프로젝트를 시작하게 되었습니다. 앞으로 이 프로젝트의 포스팅이 얼마나 ..
[BOAZ] 미니 프로젝트 - 데이콘 소설작가분류 경진대회 1등 코드 분석 안녕하세요. 오늘은 보아즈에서 진행한 미니 프로젝트를 리뷰하겠습니다! 지난 학기 보아즈 세션의 주제가 자연어 처리(NLP)였던 만큼 프로젝트의 방향성도 자연어 쪽으로 흘러갔는데요, 저를 포함한 팀원 모두 처음 진행하는 주제이다보니 새로운 코드를 짜기보다, 다른 사람의 코드를 뜯어보는 형태로 진행했습니다. 코드 분석에 앞서, 대회와 코드의 출처를 밝힙니다. 대회 명 : 소설 작가 분류 AI 경진대회 대회 설명 : 소설 속 문장 뭉치 분석을 통한 저자 예측 데이터 형태 : 코드 출처 : 하이하이123님 코드 공유 (private score 3등, 최종 1등) 0. 분석 개요 1. 파일 및 라이브러리 호출 2. 피쳐 생성 2-1. 메타 피쳐 2-2. Jacard 유사도 2-3. Fast text 2-4. 머신..
[BOAZ] 백화점 고객 성별 예측 컴피티션 안녕하세요. 오늘은 BOAZ 머신러닝 스터디에서 진행한 '백화점 고객 성별 예측 컴피티션' 후기를 남겨보려 합니다. 약 2주간 진행되었고, 새로운 feature 생성에 신경을 많이 썼던 대회였습니다. 바로 시작해 볼게요! 순서 데이터 설명 변수 아이디어 정리 코드 설명 결론 및 배운점 1. 데이터 설명 train - 약 70만개의 구매/환불 데이터 + 성별 정보 test - 약 34만개의 구매/환불 데이터 * 데이터 형태 데이터의 첫 번째 줄을 대략적으로 해석해보면 "고객번호(custid)가 0인 사람이 2000년 6월 25일 12시 12분 무역지점에서 제품코드(goodcd)가 2.12E+12인 에스티로더 화장품을 3개월 할부로 81000원에 샀다" 라고 합니다. 여기서 저희가 예측해야할 것은 이 사람의..