본문 바로가기

분류 전체보기

(74)
빅데이터 연합 동아리 BOAZ 17기 모집 국내 최초 빅데이터 연합동아리 “BOAZ”에서 17기 신입회원을 모집합니다! (~6/23) - 17기 신입회원 지원서 : https://forms.gle/y77ZkiCerdQEt17y8 - 17기 신입회원 홍보책자 : https://drive.google.com/file/d/13v1ZCSlCLDzgoyKWYkFAna_Q7W6XWzxU/view?usp=sharing ※ 책자에 동아리의 자세한 활동 내용 및 커리큘럼이 수록되어 있습니다. - BOAZ SlideShare : https://goo.gl/4KV848 ※ Slideshare에서 지금까지 BOAZ 컨퍼런스에서 진행한 프로젝트를 보실 수 있습니다. - 지원자격 • 최소 활동기간 1년(2021.07 ~ 2022.07)을 충족할 수 있는 분 • 전공 제한..
클러스터링 모델(K-means, Mixture of Gaussian) 평가 지표 K-means 모델 평가 지표 Inertia Sihouette score Mixture of Gaussian 모델 평가 지표 Information Criterion (AIC, BIC) 1. K-means 모델 평가 지표 1-1. Inertia Inertia는 각 인스턴스와 해당 인스턴스와 가장 가까운 클러스터 중심까지의 거리 제곱 평균 값입니다. 따라서, 잘 된 클러스터링이라면 inertia가 작아야 하겠죠! 당연하게도 클러스터 수가 늘어날수록 Inertia 값은 감소할수밖에 없고, 이 개념을 이용하여 최적의 클러스터 수를 예상할 수 있습니다. 좀 더 이해를 해보자면, 저기 Elbow 포인트를 최적의 클러스터 수로 잡은 이유는 더이상 Inertia가 눈에 띄게 작아지지 않기 때문입니다. 즉 클러스터를 더..
갤럭시 S21 광고에 대한 소비자 반응 분석 (유튜브, 네이버 지식인) 광고를 기획하는 것만큼 중요한 것이 광고 효과를 분석하는 것이라고 생각합니다. 최근 갤럭시 S21 광고가 소비자들에게 어떻게 다가왔는지, 유튜브 댓글과 네이버 지식인 글을 크롤링하여 워드 클라우드를 생성함으로써 분석해보겠습니다. 전체적인 순서는 다음과 같습니다. 1. 크롤링 1-1. 유튜브 크롤링 1-2. 네이버 지식인 크롤링 2. 형태소 분석, 명사 추출, 불용어 제거 2-1. 유튜브 2-2. 네이버 지식인 3. 워드 클라우드 생성 4. 결과 분석 5. 참고 자료 1. 크롤링 1-1. 유튜브 댓글 크롤링 크롤링과 관련한 포스팅은 이전에 다루었기 때문에 새롭게 추가되는 개념만 말씀드리면, 스크롤 다운 명령을 필요로 한다는 점입니다. 유튜브 댓글의 html 특성상 스크롤을 아래로 내려야 댓글들이 보이기 때..
[BOAZ] ADV 프로젝트 - 특정 시간대의 주가 변동 패턴을 이용한 실시간 주가 예측 (1) BOAZ 활동을 시작한지 벌써 반 년이 지났습니다. 지난 6개월은 Base 세션으로 머신러닝과 딥러닝의 이론적인 부분들에 집중했다면, 앞으로 6개월은 Adv 세션으로 본인이 선택한 하나의 프로젝트에 집중하게 됩니다! (종합설계(?), 캡스톤디자인(?) 과 같은 성격이라고 볼 수 있어요) 아무튼 저는 어떤 주제를 가지고 프로젝트를 진행해볼지 고민을 많이 했는데, 아무래도 평소 관심있는 주제를 가지고 지금까지 배운 내용을 적용해보고 싶은 마음이 가장 컸습니다. 특히 데이터 공부를 하며 꼭 해보고 싶었던 프로젝트가 있었는데 그게 바로 "주식 프로젝트" 였고, '이번 기회에 마음 맞는 친구들과 열심히 한 번 해보자' 해서 팀을 꾸리고 Adv 프로젝트를 시작하게 되었습니다. 앞으로 이 프로젝트의 포스팅이 얼마나 ..
[BOAZ] 미니 프로젝트 - 데이콘 소설작가분류 경진대회 1등 코드 분석 안녕하세요. 오늘은 보아즈에서 진행한 미니 프로젝트를 리뷰하겠습니다! 지난 학기 보아즈 세션의 주제가 자연어 처리(NLP)였던 만큼 프로젝트의 방향성도 자연어 쪽으로 흘러갔는데요, 저를 포함한 팀원 모두 처음 진행하는 주제이다보니 새로운 코드를 짜기보다, 다른 사람의 코드를 뜯어보는 형태로 진행했습니다. 코드 분석에 앞서, 대회와 코드의 출처를 밝힙니다. 대회 명 : 소설 작가 분류 AI 경진대회 대회 설명 : 소설 속 문장 뭉치 분석을 통한 저자 예측 데이터 형태 : 코드 출처 : 하이하이123님 코드 공유 (private score 3등, 최종 1등) 0. 분석 개요 1. 파일 및 라이브러리 호출 2. 피쳐 생성 2-1. 메타 피쳐 2-2. Jacard 유사도 2-3. Fast text 2-4. 머신..
SQLD 자격증 취득 후기 제 39회 SQLD 시험에서 합격을 했습니다. 작년 이맘때까지만 해도 SQL이 무엇이고, 왜 필요한지조차 몰랐는데, 어느덧 자격증까지 취득한 제 자신이 자랑스럽네요! 제가 했던 공부방법은 다음과 같습니다. 1. 기본서 2회독 (1주일 소요) - 'SQL 전문가 가이드' 책은 교내 도서관에서 빌려보는 것을 추천드려요! 1회독은 챕터별 흐름과 학습목표에 집중! 2회독은 정독! 2. 노랭이 문제 2번 풀기 (1주일 소요) - 'SQL 자격검정 실전문제' 처음 풀 때 꼼꼼히 풀기 (핵심 개념 문제 옆에 필기) 두 번째는 틀린문제 위주로 풀고, 필기된 핵심 개념 읽기 Tip. 해설집을 봐도 이해가 안가는 문제는 아래 카페에 검색해보세요! 다 나옵니다! 3. 복원 기출문제 풀기 (시험 하루 전) - '네이버 SQL..
한이음 공모전 입선, 한국정보처리학회 추계학술대회 은상 수상 후기 2020년 7월부터 12월까지 약 6개월간의 장기 프로젝트를 마쳤습니다~~ 해당 프로젝트는 타 대학교 4명의 학생들과 KT 직원 한 분까지 총 6명으로 구성하여 진행되었고, 주제는 '머신러닝/ 딥러닝을 이용한 통신서비스 이용고객 분석 및 이탈예측' 이었습니다. 프로젝트의 타임라인은 아래와 같이 크게 4부분으로 나뉠 수 있는데요, 한 번 살펴봅시다. 1. 캐글의 통신사 고객 데이터를 이용하여 이탈 예측 모델링 연습 2. 실제 KT 고객 데이터를 이용하여 데이터 전처리 및 모델링 3. 태블로(Tableau)를 이용한 대쉬보드 시각화 4. 장고(Django)를 이용한 웹 구현 그리고 대망의 결과는.. 한이음 공모전 입선!!! 한국정보처리학회 추계학술대회 은상!!! 그럼 그 수상작을 가볍게 보여드리겠습니다 ㅎㅎ..
selenium - 지하철역 인근 점포 수(카페, 호프집, 제과점 등) 크롤링 서울역 근처에는 카페가 몇 개 있을까? 강남역 근처에는 빵집이 몇 개 있을까? 이태원역 근처에는 술집이 몇 개 있을까? 오늘은 이 물음에 대한 솔루션을 주제로 포스팅을 준비해봤습니다. 바로 시작해볼게요! 준비물 서울시 상권 데이터 - 크롤링 지하철역 주소 데이터 - 파일 다운 법정동, 행정동 맵핑 데이터 - 파일 다운 1. 서울시 상권 데이터 먼저 서울시의 '상권분석서비스'에서 특정 지역의 점포 수를 크롤링하는 과정입니다. 준비물에 걸어둔 링크로 들어가시면, 지역별로 다양한 형태의 데이터를 제공하는 것을 확인할 수 있습니다. 그 중 저는 2018년 1, 2, 3, 4분기, 2019년 1분기의 외식업 데이터, 특히 제과점, 호프/주점, 카페 수 데이터를 필요로 합니다. 해당 데이터는 url로 들어가면 바로..