본문 바로가기

Project/BOAZ

[BOAZ] 미니 프로젝트 - 데이콘 소설작가분류 경진대회 1등 코드 분석

안녕하세요.

오늘은 보아즈에서 진행한 미니 프로젝트를 리뷰하겠습니다!

 

지난 학기 보아즈 세션의 주제가 자연어 처리(NLP)였던 만큼 프로젝트의 방향성도 자연어 쪽으로 흘러갔는데요,

저를 포함한 팀원 모두 처음 진행하는 주제이다보니 새로운 코드를 짜기보다, 다른 사람의 코드를 뜯어보는 형태로 진행했습니다.

 

 

코드 분석에 앞서, 대회와 코드의 출처를 밝힙니다.

 

대회 명 : 소설 작가 분류 AI 경진대회

대회 설명 : 소설 속 문장 뭉치 분석을 통한 저자 예측

데이터 형태

 

train set (왼) / test set (오)

코드 출처 : 하이하이123님 코드 공유 (private score 3등, 최종 1등)

 

 


0. 분석 개요

1. 파일 및 라이브러리 호출

2. 피쳐 생성

2-1. 메타 피쳐

 

 

2-2. Jacard 유사도

 

 

2-3. Fast text

 

 

2-4. 머신러닝 모델을 이용한 피쳐 생성

 

 

3. XGBoost를 이용한 예측