링크 1. Overview & IDEA - PPT Searching 2. Extracting with PPT 3. TF-IDF with PPT 4. Threading with PPT 5. Operating with PPT
Discription
데이터 베이스에 가공되어 있지 않은 상태의 파워포인트 파일의 추천 시스템 개발을 위한 프로젝트입니다. 많은양의 데이터와 이를 검색하는 시스템이 데이터베이스에 저장된 이후 방치되고 있었고 이러한 기간이 늘어나 더이상 유의미한 검색을 할 수 없게된 프로그램을 개선하기 위한 첫 프로젝트였습니다.
Result
- 데이터 추출 시간 감소
- 문서군의 크기에 따른 TF-IDF 가중치 추출
- 협력사 문서군 크기에 따른 TF-IDF 가중치 추출
-
Threading을 통한 ppt 추출 시간 단축 그래프
-
TF-IDF의 문서군의 크기를 변화에 따른 가중치 그래프
-
TF-IDF의 현력사 문서군에 따른 가중치 그래프
Prerequisites
프로젝트는 python으로 진행
python : 3.10.0
nltk 3.7
konlpy 0.6.0
wordcloud 1.8.2.2
pptx 0.6.21
Architecture
Upload 시나리오
검색 시나리오
Author
해당 프로젝트는 인턴때 진행 했지만 프로그램 구현은 혼자 진행했습니다.
이종근