바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

목차 정보와 kNN 분류기를 이용한 사회과학 분야 도서 자동 분류에 관한 연구

A Study on Book Categorization in Social Sciences Using kNN Classifiers and Table of Contents Text

정보관리학회지 / Journal of the Korean Society for Information Management, (P)1013-0799; (E)2586-2073
2020, v.37 no.1, pp.1-21
https://doi.org/10.3743/KOSIM.2020.37.1.001
이용구 (계명대학교 문헌정보학과 부교수)
  • 다운로드 수
  • 조회수

초록

이 연구에서는 한 대학도서관의 신착 도서 리스트 중 사회 과학 분야 6,253권에 대해 목차 정보를 이용하여 자동 분류를 적용하였다. 분류기는 kNN 알고리즘을 사용하였으며 자동 분류의 범주로 도서관에서 도서에 부여한 DDC 300대 강목을 사용하였다. 분류 자질은 도서의 서명과 목차를 사용하였으며, 목차는 인터넷 서점으로부터 Open API를 통해 획득하였다. 자동 분류 실험 결과, 목차 자질은 분류 재현율과 분류 정확률 모두를 향상시키는 좋은 자질임을 알 수 있었다. 또한 목차는 풍부한 자질로 불균형인 데이터의 과적합 문제를 완화시키는 것으로 나타났다. 법학과 교육학은 사회 과학 분야에서 특정성이 높아 서명 자질만으로도 좋은 분류 성능을 가져오는 점도 파악할 수 있었다.

keywords
목차, kNN 분류기, 도서 범주화, DDC (Dewey Decimal Classification), Table of contents, kNN classifier, book categorization, DDC (Dewey Decimal Classification)

Abstract

This study applied automatic classification using table of contents (TOC) text for 6,253 social science books from a newly arrived list collected by a university library. The k-nearest neighbors (kNN) algorithm was used as a classifier, and the ten divisions on the second level of the DDC’s main class 300 given to books by the library were used as classes (labels). The features used in this study were keywords extracted from titles and TOCs of the books. The TOCs were obtained through the OpenAPI from an Internet bookstore. As a result, it was found that the TOC features were good for improving both classification recall and precision. The TOC was shown to reduce the overfitting problem of imbalanced data with its rich features. Law and education have high topic specificity in the field of social sciences, so the only title features can bring good classification performance in these fields.

keywords
목차, kNN 분류기, 도서 범주화, DDC (Dewey Decimal Classification), Table of contents, kNN classifier, book categorization, DDC (Dewey Decimal Classification)
투고일Submission Date
2020-02-27
수정일Revised Date
2020-03-08
게재확정일Accepted Date
2020-03-24

정보관리학회지