바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: DDC(Dewey Decimal Classification), 검색결과: 2
초록보기
초록

이 연구는 짧은 텍스트인 서명에 단어 임베딩이 미치는 영향을 분석하기 위해 Word2vec, GloVe, fastText 모형을 이용하여 단행본 서명을 임베딩 벡터로 생성하고, 이를 분류자질로 활용하여 자동분류에 적용하였다. 분류기는 k-최근접 이웃(kNN) 알고리즘을 사용하였고 자동분류의 범주는 도서관에서 도서에 부여한 DDC 300대 강목을 기준으로 하였다. 서명에 대한 단어 임베딩을 적용한 자동분류 실험 결과, Word2vec와 fastText의 Skip-gram 모형이 TF-IDF 자질보다 kNN 분류기의 자동분류 성능에서 더 우수한 결과를 보였다. 세 모형의 다양한 하이퍼파라미터 최적화 실험에서는 fastText의 Skip-gram 모형이 전반적으로 우수한 성능을 나타냈다. 특히, 이 모형의 하이퍼파라미터로는 계층적 소프트맥스와 더 큰 임베딩 차원을 사용할수록 성능이 향상되었다. 성능 측면에서 fastText는 n-gram 방식을 사용하여 하부문자열 또는 하위단어에 대한 임베딩을 생성할 수 있어 재현율을 높이는 것으로 나타났다. 반면에 Word2vec의 Skip-gram 모형은 주로 낮은 차원(크기 300)과 작은 네거티브 샘플링 크기(3이나 5)에서 우수한 성능을 보였다.

Abstract

To analyze the impact of word embedding on book titles, this study utilized word embedding models (Word2vec, GloVe, fastText) to generate embedding vectors from book titles. These vectors were then used as classification features for automatic classification. The classifier utilized the k-nearest neighbors (kNN) algorithm, with the categories for automatic classification based on the DDC (Dewey Decimal Classification) main class 300 assigned by libraries to books. In the automatic classification experiment applying word embeddings to book titles, the Skip-gram architectures of Word2vec and fastText showed better results in the automatic classification performance of the kNN classifier compared to the TF-IDF features. In the optimization of various hyperparameters across the three models, the Skip-gram architecture of the fastText model demonstrated overall good performance. Specifically, better performance was observed when using hierarchical softmax and larger embedding dimensions as hyperparameters in this model. From a performance perspective, fastText can generate embeddings for substrings or subwords using the n-gram method, which has been shown to increase recall. The Skip-gram architecture of the Word2vec model generally showed good performance at low dimensions(size 300) and with small sizes of negative sampling (3 or 5).

2
양정윤(부산대학교 대학원 문헌정보학과 석사졸업, 진주교육대학교 도서관 사서) 2023, Vol.40, No.4, pp.147-165 https://doi.org/10.3743/KOSIM.2023.40.4.147
초록보기
초록

4차 산업혁명을 대표하는 신기술들이 이미 도서관 서비스에 구현이 되고 있다. 그러나 전통적인 사서 업무이자 향후 지속해야 하는 ‘분류’ 업무에 새로운 기술을 도입하여 업무 효율을 증대하고자 하는 방안 연구는 활발하지 않다. 해외 웹 버전 분류법인 WebDewey, Classification Web, UDC Online은 2000년대 초반에 개발되어 현재는 인쇄본보다 웹 버전이 더 활발히 사용되고 있고, 2018년 이후 듀이십진분류법(DDC)은 더 이상 인쇄본을 발간하지 않고 있다. 본 연구는 WebDewey, Classification Web, UDC Online 사례를 분석하고, 한국십진분류법(KDC) 웹 버전 개발을 위해 필요한 기능을 도출하여, AHP 분석을 통해 KDC 웹 버전 개발에 타당한 최종적인 기능을 제안했다.

Abstract

New technologies representing the Fourth Industrial Revolution are already being realized in library services. There is not, however, active research on measures to increase work efficiency by introducing a new technology in the work of “classification” that is part of the traditional librarian jobs they should continue in the future. The Dewey Decimal Classification (DDC) has not issued a print version since 2018. This study analyzes cases of WebDewey, Classification Web, and UDC Online. The functions required for the development of the Korean Decimal Classification (KDC) web version were derived, and the final functions suitable for the development of the KDC web version were proposed through AHP analysis.

정보관리학회지