바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 자동범주화, 검색결과: 2
1
채현수(연세대학교 문헌정보학과 박사과정) ; 김예원(연세대학교 문헌정보학과 석사과정) ; 김혜영(청주대학교 문헌정보학과) ; 이지연(연세대학교 문헌정보학과) 2023, Vol.40, No.4, pp.95-121 https://doi.org/10.3743/KOSIM.2023.40.4.095
초록보기
초록

본 연구는 대학도서관 실무자인 사서의 인식을 바탕으로 대학도서관 서비스 범주별로 활용할 수 있는 4차 산업혁명 기술 조합을 탐색하고 효과적인 서비스 전략을 모색하는 데 목적이 있다. 문헌조사를 바탕으로 4차 산업혁명 기술의 개념과 유형을 파악하였고, 국내외 도서관 서비스의 기술 활용 사례를 살펴보았다. 국내 대학도서관이 서비스하고 있는 항목들을 조사하고 범주화하여 대학도서관 서비스 분야-범주-항목 체계를 정립하였고, 이를 바탕으로 설문조사를 실시하여 대학도서관 사서들이 인식하고 있는 서비스별 기술 도입 필요성과 적정 서비스 자동화 수준을 파악하였다. 조사 결과 우선적으로 고려할 필요가 있는 대학도서관 서비스-기술 조합 9가지를 선별할 수 있었다. 조사 및 분석 결과를 종합하여 서비스 범주별 서비스-기술 전략을 제안하였다. 본 연구는 대학도서관 서비스의 고도화 및 효율화를 위해 신기술 도입 및 활용 가능성을 탐색하고, 실무자들이 공감하고 있는 인식을 통해 서비스-기술 결합을 위해 추진해야 할 방향성을 살펴보았다는 점에서 의의가 있다.

Abstract

This study aims to explore the combinations of services and technologies for academic libraries to use based on librarians’ perception and establish effective service strategies accordingly. The literature review facilitated an understanding of Fourth Industrial Revolution technologies impacting the libraries. We discovered how technologies are transforming library services. We analyzed the academic library services to categorize their service structure. The survey revealed the necessity of introducing technology for each service category and the appropriate automation levels of services based on the perception of librarians. The survey results identified nine prioritized combinations of academic library services and technologies. Based on the analysis, we proposed the service-technology strategies for each category. This study has significance in exploring the potential for introducing and utilizing new technologies to enhance academic library services and exploring ways to combine services and technologies based on the common opinion of librarians.

초록보기
초록

이 연구는 짧은 텍스트인 서명에 단어 임베딩이 미치는 영향을 분석하기 위해 Word2vec, GloVe, fastText 모형을 이용하여 단행본 서명을 임베딩 벡터로 생성하고, 이를 분류자질로 활용하여 자동분류에 적용하였다. 분류기는 k-최근접 이웃(kNN) 알고리즘을 사용하였고 자동분류의 범주는 도서관에서 도서에 부여한 DDC 300대 강목을 기준으로 하였다. 서명에 대한 단어 임베딩을 적용한 자동분류 실험 결과, Word2vec와 fastText의 Skip-gram 모형이 TF-IDF 자질보다 kNN 분류기의 자동분류 성능에서 더 우수한 결과를 보였다. 세 모형의 다양한 하이퍼파라미터 최적화 실험에서는 fastText의 Skip-gram 모형이 전반적으로 우수한 성능을 나타냈다. 특히, 이 모형의 하이퍼파라미터로는 계층적 소프트맥스와 더 큰 임베딩 차원을 사용할수록 성능이 향상되었다. 성능 측면에서 fastText는 n-gram 방식을 사용하여 하부문자열 또는 하위단어에 대한 임베딩을 생성할 수 있어 재현율을 높이는 것으로 나타났다. 반면에 Word2vec의 Skip-gram 모형은 주로 낮은 차원(크기 300)과 작은 네거티브 샘플링 크기(3이나 5)에서 우수한 성능을 보였다.

Abstract

To analyze the impact of word embedding on book titles, this study utilized word embedding models (Word2vec, GloVe, fastText) to generate embedding vectors from book titles. These vectors were then used as classification features for automatic classification. The classifier utilized the k-nearest neighbors (kNN) algorithm, with the categories for automatic classification based on the DDC (Dewey Decimal Classification) main class 300 assigned by libraries to books. In the automatic classification experiment applying word embeddings to book titles, the Skip-gram architectures of Word2vec and fastText showed better results in the automatic classification performance of the kNN classifier compared to the TF-IDF features. In the optimization of various hyperparameters across the three models, the Skip-gram architecture of the fastText model demonstrated overall good performance. Specifically, better performance was observed when using hierarchical softmax and larger embedding dimensions as hyperparameters in this model. From a performance perspective, fastText can generate embeddings for substrings or subwords using the n-gram method, which has been shown to increase recall. The Skip-gram architecture of the Word2vec model generally showed good performance at low dimensions(size 300) and with small sizes of negative sampling (3 or 5).

정보관리학회지