바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: small library, 검색결과: 22
21
이용구(경북대학교 문헌정보학과) 2023, Vol.40, No.4, pp.307-327 https://doi.org/10.3743/KOSIM.2023.40.4.307
초록보기
초록

이 연구는 짧은 텍스트인 서명에 단어 임베딩이 미치는 영향을 분석하기 위해 Word2vec, GloVe, fastText 모형을 이용하여 단행본 서명을 임베딩 벡터로 생성하고, 이를 분류자질로 활용하여 자동분류에 적용하였다. 분류기는 k-최근접 이웃(kNN) 알고리즘을 사용하였고 자동분류의 범주는 도서관에서 도서에 부여한 DDC 300대 강목을 기준으로 하였다. 서명에 대한 단어 임베딩을 적용한 자동분류 실험 결과, Word2vec와 fastText의 Skip-gram 모형이 TF-IDF 자질보다 kNN 분류기의 자동분류 성능에서 더 우수한 결과를 보였다. 세 모형의 다양한 하이퍼파라미터 최적화 실험에서는 fastText의 Skip-gram 모형이 전반적으로 우수한 성능을 나타냈다. 특히, 이 모형의 하이퍼파라미터로는 계층적 소프트맥스와 더 큰 임베딩 차원을 사용할수록 성능이 향상되었다. 성능 측면에서 fastText는 n-gram 방식을 사용하여 하부문자열 또는 하위단어에 대한 임베딩을 생성할 수 있어 재현율을 높이는 것으로 나타났다. 반면에 Word2vec의 Skip-gram 모형은 주로 낮은 차원(크기 300)과 작은 네거티브 샘플링 크기(3이나 5)에서 우수한 성능을 보였다.

Abstract

To analyze the impact of word embedding on book titles, this study utilized word embedding models (Word2vec, GloVe, fastText) to generate embedding vectors from book titles. These vectors were then used as classification features for automatic classification. The classifier utilized the k-nearest neighbors (kNN) algorithm, with the categories for automatic classification based on the DDC (Dewey Decimal Classification) main class 300 assigned by libraries to books. In the automatic classification experiment applying word embeddings to book titles, the Skip-gram architectures of Word2vec and fastText showed better results in the automatic classification performance of the kNN classifier compared to the TF-IDF features. In the optimization of various hyperparameters across the three models, the Skip-gram architecture of the fastText model demonstrated overall good performance. Specifically, better performance was observed when using hierarchical softmax and larger embedding dimensions as hyperparameters in this model. From a performance perspective, fastText can generate embeddings for substrings or subwords using the n-gram method, which has been shown to increase recall. The Skip-gram architecture of the Word2vec model generally showed good performance at low dimensions(size 300) and with small sizes of negative sampling (3 or 5).

22
노영희(건국대학교) ; 장인호(대진대학교 문헌정보학과) ; 심효정(경기대학교 문헌정보학과) ; 곽우정(건국대학교 GLOCAL(글로컬)캠퍼스 지식콘텐츠연구소) 2022, Vol.39, No.4, pp.191-213 https://doi.org/10.3743/KOSIM.2022.39.4.191
초록보기
초록

기존 국립세종도서관 정책정보포털(POINT)의 국정과제 서비스를 뛰어넘는 고품질 정책정보서비스 제공을 위하여, 새로운 국정과제 이행에 필요한 정책자료를 효과적으로 서비스할 수 있는 방안이 필요하다고 생각된다. 이에 본 연구에서는 BRM기반 국정과제와 정책정보콘텐츠 연계 및 구축방안을 모색하고자 하였다. 이를 위해, 첫째, 新정부 120대 국정과제를 중심으로 국정과제 유형과 정부기능분류체계 분야․영역별 콘텐츠를 분석하였다. 또 이전 정부의 국정과제와 현 정보의 국정과제를 비교․분석하여 국정과제 관련 콘텐츠 구축 시 중점적으로 반영해야 할 내용을 파악하였다. 둘째, 정책정보 및 국가 정보 포털의 현황 분석 등을 통해 정책 정보의 연계 및 수집 방안을 모색하였다. 연구 결과, 첫째, 국정과제의 1단계 BRM을 보면, 사회복지 21개, 통일외교 14개, 산업통상중소기업 17개, 일반공공행정 12개, 재정세제금융이 8개, 문화체육관광과 과학기술, 교육이 각 6개, 통신과 공공질서및안전이 5개, 보건, 교통및물류, 환경이 각 4개, 농림 3개, 국방, 지역개발이 각 2개, 해양수산이 각 1개 등의 순으로 나타났다. 新정부의 경우 과학기술과 IT를 중시하는 것을 알 수 있어 핵심 국정과제 정보서비스 구축 시에도 이를 고려할 필요가 있다. 둘째, 외부 기관과의 데이터베이스 연계를 위해서는 연계운영협의회를 구성하고, 국정과제 정보의 연계 및 수집, 국정과제 관련 정보 POINT 연계 및 제공이 필요하다.

Abstract

With a view to providing a high-quality policy information service beyond the existing national task service of the national policy information portal (POINT) of the National Library of Korea Sejong, it would be necessary to effectively provide the policy data needed for the implementation of the new national tasks. Accordingly, in this study, an attempt has been made to find a way to connect and develop the BRM-based national tasks and the policy information contents. Towards this end, first, the types of national tasks and the contents of each field and area of the government function’s classification system were analyzed, with a focus placed on the 120 national tasks of the new administration. Furthermore, by comparing and analyzing the national tasks of the previous administration and the current information, the contents ought to be reflected for the development of contents related to the national tasks identified. Second, the method for linking and collecting the policy information was sought based on the analysis of the current status of policy information and the national information portal. As a result of the study, first, examining the 1st stage BRM of the national tasks, it turned out that there were 21 tasks for social welfare, 14 for unification and diplomacy, 17 for small and medium-sized businesses in industry and trade, 12 for general public administration, 8 for the economy, taxation and finance, 6 for culture, sports and tourism, science and technology, and education each, 5 for communication, public order and safety each, 4 for health, transportation and logistics, and environment each, 3 for agriculture and forestry, 2 for national defense and regional development each, and 1 for maritime and fisheries each, among others. As for the new administration, it is apparent that science technology and IT are important, and hence, it is necessary to consider such when developing the information services for the core national tasks. Second, to link the database with external organizations, it would be necessary to form a linked operation council, link and collect the information on the national tasks, and link and provide the national task-related information for the POINTs.

정보관리학회지