바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 주제어 기반 분류, 검색결과: 2
1
심지영(연세대학교 대학도서관발전연구소) 2022, Vol.39, No.4, pp.347-373 https://doi.org/10.3743/KOSIM.2022.39.4.347
초록보기
초록

본 연구는 독서자료의 접근점을 확장하기 위해, 도서이용 속성에 기반한 독서자료 분류체계를 고안하였다. 독서상황에서 도서 이용자가 고려할 수 있는 도서의 속성을 내용분석하여 주제명에 반영하고, 네트워크 분석을 통해 주제명 항목과 인접한 항목들을 연관 주제명으로 그룹화하여 함께 제시하였다. 본 연구에서 개발한 독서자료분류표(RMC)는 도서관 OPAC을 비롯한 독서정보 시스템 내에서 도서 이용자의 탐색을 돕는 다양한 접근점을 제공하는 도구로써 사용될 수 있을 것이다.

Abstract

In this study, in order to expand the access points of reading materials, a reading material classification (RMC) system based on the facets of book use was devised. The facets of books that can be considered by book users in the reading situation were content-analyzed. Also, through network analysis, subject headings adjacent to one subject heading were grouped into related subject headings. The RMC developed in this study can be used as a tool that provides various access points to help book users search in the library OPAC and other reading information systems.

2
김인후(중앙대학교 문헌정보학과 대학원) ; 김성희(중앙대학교 문헌정보학과) 2022, Vol.39, No.3, pp.293-310 https://doi.org/10.3743/KOSIM.2022.39.3.293
초록보기
초록

본 연구에서는 한국어 데이터로 학습된 BERT 모델을 기반으로 문헌정보학 분야의 문서를 자동으로 분류하여 성능을 분석하였다. 이를 위해 문헌정보학 분야의 7개 학술지의 5,357개 논문의 초록 데이터를 학습된 데이터의 크기에 따라서 자동분류의 성능에 어떠한 차이가 있는지를 분석, 평가하였다. 성능 평가척도는 정확률(Precision), 재현율(Recall), F 척도를 사용하였다. 평가결과 데이터의 양이 많고 품질이 높은 주제 분야들은 F 척도가 90% 이상으로 높은 수준의 성능을 보였다. 반면에 데이터 품질이 낮고 내용적으로 다른 주제 분야들과 유사도가 높고 주제적으로 확실히 구별되는 자질이 적을 경우 유의미한 높은 수준의 성능 평가가 도출되지 못하였다. 이러한 연구는 미래 학술 문헌에서 지속적으로 활용할 수 있는 사전학습모델의 활용 가능성을 제시하기 위한 기초자료로 활용될 수 있을 것으로 기대한다.

Abstract

In this study, we analyzed the performance of the BERT-based document classification model by automatically classifying documents in the field of library and information science based on the KoBERT. For this purpose, abstract data of 5,357 papers in 7 journals in the field of library and information science were analyzed and evaluated for any difference in the performance of automatic classification according to the size of the learned data. As performance evaluation scales, precision, recall, and F scale were used. As a result of the evaluation, subject areas with large amounts of data and high quality showed a high level of performance with an F scale of 90% or more. On the other hand, if the data quality was low, the similarity with other subject areas was high, and there were few features that were clearly distinguished thematically, a meaningful high-level performance evaluation could not be derived. This study is expected to be used as basic data to suggest the possibility of using a pre-trained learning model to automatically classify the academic documents.

정보관리학회지