바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 문헌내용분석, 검색결과: 2
1
김인후(중앙대학교 문헌정보학과 대학원) ; 김성희(중앙대학교 문헌정보학과) 2022, Vol.39, No.3, pp.293-310 https://doi.org/10.3743/KOSIM.2022.39.3.293
초록보기
초록

본 연구에서는 한국어 데이터로 학습된 BERT 모델을 기반으로 문헌정보학 분야의 문서를 자동으로 분류하여 성능을 분석하였다. 이를 위해 문헌정보학 분야의 7개 학술지의 5,357개 논문의 초록 데이터를 학습된 데이터의 크기에 따라서 자동분류의 성능에 어떠한 차이가 있는지를 분석, 평가하였다. 성능 평가척도는 정확률(Precision), 재현율(Recall), F 척도를 사용하였다. 평가결과 데이터의 양이 많고 품질이 높은 주제 분야들은 F 척도가 90% 이상으로 높은 수준의 성능을 보였다. 반면에 데이터 품질이 낮고 내용적으로 다른 주제 분야들과 유사도가 높고 주제적으로 확실히 구별되는 자질이 적을 경우 유의미한 높은 수준의 성능 평가가 도출되지 못하였다. 이러한 연구는 미래 학술 문헌에서 지속적으로 활용할 수 있는 사전학습모델의 활용 가능성을 제시하기 위한 기초자료로 활용될 수 있을 것으로 기대한다.

Abstract

In this study, we analyzed the performance of the BERT-based document classification model by automatically classifying documents in the field of library and information science based on the KoBERT. For this purpose, abstract data of 5,357 papers in 7 journals in the field of library and information science were analyzed and evaluated for any difference in the performance of automatic classification according to the size of the learned data. As performance evaluation scales, precision, recall, and F scale were used. As a result of the evaluation, subject areas with large amounts of data and high quality showed a high level of performance with an F scale of 90% or more. On the other hand, if the data quality was low, the similarity with other subject areas was high, and there were few features that were clearly distinguished thematically, a meaningful high-level performance evaluation could not be derived. This study is expected to be used as basic data to suggest the possibility of using a pre-trained learning model to automatically classify the academic documents.

2
이승민(Indiana University) ; 남태우(중앙대학교) ; 김성희(중앙대학교) 2006, Vol.23, No.2, pp.39-59 https://doi.org/10.3743/KOSIM.2006.23.2.039
초록보기
초록

본 연구에서는 효율적인 정보접근 도구로서의 대학 웹사이트 설계를 위한 정보구조 및 카테고리 레이블을 마련하기 위해 현재 미국 문헌정보학과 웹사이트 17개를 메인메뉴구조, 하부 카테고리, 레이블링을 기준으로 분석하였다. 분석결과 메인메뉴구조는 현재 17개 조사대상 웹사이트에서 모두 공통으로 제공하고 있는 9개 카테고리로 구성하는 것이 바람직한 것으로 나타났으며 둘째, 그 다음 수준의 서브 카테고리는 9개의 카테고리의 내용의 의미를 고려해서 35개 카테고리로 나누는 것이 바람직한 것으로 나타났다. 마지막으로 카테고리 레이블로 사용되는 용어는 17개 웹사이트에서 가장 많이 사용하고 있는 용어를 사용하는 것이 바람직한 것으로 나타났다.

Abstract

In this study we proposed a new informational structure and category labels to fully support the functions of school websites as an access tool to its contents. The proposed model was divided into three main aspects. First, main menu structure was the primary guideline to access information embedded in a website. Therefore, The proposed main menu structure consisted of 9 categories that are commonly provided by 17 existing school websites. Second, first-level categories consisted of total 35 categories under 9 main menu categories. Each category was placed under certain categories in main menu based on the relationships with the meaning of the upper level categories. Third, the proposed model adopted general and comprehensive terms as category labels. The terms used as category labels were based on the analysis of existing category labels, and the most frequently used terms were selected from the current school websites.

정보관리학회지