바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

자질선정을 통한 국내 학술지 논문의 자동분류에 관한 연구

An Experimental Study on the Automatic Classification of Korean Journal Articles through Feature Selection

정보관리학회지 / Journal of the Korean Society for Information Management, (P)1013-0799; (E)2586-2073
2022, v.39 no.1, pp.69-90
https://doi.org/10.3743/KOSIM.2022.39.1.069
김판준 (신라대학교 문헌정보학과)
  • 다운로드 수
  • 조회수

초록

국내 학술연구의 동향을 구체적으로 파악하여 연구개발 활동의 체계적인 지원 및 평가는 물론 현재와 미래의 연구 방향을 설정할 수 있는 기초 데이터로서, 개별 학술지 논문에 표준화된 주제 범주(통제키워드)를 부여할 수 있는 효율적인 방안을 모색하였다. 이를 위해 한국연구재단 「학술연구분야분류표」 상의 분류 범주를 국내 학술지 논문에 자동 할당하는 과정에서, 자질선정 기법을 중심으로 자동분류의 성능에 영향을 미치는 주요 요소들에 대한 다각적인 실험을 수행하였다. 그 결과, 실제 환경의 불균형 데이터세트(imbalanced dataset)인 국내 학술지 논문의 자동분류에서는 보다 단순한 분류기와 자질선정 기법, 그리고 비교적 소규모의 학습집합을 사용하여 상당히 좋은 수준의 성능을 기대할 수 있는 것으로 나타났다.

keywords
자동분류, 텍스트 범주화, 자질선정, 필터, 학술지 논문, automatic classification, text categorization, feature selection, filter, journal articles

Abstract

As basic data that can systematically support and evaluate R&D activities as well as set current and future research directions by grasping specific trends in domestic academic research, I sought efficient ways to assign standardized subject categories (control keywords) to individual journal papers. To this end, I conducted various experiments on major factors affecting the performance of automatic classification, focusing on feature selection techniques, for the purpose of automatically allocating the classification categories on the National Research Foundation of Korea’s Academic Research Classification Scheme to domestic journal papers. As a result, the automatic classification of domestic journal papers, which are imbalanced datasets of the real environment, showed that a fairly good level of performance can be expected using more simple classifiers, feature selection techniques, and relatively small training sets.

keywords
자동분류, 텍스트 범주화, 자질선정, 필터, 학술지 논문, automatic classification, text categorization, feature selection, filter, journal articles
투고일Submission Date
2022-02-14
수정일Revised Date
2022-02-24
게재확정일Accepted Date
2022-03-04

정보관리학회지