바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 디지털 큐레이션, 검색결과: 2
초록보기
초록

디지털 큐레이션은 디지털 시대의 새로운 정보관리 및 서비스라고 할 수 있다. 디지털 환경에서 정보자원에 대한 체계적 관리 및 서비스를 추구한다는 측면에서 디지털 큐레이션은 문헌정보학의 핵심 영역에 해당한다. 본 연구는 디지털 큐레이션 관련 문헌들을 검토하여 주요 연구 영역을 설정하고, 대표적인 문헌정보학 분야 학술 데이터베이스(LISTA)에서 검색한 학술 논문들을 대상으로 연구동향을 분석하였다. 또한 이러한 연구동향 분석의 결과에 기초하여 문헌정보학 분야의 디지털 큐레이션 관련 향후 연구과제를 제시하였다.

Abstract

Digital curation can be said that the new information management and services in the digital age. In terms of exploring the systematic management and services for the information resources in the digital environment, Digital curation is one the core areas of library and information science. This study was set up a research areas as a result of reviewing the related literatures, and analyzed the research trends to the scholarly articles retrieved from a representative databases in the areas of Library and Information Science (LISTA). Also, I suggested future research agendas for digital curation in the areas of library and information science based on the results of the this analysis.

초록보기
초록

대표적인 앙상블 기법으로서 랜덤포레스트(RF)를 문헌정보학 분야의 학술지 논문에 대한 자동분류에 적용하였다. 특히, 국내 학술지 논문에 주제 범주를 자동 할당하는 분류 성능 측면에서 트리 수, 자질선정, 학습집합 크기 등 주요 요소들에 대한 다각적인 실험을 수행하였다. 이를 통해, 실제 환경의 불균형 데이터세트(imbalanced dataset)에 대하여 랜덤포레스트(RF)의 성능을 최적화할 수 있는 방안을 모색하였다. 결과적으로 국내 학술지 논문의 자동분류에서 랜덤포레스트(RF)는 트리 수 구간 100〜1000(C)과 카이제곱통계량(CHI)으로 선정한 소규모의 자질집합(10%), 대부분의 학습집합(9〜10년)을 사용하는 경우에 가장 좋은 분류 성능을 기대할 수 있는 것으로 나타났다.

Abstract

Random Forest (RF), a representative ensemble technique, was applied to automatic classification of journal articles in the field of library and information science. Especially, I performed various experiments on the main factors such as tree number, feature selection, and learning set size in terms of classification performance that automatically assigns class labels to domestic journals. Through this, I explored ways to optimize the performance of random forests (RF) for imbalanced datasets in real environments. Consequently, for the automatic classification of domestic journal articles, Random Forest (RF) can be expected to have the best classification performance when using tree number interval 100〜1000(C), small feature set (10%) based on chi-square statistic (CHI), and most learning sets (9-10 years).

정보관리학회지