바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 데이터 요소, 검색결과: 3
초록보기
초록

가치 있는 디지털 정보자원으로서 연구정보를 위한 보존 메타데이터 요소를 개발하였다. 특히 국가정책지식 생산의 주역이라고 할 수 있는 경제․인문사회 분야 정부출연연구기관의 연구정보를 장기적으로 보존하여 활용할 수 있는 기반으로서 보존 메타데이터 요소를 개발하였다. 다양한 부서와 기관에서 분산 관리되고 있는 연구정보의 상호운용성을 확보하기 위하여 OAIS 참조모형을 기반으로 유럽표준인 CERIF와 PREMIS 데이터 사전의 요소들을 비교 분석한 다음, 양자의 특성을 반영하여 상호보완적인 보존 메타데이터 요소를 개발하였다. 그 결과로서 개념적 차원이 아닌 실제 구현이 가능하고 시스템 간의 호환성이 전제된 연구정보 보존 메타데이터 요소들과 적용사례를 제시하였다.

Abstract

This study aimed at developing preservation metadata elements and its applications for research information which is considered as a valuable digital resource these days. Specifically, the developed preservation metadata intends to provide a basis for the research information of the government-funded research institutes in economic and social science fields which are major knowledge producers of national policy. To ensure the interoperability of the research information across various departments and organizations, this study compared the elements from the CERIF(European Standard) and those from the PREMIS Data Dictionary which is based on OAIS reference model (ISO 14721). Based on this comparative analysis, this study developed complementary preservation metadata elements based on the two standards’ characteristics. Consequently, this study suggested a new preservation metadata elements and its applications that are compatible between the two systems and can be implemented in practice.

초록보기
초록

국내 학술연구의 동향을 구체적으로 파악하여 연구개발 활동의 체계적인 지원 및 평가는 물론 현재와 미래의 연구 방향을 설정할 수 있는 기초 데이터로서, 개별 학술지 논문에 표준화된 주제 범주(통제키워드)를 부여할 수 있는 효율적인 방안을 모색하였다. 이를 위해 한국연구재단 「학술연구분야분류표」 상의 분류 범주를 국내 학술지 논문에 자동 할당하는 과정에서, 자질선정 기법을 중심으로 자동분류의 성능에 영향을 미치는 주요 요소들에 대한 다각적인 실험을 수행하였다. 그 결과, 실제 환경의 불균형 데이터세트(imbalanced dataset)인 국내 학술지 논문의 자동분류에서는 보다 단순한 분류기와 자질선정 기법, 그리고 비교적 소규모의 학습집합을 사용하여 상당히 좋은 수준의 성능을 기대할 수 있는 것으로 나타났다.

Abstract

As basic data that can systematically support and evaluate R&D activities as well as set current and future research directions by grasping specific trends in domestic academic research, I sought efficient ways to assign standardized subject categories (control keywords) to individual journal papers. To this end, I conducted various experiments on major factors affecting the performance of automatic classification, focusing on feature selection techniques, for the purpose of automatically allocating the classification categories on the National Research Foundation of Korea’s Academic Research Classification Scheme to domestic journal papers. As a result, the automatic classification of domestic journal papers, which are imbalanced datasets of the real environment, showed that a fairly good level of performance can be expected using more simple classifiers, feature selection techniques, and relatively small training sets.

초록보기
초록

대표적인 앙상블 기법으로서 랜덤포레스트(RF)를 문헌정보학 분야의 학술지 논문에 대한 자동분류에 적용하였다. 특히, 국내 학술지 논문에 주제 범주를 자동 할당하는 분류 성능 측면에서 트리 수, 자질선정, 학습집합 크기 등 주요 요소들에 대한 다각적인 실험을 수행하였다. 이를 통해, 실제 환경의 불균형 데이터세트(imbalanced dataset)에 대하여 랜덤포레스트(RF)의 성능을 최적화할 수 있는 방안을 모색하였다. 결과적으로 국내 학술지 논문의 자동분류에서 랜덤포레스트(RF)는 트리 수 구간 100〜1000(C)과 카이제곱통계량(CHI)으로 선정한 소규모의 자질집합(10%), 대부분의 학습집합(9〜10년)을 사용하는 경우에 가장 좋은 분류 성능을 기대할 수 있는 것으로 나타났다.

Abstract

Random Forest (RF), a representative ensemble technique, was applied to automatic classification of journal articles in the field of library and information science. Especially, I performed various experiments on the main factors such as tree number, feature selection, and learning set size in terms of classification performance that automatically assigns class labels to domestic journals. Through this, I explored ways to optimize the performance of random forests (RF) for imbalanced datasets in real environments. Consequently, for the automatic classification of domestic journal articles, Random Forest (RF) can be expected to have the best classification performance when using tree number interval 100〜1000(C), small feature set (10%) based on chi-square statistic (CHI), and most learning sets (9-10 years).

정보관리학회지