바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: data curation, 검색결과: 2
초록보기
초록

본 연구는 대학도서관의 연구데이터관리서비스 개발을 위하여 수행되었다. 본 연구에서는 연구데이터관리서비스의 요소와 제공 수준을 알아보고, 국내에서 연구비 규모가 가장 큰 대학인 서울대학교 소속 연구자들을 대상으로 인터뷰를 진행하여 연구자들의 연구데이터관리 및 공유와 이용, 서비스에 대한 요구를 분석하였다. 인터뷰 참여자들은 해외 연구비지원기관 또는 학술 저널에서 제시하는 데이터 공유 의무조항에 대한 인식과 이행 경험이 부족하고 데이터를 체계적으로 관리하는데 어려움을 겪고 있었다. 그러나 상당수의 연구자들이 데이터 관리 및 연구데이터관리서비스 관련 교육에 대한 필요성에 대해 동감하고 있었다. 이를 바탕으로, 연구데이터관리서비스를 교육서비스, 전문 컨설팅 서비스, 큐레이션 기술 서비스 요소로 나누어 각 요소별 이용자의 요구를 반영한 서비스를 제안하였다. 본 연구결과는 향후 국내 대학도서관 및 연구데이터관리서비스를 계획하고 있는 기관에서 서비스 개발의 기초자료로 활용할 수 있을 것이다.

Abstract

This study aimed to develop Research Data Management (RDM) Services in a domestic university library of Korea. In this study, elements and levels of RDM services are examined and in-depth interview was conducted with university researchers affiliated in Seoul National University, which has the largest amount of research fund among universities in Korea. Interview was conducted to analyze their data management practices and needs of RDM services. Interview results show researchers’ lack of awareness toward Data Management Policy and data sharing obligations of funding agencies and academic journal publishers. Also, they had trouble managing research data systematically. However, many of the researchers understand the necessary of research data management and education of data management. Based on the interview result, service elements and contents are suggested for RDM services which is consisted of education services, professional consulting services, curation technical services. This study result will help to guide for the planning the future RDM service in university library of Korea.

초록보기
초록

대표적인 앙상블 기법으로서 랜덤포레스트(RF)를 문헌정보학 분야의 학술지 논문에 대한 자동분류에 적용하였다. 특히, 국내 학술지 논문에 주제 범주를 자동 할당하는 분류 성능 측면에서 트리 수, 자질선정, 학습집합 크기 등 주요 요소들에 대한 다각적인 실험을 수행하였다. 이를 통해, 실제 환경의 불균형 데이터세트(imbalanced dataset)에 대하여 랜덤포레스트(RF)의 성능을 최적화할 수 있는 방안을 모색하였다. 결과적으로 국내 학술지 논문의 자동분류에서 랜덤포레스트(RF)는 트리 수 구간 100〜1000(C)과 카이제곱통계량(CHI)으로 선정한 소규모의 자질집합(10%), 대부분의 학습집합(9〜10년)을 사용하는 경우에 가장 좋은 분류 성능을 기대할 수 있는 것으로 나타났다.

Abstract

Random Forest (RF), a representative ensemble technique, was applied to automatic classification of journal articles in the field of library and information science. Especially, I performed various experiments on the main factors such as tree number, feature selection, and learning set size in terms of classification performance that automatically assigns class labels to domestic journals. Through this, I explored ways to optimize the performance of random forests (RF) for imbalanced datasets in real environments. Consequently, for the automatic classification of domestic journal articles, Random Forest (RF) can be expected to have the best classification performance when using tree number interval 100〜1000(C), small feature set (10%) based on chi-square statistic (CHI), and most learning sets (9-10 years).

정보관리학회지