바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 미분류문헌, 검색결과: 2
초록보기
초록

문헌간 유사도를 자질로 사용하는 분류기에서 미분류 문헌을 학습에 활용하여 분류 성능을 높이는 방안을 모색해보았다. 자동분류를 위해서 다량의 학습문헌을 수작업으로 확보하는 것은 많은 비용이 들기 때문에 미분류 문헌의 활용은 실용적인 면에서 중요하다. 미분류 문헌을 활용하는 준지도학습 알고리즘은 대부분 수작업으로 분류된 문헌을 학습데이터로 삼아서 미분류 문헌을 분류하는 첫 번째 단계와, 수작업으로 분류된 문헌과 자동으로 분류된 문헌을 모두 학습 데이터로 삼아서 분류기를 학습시키는 두 번째 단계로 구성된다. 이 논문에서는 문헌간 유사도 자질을 적용하는 상황을 고려하여 두 가지 준지도학습 알고리즘을 검토하였다. 이중에서 1단계 준지도학습 방식은 미분류 문헌을 문헌유사도 자질 생성에만 활용하므로 간단하며, 2단계 준지도학습 방식은 미분류 문헌을 문헌유사도 자질 생성과 함께 학습 예제로도 활용하는 알고리즘이다. 지지벡터기계와 나이브베이즈 분류기를 이용한 실험 결과, 두 가지 준지도학습 방식 모두 미분류 문헌을 활용하지 않는 지도학습 방식보다 높은 성능을 보이는 것으로 나타났다. 특히 실행효율을 고려한다면 제안된 1단계 준지도학습 방식이 미분류 문헌을 활용하여 분류 성능을 높일 수 있는 좋은 방안이라는 결론을 얻었다

Abstract

This paper studies the problem of classifying documents with labeled and unlabeled learning data, especially with regards to using document similarity features. The problem of using unlabeled data is practically important because in many information systems obtaining training labels is expensive, while large quantities of unlabeled documents are readily available. There are two steps in general semi-supervised learning algorithm. First, it trains a classifier using the available labeled documents, and classifies the unlabeled documents. Then, it trains a new classifier using all the training documents which were labeled either manually or automatically. We suggested two types of semi-supervised learning algorithm with regards to using document similarity features. The one is one step semi-supervised learning which is using unlabeled documents only to generate document similarity features. And the other is two step semi-supervised learning which is using unlabeled documents as learning examples as well as similarity features. Experimental results, obtained using support vector machines and naive Bayes classifier, show that we can get improved performance with small labeled and large unlabeled documents then the performance of supervised learning which uses labeled-only data. When considering the efficiency of a classifier system, the one step semi-supervised learning algorithm which is suggested in this study could be a good solution for improving classification performance with unlabeled documents.

초록보기
초록

본 연구는 복합적인 주제 영역인 이민정책에 관한 다양한 정보를 효과적으로 조직하고 최적의 정보 서비스를 제공할 수 있는 분류표를 개발하기 위해 관련 문헌 연구와 다양한 문헌분류표를 조사하였다. 먼저, 문헌 연구를 통해 이민정책의 학문적 개념과 범주를 정의하고, 이를 바탕으로 핵심 주제 영역을 선정하였다. 다음으로, 듀이십진분류표, 미의회도서관분류표, 한국십진분류표, 국제십진분류표에서 이민정책 분야의 구조와 전개 항목, 특성을 비교 분석하였다. 그리고 이들 분류표 중 전 세계적으로 가장 많이 사용하고 있으며, 정기적으로 개정되고 있는 DDC 23판을 바탕으로 이민정책 분야를 수정 전개하기 위한 설계 원칙과 본표, 보조표를 제안하였다. 수정 전개된 듀이십진분류표는 이민정책을 다루는 주요 분야에 적용될 수 있으며, 이민 정책 관련 전문 연구기관이나 도서관에서 소장 자료를 효과적으로 분류하고 조직하며 이민정책 전문 정보를 통합 관리하기 위한 기초 자료로 활용될 것이다.

Abstract

This study investigated and analyzed various library classification systems and related literature in order to suggest some modifications and expansion of the Dewey Decimal Classification, the 23rd edition (DDC 23) in the area of immigration policy - an interdis- ciplinary subject - for the best information organization and services. First of all, definitions and scopes of the immigration policy were dealt with and then primary subject areas of it were selected. And then, DDC, Library of Congress Classification, Korean Decimal Classification, and Universal Decimal Classification were compared and analyzed according to the structures, headings and characteristics. Finally, modified classification schedules in immigration policy of the DDC 23 - the most frequently used one with an regular revision was proposed with their principles and main schedules with an auxiliary table. It can be used for an effective information organization in immigration policy area and it will be useful for many libraries and research institutes on immigration policy.

정보관리학회지