바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 요약, 검색결과: 2
1
최윤수(한국과학기술정보연구원) ; 정창후(한국과학기술정보연구원) ; 조현양(경기대학교) 2011, Vol.28, No.1, pp.89-104 https://doi.org/10.3743/KOSIM.2011.28.1.089
초록보기
초록

대용량 문서에서 정보를 추출하는 작업은 정보검색 분야뿐 아니라 질의응답과 요약 분야에서 매우 유용하다. 정보추출은 비정형 데이터로부터 정형화된 정보를 자동으로 추출하는 작업으로서 개체명 인식, 전문용어 인식, 대용어 참조해소, 관계 추출 작업 등으로 구성된다. 이들 각각의 기술들은 지금까지 독립적으로 연구되어왔기 때문에, 구조적으로 상이한 입출력 방식을 가지며, 하부모듈인 언어처리 엔진들은 특성에 따라 개발 환경이 매우 다양하여 통합 활용이 어렵다. 과학기술문헌의 경우 개체명과 전문용어가 혼재되어 있는 형태로 구성된 문서가 많으므로, 기존의 연구결과를 이용하여 접근한다면 결과물 통합과정의 불편함과 처리속도에 많은 제약이 따른다. 본 연구에서는 과학기술문헌을 분석하여 개체명과 전문용어를 통합 추출할 수 있는 기반 프레임워크를 개발한다. 이를 위하여, 문장자동분리, 품사태깅, 기저구인식 등과 같은 기반 언어 분석 모듈은 물론 이를 활용한 개체명 인식기, 전문용어 인식기를 개발하고 이들을 하나의 플랫폼으로 통합한 과학기술 핵심개체 인식 체계를 제안한다.

Abstract

Large-scaled information extraction plays an important role in advanced information retrieval as well as question answering and summarization. Information extraction can be defined as a process of converting unstructured documents into formalized, tabular information, which consists of named-entity recognition, terminology extraction, coreference resolution and relation extraction. Since all the elementary technologies have been studied independently so far, it is not trivial to integrate all the necessary processes of information extraction due to the diversity of their input/output formation approaches and operating environments. As a result, it is difficult to handle scientific documents to extract both named-entities and technical terms at once. In order to extract these entities automatically from scientific documents at once, we developed a framework for scientific core entity extraction which embraces all the pivotal language processors, named-entity recognizer and terminology extractor.

초록보기
초록

이 연구는 주요 국가의 국가도서관 목록에 나타나고 있는 한국관련 자료의 실태분석을 위해 한국관련 주제명의 주제별 특성과 레코드의 소장상황, 그리고 한국입장에서 쟁점이 되고 있거나 관심이 높은 일부 주제명을 중심으로 그 특성을 비교 분석한 것이다. 연구결과를 요약하면 아래와 같다. 첫째, 미국 등 일부 국가를 제외하고 대부분의 국가도서관에 저장되어 있는 한국관련 레코드가 절대적으로 부족하며, 일본관련 레코드와 비교할 때 대략 2∼3배 이상 적게 나타나고 있다. 둘째, 한국관련 레코드의 세부항목별 주제 분포에서 대체로 ‘역사’와 ‘경제’가 가장 많게 나타나고 있지만 대부분의 국가에서 ‘한국전쟁’이 많은 비중을 차지하고 있는 것은 한국에 대한 외국인의 인식이 왜곡될 가능성이 높다고 생각된다. 셋째, 한국관련 레코드가운데 대부분이 북한에 비해 남한관련 레코드가 1.5∼5배 이상 많게 나타나고 있지만 폴란드, 이탈리아, 멕시코는 오히려 북한이 많게 나타나고 있다. 넷째, 한국관련 주제명 가운데 ‘태권도’, ‘김치’, ‘독도’, ‘동해’ 등의 용어는 국가마다 미묘한 차이점이 드러나고 있지만, 우리의 주변 국가를 제외하고는 대부분 미국의회도서관의 주제명표기와 거의 일치하고 있다. 다섯째, 특히 우리의 인접국인 중국과 일본의 경우, 자국의 정치적, 역사적 입장을 철저하게 반영하여 나타냄으로써 일부 주제명의 표기에 문제점이 발견되고 있다.

Abstract

This research was conducted to analyze the actual condition of data related to Korea shown in the catalog of 15 countries. This study was to compare the subject characteristics of Korea-related subject heading, record collection, and the characteristics of several subject heading, which has been a major issue. The results are as follows. To begin with, Korea-related record in most other national libraries runs absolutely short except for some countries like United States. Korea-related record is generally 2 to 3 times less than Japan related record. Second, referring to the subject distribution in sub criteria of Korea-related record, subject related to ‘history’ and ‘economy’ is shown in the highest rate. Considering that ‘Korean war’ shows the highest rate in Italy and Canada, we can consider that this may cause the distortion of the perception of Korea. Third, in the case of Korea-related record, the record of South Korea is 1.5 to 5 times more than that of North Kore, except for some countries like United States. Forth, regarding the subject headings, the terms such as ‘Taekwondo’, ‘Kimchi’, ‘Tok-do’, ‘Tong-hae’ have different meanings in different countries. However, these terms agree to LCSH in most countries except for neighboring countries. Fifth, in case of China and Japan, the subject headings in reference to political and historical position are raising some problems.

정보관리학회지