바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

복수의 신문기사 자동요약에 관한 실험적 연구

An Experimental Study on Automatic Summarization of Multiple News Articles

정보관리학회지 / Journal of the Korean Society for Information Management, (P)1013-0799; (E)2586-2073
2006, v.23 no.1, pp.83-98
https://doi.org/10.3743/KOSIM.2006.23.1.083
김용광 (연세대학교)
정영미 (연세대학교)
  • 다운로드 수
  • 조회수

초록

이 연구에서는 복수의 신문기사를 자동으로 요약하기 위해 문장의 의미범주를 활용한 템플리트 기반 요약 기법을 제시하였다. 먼저 학습과정에서 사건/사고 관련 신문기사의 요약문에 포함할 핵심 정보의 의미범주를 식별한 다음 템플리트를 구성하는 각 슬롯의 단서어를 선정한다. 자동요약 과정에서는 입력되는 복수의 뉴스기사들을 사건/사고 별로 범주화한 후 각 기사로부터 주요 문장을 추출하여 템플리트의 각 슬롯을 채운다. 마지막으로 문장을 단문으로 분리하여 템플리트의 내용을 수정한 후 이로부터 요약문을 작성한다. 자동 생성된 요약문을 평가한 결과 요약 정확률과 요약 재현율은 각각 0.541과 0.581로 나타났고, 요약문장 중복률은 0.116으로 나타났다.

keywords
복수문헌 자동요약, 뉴스기사 자동요약, 템플리트, 슬롯 단서어, 의미범주, multi-document summarization, news article summarization, template, slot cue word, semantic category, multi-document summarization, news article summarization, template, slot cue word, semantic category

Abstract

This study proposes a template-based method of automatic summarization of multiple news articles using the semantic categories of sentences. First, the semantic categories for core information to be included in a summary are identified from training set of documents and their summaries. Then, cue words for each slot of the template are selected for later classification of news sentences into relevant slots. When a news article is input, its event/accident category is identified, and key sentences are extracted from the news article and filled in the relevant slots. The template filled with simple sentences rather than original long sentences is used to generate a summary for an event/accident. In the user evaluation of the generated summaries, the results showed the 54.1% recall ratio and the 58.1% precision ratio in essential information extraction and 11.6% redundancy ratio.

keywords
복수문헌 자동요약, 뉴스기사 자동요약, 템플리트, 슬롯 단서어, 의미범주, multi-document summarization, news article summarization, template, slot cue word, semantic category, multi-document summarization, news article summarization, template, slot cue word, semantic category

참고문헌

1.

(2005.). 정보검색연구. , -.

2.

(2000). Multi-document Summarization by Visualizing Topical Content. , 79-88.

3.

(g.1982). An overview of the FRUMP system eds. Strategies for Natural Language Processing. 149-176.. , -.

4.

(2). New methods in automatic extracting. , 264-285.

5.

(2000). Multi-document summarization by sentence extraction. , 40-48.

6.

(1999). Summarizing similarities and differences among related documents. 1, 35-67.

7.

(1995). Generating summaries of muliple news articles. , 74-82.

8.

(1999). Development and evaluation of a statistically-based document summarization system. , 61-70.

9.

(2000). Centroid-based summarization of multiple documents: sentence extraction, utility-based evaluation, and user studies. , 21-30.

10.

(2000). Multi-document summarization: methodologies and evaluations. , -.

11.

(1997). A comparative study on feature selection in text categorization. , -.

12.

(1997). A comparative study on feature selection in text categorization. , -.

정보관리학회지