바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 자동요약, 검색결과: 9
1
김용광(연세대학교) ; 정영미(연세대학교) 2006, Vol.23, No.1, pp.83-98 https://doi.org/10.3743/KOSIM.2006.23.1.083
초록보기
초록

이 연구에서는 복수의 신문기사를 자동으로 요약하기 위해 문장의 의미범주를 활용한 템플리트 기반 요약 기법을 제시하였다. 먼저 학습과정에서 사건/사고 관련 신문기사의 요약문에 포함할 핵심 정보의 의미범주를 식별한 다음 템플리트를 구성하는 각 슬롯의 단서어를 선정한다. 자동요약 과정에서는 입력되는 복수의 뉴스기사들을 사건/사고 별로 범주화한 후 각 기사로부터 주요 문장을 추출하여 템플리트의 각 슬롯을 채운다. 마지막으로 문장을 단문으로 분리하여 템플리트의 내용을 수정한 후 이로부터 요약문을 작성한다. 자동 생성된 요약문을 평가한 결과 요약 정확률과 요약 재현율은 각각 0.541과 0.581로 나타났고, 요약문장 중복률은 0.116으로 나타났다.

Abstract

This study proposes a template-based method of automatic summarization of multiple news articles using the semantic categories of sentences. First, the semantic categories for core information to be included in a summary are identified from training set of documents and their summaries. Then, cue words for each slot of the template are selected for later classification of news sentences into relevant slots. When a news article is input, its event/accident category is identified, and key sentences are extracted from the news article and filled in the relevant slots. The template filled with simple sentences rather than original long sentences is used to generate a summary for an event/accident. In the user evaluation of the generated summaries, the results showed the 54.1% recall ratio and the 58.1% precision ratio in essential information extraction and 11.6% redundancy ratio.

2
정영미(연세대학교) ; 김용광(연세대학교) 2008, Vol.25, No.4, pp.227-243 https://doi.org/10.3743/KOSIM.2008.25.4.227
초록보기
초록

이 연구에서는 사건중심 뉴스기사 요약문을 자동생성하기 위해 뉴스기사들을 SVM 분류기를 이용하여 사건 주제범주로 먼저 분류한 후, 각 주제범주 내에서 싱글패스 클러스터링 알고리즘을 통해 특정한 사건 관련 기사들을 탐지하는 기법을 제안하였다. 사건탐지 성능을 높이기 위해 고유명사에 가중치를 부여하고, 뉴스의 발생시간을 고려한 시간벌점함수를 제안하였다. 또한 일정 규모 이상의 클러스터를 분할하여 적절한 크기의 사건 클러스터를 생성하도록 수정된 싱글패스 알고리즘을 사용하였다. 이 연구에서 제안한 사건탐지 기법의 성능은 단순 싱글패스 클러스터링 기법에 비해 정확률, 재현율, F-척도에서 각각 37.1%, 0.1%, 35.4%의 성능 향상률을 보였고, 오보율과 탐지비용에서는 각각 74.7%, 11.3%의 향상률을 나타냈다.

Abstract

This study investigates an event detection method with the aim of generating an event-focused news summary from a set of news articles on a certain event using a multi-document summarization technique. The event detection method first classifies news articles into the event related topic categories by employing a SVM classifier and then creates event clusters containing news articles on an event by a modified single pass clustering algorithm. The clustering algorithm applies a time penalty function as well as cluster partitioning to enhance the clustering performance. It was found that the event detection method proposed in this study showed a satisfactory performance in terms of both the F-measure and the detection cost.

초록보기
초록

스피치 요약을 생성하는데 있어서 두 가지 중요한 측면은 스피치에서 핵심 내용을 추출하는 것과 추출한 내용을 효과적으로 표현하는 것이다. 본 연구는 강의 자료의 스피치 요약의 자동 생성을 위해서 스피치 자막이 없는 경우에도 적용할 수 있는 스피치의 음향학적 자질 즉, 스피치의 속도, 피치(소리의 높낮이) 및 강도(소리의 세기)의 세 가지 요인을 이용하여 스피치 요약을 생성할 수 있는지 분석하고, 이 중 가장 효율적으로 이용할 수 있는 요인이 무엇인지 조사하였다. 조사 결과, 강도(최대값 dB과 최소값 dB간의 차이)가 가장 효율적인 요인으로 확인되었다. 이러한 강도를 이용한 방식의 효율성과 특성을 조사하기 위해서 이 방식과 본문 키워드 방식간의 차이를 요약문의 품질 측면에서 분석하고, 이 두 방식에 의해서 각 세그먼트(문장)에 할당된 가중치간의 관계를 분석해 보았다. 그런 다음 추출된 스피치의 핵심 세그먼트를 오디오 또는 텍스트 형태로 표현했을 때 어떤 특성이 있는지 이용자 관점에서 분석해 봄으로써 음향학적 특성을 이용한 스피치 요약을 효율적으로 추출하여 표현하는 방안을 제안하였다.

Abstract

Two fundamental aspects of speech summary generation are the extraction of key speech content and the style of presentation of the extracted speech synopses. We first investigated whether acoustic features (speaking rate, pitch pattern, and intensity) are equally important and, if not, which one can be effectively modeled to compute the significance of segments for lecture summarization. As a result, we found that the intensity (that is, difference between max DB and min DB) is the most efficient factor for speech summarization. We evaluated the intensity-based method of using the difference between max-DB and min-DB by comparing it to the keyword-based method in terms of which method produces better speech summaries and of how similar weight values assigned to segments by two methods are. Then, we investigated the way to present speech summaries to the viewers. As such, for speech summarization, we suggested how to extract key segments from a speech video efficiently using acoustic features and then present the extracted segments to the viewers.

초록보기
초록

웹의 보도기사에 관한 자동요약시스템을 구축하기 위하여 담화구조와 지식기반 기법을 적용한 글구조 프레임과 제 규칙들을 작성하였다. 프레임에는 문단과 문장 및 절의 역할, 문단과 문장의 성질, 역할을 구분하는 판별규칙, 주요문장 발췌규칙, 그리고 요약문작성규칙 슬롯이 포함되었다. 문맥정의, 고유명사 등을 안내하는 ‘if-needed'와 변화된 슬롯 값을 알려주는 if-changed 패싯도 구비되었다. 슬롯이나 패싯의 실제 값들을 추출 표현하는 과정에서 문구의 수사적 역할과 단어 최상위 범주 및 줄거리 단위를 참조하였다. 의미흐름의 연결성을 유지하면서 요약 문장들을 통합, 분리, 합성하는 재구성은 유사도공식, 구문정보, 담화구조와 지식기반 방법에서 도출한 제 규칙 및 문맥정의를 이용하였고 비평과 같은 새로운 문장을 생성하였다.

Abstract

The writings frame and various rules based on discourse structure and knowledge-based methods were applied to construct the automatic Ext/Sums (extracts & summaries) system from the straight news in web. The frame contains the slot and facet represented by the role of paragraphs, sentences, and clauses in news and the rules determining the type of slot. Rearrangement like Unification, separation, and synthesis of the candidate sentences to summary, maintaining the coherence of meanings, were also used the rules derived from similar degree measurement, syntactic information, discourse structure, and knowledge-based methods and the context plots defined with the syntactic/semantic signature of noun and verb and category of verb suffix. The critic sentence were tried to insert into summary

초록보기
초록

본 연구는 비디오의 오디오 정보를 추출하여 자동으로 요약하는 알고리즘을 설계하고, 제안된 알고리즘에 의해서 구성한 오디오 요약의 품질을 평가하여 효율적인 비디오 요약의 구현 방안을 제안하였다. 구체적인 연구 결과를 살펴보면 다음과 같다. 먼저, 제안 오디오 요약의 품질이 위치 기반 오디오 요약의 품질 보다 내재적 평가에서 더 우수하게 나타났다. 이용자 평가(외재적 평가)의 요약문 정확도에서는 제안 요약문이 위치 기반 요약문 보다 더 우수한 것으로 나타났지만, 항목 선택에서는 이 두 요약문간의 성능 차이는 없는 것으로 나타났다. 이외에 비디오 브라우징을 위한 오디오 요약에 대한 이용자 만족도를 조사하였다. 끝으로 이러한 조사 결과를 기초로 하여 제안된 오디오 요약 기법을 인터넷이나 디지털 도서관에 활용하는 방안들을 제시하였다.

Abstract

The study proposed the algorithm for automatically summarizing the audio information from a video and then conducted an experiment for the evaluation of the audio extraction that was constructed based on the proposed algorithm. The research results showed that first, the recall and precision rates of the proposed method for audio summarization were higher than those of the mechanical method by which audio extraction was constructed based on the sentence location. Second, the proposed method outperformed the mechanical method in summary making tasks, although in the gist recognition task(multiple choice), there is no statistically difference between the proposed and mechanical methods. In addition, the study conducted the participants' satisfaction survey regarding the use of audio extraction for video browsing and also discussed the practical implications of the proposed method in Internet and digital library environments.

초록보기
초록

학술 문헌 원문에서 발견되는 인용문은 인용에 기초한 학술문헌 자동 요약, 리뷰 논문 자동 생성, 인용문 감성 분석, 인용문 기반 문헌 검색 등 다양한 학술 정보 서비스의 창출을 가능케 한다. 이러한 서비스가 가능하기 위해서는 원문 텍스트로부터 인용문의 자동 인식이 선행되어야 한다. 그러나 인용문의 인식은 인용 표지가 부착되지 않은 암묵 인용문의 존재로 인해 그 처리가 용이하지 않다. 영어의 경우 최근 이에 대한 연구가 집중되고 있으나 한국어 학술 문헌 내 인용문의 자동 인식 연구는 찾기 힘들다. 이 논문은 한국어 인용문을 자동 인식하는 규칙 기반의 방법을 제시하고 다양한 베이스라인 기법들과 인용문 인식 성능을 비교하였다. 제안된 방법은 테스트 셋 내 전체 암묵 인용문의 30%를 약 70%의 정확률로 인식할 수 있었다.

Abstract

Identifying citing sentences from article full-text is a prerequisite for creating a variety of future academic information services such as citation-based automatic summarization, automatic generation of review articles, sentiment analysis of citing statements, information retrieval based on citation contexts, etc. However, finding citing sentences is not easy due to the existence of implicit citing sentences which do not have explicit citation markers. While several methods have been proposed to attack this problem for English, it is difficult to find such automatic methods for Korean academic literature. This article presents a rule-based approach to identifying Korean citing sentences. Experiments show that the proposed method could find 30% of implicit citing sentences in our test data in nearly 70% precision.

7
한희정(전북대학교) ; 김태영(전북대학교) ; 두효철(전북대학교) ; 오효정(전북대학교) 2017, Vol.34, No.4, pp.81-99 https://doi.org/10.3743/KOSIM.2017.34.4.081
초록보기
초록

기술문서는 지식정보사회에서 생성되는 중요 연구 성과물로, 이를 제대로 활용하기 위해서는 정보 요약 및 정보추출과 같은 개선된 정보 처리 방법을 토대로 기술문서 활용의 편의성을 높여줄 필요가 있다. 이에 본 연구는 기술문서의 핵심 정보를 추출하기 위한 방안으로, 기술문서의 구조와 정의문 패턴을 기반으로 전문용어 및 정의문을 자동 추출하고, 이를 기반으로 전문용어사전을 구축할 수 있는 시스템을 제안하였다. 나아가 전문용어사전을 지식메모리로서 보다 다양하게 활용할 수 있도록 전문용어사전에 기반한 개인화서비스 제공방안을 제안하였다. 이처럼 전문용어 및 정의문 자동추출을 기반으로 전문용어사전을 구축하게 되면 새롭게 등장하는 전문용어를 빠르게 수용할 수 있어 이용자들이 최신정보를 보다 손쉽게 찾을 수 있다. 더불어 개인화된 전문용어사전을 이용자에게 제공한다면 전문용어사전의 가치와 활용성, 검색의 효율성을 극대화할 수 있다.

Abstract

Technical documents are important research outputs generated by knowledge and information society. In order to properly use the technical documents properly, it is necessary to utilize advanced information processing techniques, such as summarization and information extraction. In this paper, to extract core information, we automatically extracted the terminologies and their definition based on definitional sentences patterns and the structure of technical documents. Based on this, we proposed the system to build a specialized terminology dictionary. And further we suggested the personalized services so that users can utilize the terminology dictionary in various ways as an knowledge memory. The results of this study will allow users to find up-to-date information faster and easier. In addition, providing a personalized terminology dictionary to users can maximize the value, usability, and retrieval efficiency of the dictionary.

8
최윤수(한국과학기술정보연구원) ; 정창후(한국과학기술정보연구원) ; 조현양(경기대학교) 2011, Vol.28, No.1, pp.89-104 https://doi.org/10.3743/KOSIM.2011.28.1.089
초록보기
초록

대용량 문서에서 정보를 추출하는 작업은 정보검색 분야뿐 아니라 질의응답과 요약 분야에서 매우 유용하다. 정보추출은 비정형 데이터로부터 정형화된 정보를 자동으로 추출하는 작업으로서 개체명 인식, 전문용어 인식, 대용어 참조해소, 관계 추출 작업 등으로 구성된다. 이들 각각의 기술들은 지금까지 독립적으로 연구되어왔기 때문에, 구조적으로 상이한 입출력 방식을 가지며, 하부모듈인 언어처리 엔진들은 특성에 따라 개발 환경이 매우 다양하여 통합 활용이 어렵다. 과학기술문헌의 경우 개체명과 전문용어가 혼재되어 있는 형태로 구성된 문서가 많으므로, 기존의 연구결과를 이용하여 접근한다면 결과물 통합과정의 불편함과 처리속도에 많은 제약이 따른다. 본 연구에서는 과학기술문헌을 분석하여 개체명과 전문용어를 통합 추출할 수 있는 기반 프레임워크를 개발한다. 이를 위하여, 문장자동분리, 품사태깅, 기저구인식 등과 같은 기반 언어 분석 모듈은 물론 이를 활용한 개체명 인식기, 전문용어 인식기를 개발하고 이들을 하나의 플랫폼으로 통합한 과학기술 핵심개체 인식 체계를 제안한다.

Abstract

Large-scaled information extraction plays an important role in advanced information retrieval as well as question answering and summarization. Information extraction can be defined as a process of converting unstructured documents into formalized, tabular information, which consists of named-entity recognition, terminology extraction, coreference resolution and relation extraction. Since all the elementary technologies have been studied independently so far, it is not trivial to integrate all the necessary processes of information extraction due to the diversity of their input/output formation approaches and operating environments. As a result, it is difficult to handle scientific documents to extract both named-entities and technical terms at once. In order to extract these entities automatically from scientific documents at once, we developed a framework for scientific core entity extraction which embraces all the pivotal language processors, named-entity recognizer and terminology extractor.

9
노영희(건국대학교 문헌정보학과 교수) ; 손애경(글로벌사이버대학교 미디어콘텐츠창작학과 교수) ; 이경선(서강대학교 공공정책대학원 행정법무학과 교수) ; 장인호(대진대학교 문헌정보학과 부교수) ; 정영미(동의대학교 문헌정보학과 교수) ; 차현주(성균관대학교 문헌정보학과 초빙교수) 2024, Vol.41, No.1, pp.133-162 https://doi.org/10.3743/KOSIM.2024.41.1.133
초록보기
초록

디지털화가 급속히 진행됨에 따라, 온라인 자료의 식별 및 관리의 중요성이 대두되고 있다. 특히, 디지털 콘텐츠의 효율적인 유통 및 보존을 위한 체계적인 식별체계의 필요성이 증가하고 있다. 본 연구는 이러한 시대적 요구에 부응하여, 온라인 자료의 식별 및 관리를 위한 현행 식별체계의 실태를 조사하고, 이를 납본과 연계하여 보다 체계적인 관리 및 활용 방안을 모색하는 것을 목적으로 한다. 이를 위해 온라인 자료 식별체계와 발급실태를 조사하고 온라인 자료에 관련된 선행연구를 분석하였다. 분석결과를 기반으로 한 납본 연계방안은 다음과 같이 세 가지로 요약할 수 있다. 첫째, 납본의 우선순위 및 활용성을 위해 납본과 이용의 상호보완 강화, 납본의 우선순위 부여, 납본자료의 활용성 증대 전략이 요구된다. 둘째, 국제표준번호를 기반으로 한 납본 연계 방안으로서, ISBN과 UCI의 연계 납본, 국제표준자료번호와 납본 연계, 국제표준번호와 UCI의 메타데이터연계, UCI와 ICN의 연계 통합, 납본시스템 고도화를 위한 자동화 기술 도입 전략이 요구된다. 셋째, 위에서 제안한 전략들이 그 효과적으로 작용하기 위해서는 정책적인 지원도 같이 이루어져야 할 것이다. 한국서지표준센터의 납본 역할 강화를 포함하여 출판사와의 협력강화, 납본자료에 대한 보상, 납본제도에 대한 인식 제고 및 제도적 보상 등의 측면에서 고려되어야 할 부분이 있다.

Abstract

The rapid digitalization has highlighted the importance of identifying and managing online resources. Especially, the need for a systematic identification system for the efficient distribution and preservation of digital content is growing. This study aims to respond to these contemporary demands by investigating the current state of identification systems for online resources and exploring more systematic management and utilization methods through linking these systems with legal deposit. To achieve this, the study surveyed the identification systems and their issuance status for online resources and analyzed prior research related to these online resources. Based on the analysis, the proposed strategies for linking with legal deposit can be summarized into three categories: First, to prioritize and enhance the utilization of legal deposit, strategies are required to strengthen the mutual complementarity of deposit and use, to assign priorities to certain deposits, and to increase the usability of deposited materials. Second, as strategies based on international standard numbers for linking with legal deposit, it is necessary to integrate ISBN and UCI in the deposit process, to link international standard resource numbers with deposit, to interconnect metadata between international standard numbers and UCI, to integrate UCI and ICN, and to introduce automation technology for upgrading the deposit system. Third, to effectively implement the aforementioned strategies, policy support is essential. This includes enhancing the role of the Korean Bibliographic Standards Center, strengthening cooperation with publishers, compensating for deposited materials, and increasing awareness and institutional compensation for the legal deposit system.

정보관리학회지