바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: automatization, 검색결과: 4
초록보기
초록

본 연구는 국내 주요 학술 DB의 검색서비스에서 제공되고 있는 저자키워드(비통제키워드)의 재분류를 통하여 디스크립터(통제키워드)를 자동 할당할 수 있는 가능성을 모색하였다. 먼저 기계학습에 기반한 주요 분류기들의 특성을 비교하는 실험을 수행하여 재분류를 위한 최적 분류기와 파라미터를 선정하였다. 다음으로, 국내 독서 분야 학술지 논문들에 부여된 저자키워드를 학습한 결과에 따라 해당 논문들을 재분류함으로써 키워드를 추가로 할당하는 실험을 수행하였다. 또한 이러한 재분류 결과에 따라 새롭게 추가된 문헌들에 대하여 통제키워드인 디스크립터와 마찬가지로 동일 주제의 논문들을 모아주는 어휘통제 효과가 있는지를 살펴보았다. 그 결과, 저자키워드의 재분류를 통하여 디스크립터를 자동 할당하는 효과를 얻을 수 있음을 확인하였다.

Abstract

This study purported to investigate the possibility of automatic descriptor assignment using the reclassification of author keywords in domestic scholarly databases. In the first stage, we selected optimal classifiers and parameters for the reclassification by comparing the characteristics of machine learning classifiers. In the next stage, learning the author keywords that were assigned to the selected articles on readings, the author keywords were automatically added to another set of relevant articles. We examined whether the author keyword reclassifications had the effect of vocabulary control just as descriptors collocate the documents on the same topic. The results showed the author keyword reclassification had the capability of the automatic descriptor assignment.

초록보기
초록

스피치 요약을 생성하는데 있어서 두 가지 중요한 측면은 스피치에서 핵심 내용을 추출하는 것과 추출한 내용을 효과적으로 표현하는 것이다. 본 연구는 강의 자료의 스피치 요약의 자동 생성을 위해서 스피치 자막이 없는 경우에도 적용할 수 있는 스피치의 음향학적 자질 즉, 스피치의 속도, 피치(소리의 높낮이) 및 강도(소리의 세기)의 세 가지 요인을 이용하여 스피치 요약을 생성할 수 있는지 분석하고, 이 중 가장 효율적으로 이용할 수 있는 요인이 무엇인지 조사하였다. 조사 결과, 강도(최대값 dB과 최소값 dB간의 차이)가 가장 효율적인 요인으로 확인되었다. 이러한 강도를 이용한 방식의 효율성과 특성을 조사하기 위해서 이 방식과 본문 키워드 방식간의 차이를 요약문의 품질 측면에서 분석하고, 이 두 방식에 의해서 각 세그먼트(문장)에 할당된 가중치간의 관계를 분석해 보았다. 그런 다음 추출된 스피치의 핵심 세그먼트를 오디오 또는 텍스트 형태로 표현했을 때 어떤 특성이 있는지 이용자 관점에서 분석해 봄으로써 음향학적 특성을 이용한 스피치 요약을 효율적으로 추출하여 표현하는 방안을 제안하였다.

Abstract

Two fundamental aspects of speech summary generation are the extraction of key speech content and the style of presentation of the extracted speech synopses. We first investigated whether acoustic features (speaking rate, pitch pattern, and intensity) are equally important and, if not, which one can be effectively modeled to compute the significance of segments for lecture summarization. As a result, we found that the intensity (that is, difference between max DB and min DB) is the most efficient factor for speech summarization. We evaluated the intensity-based method of using the difference between max-DB and min-DB by comparing it to the keyword-based method in terms of which method produces better speech summaries and of how similar weight values assigned to segments by two methods are. Then, we investigated the way to present speech summaries to the viewers. As such, for speech summarization, we suggested how to extract key segments from a speech video efficiently using acoustic features and then present the extracted segments to the viewers.

초록보기
초록

학술 문헌 원문에서 발견되는 인용문은 인용에 기초한 학술문헌 자동 요약, 리뷰 논문 자동 생성, 인용문 감성 분석, 인용문 기반 문헌 검색 등 다양한 학술 정보 서비스의 창출을 가능케 한다. 이러한 서비스가 가능하기 위해서는 원문 텍스트로부터 인용문의 자동 인식이 선행되어야 한다. 그러나 인용문의 인식은 인용 표지가 부착되지 않은 암묵 인용문의 존재로 인해 그 처리가 용이하지 않다. 영어의 경우 최근 이에 대한 연구가 집중되고 있으나 한국어 학술 문헌 내 인용문의 자동 인식 연구는 찾기 힘들다. 이 논문은 한국어 인용문을 자동 인식하는 규칙 기반의 방법을 제시하고 다양한 베이스라인 기법들과 인용문 인식 성능을 비교하였다. 제안된 방법은 테스트 셋 내 전체 암묵 인용문의 30%를 약 70%의 정확률로 인식할 수 있었다.

Abstract

Identifying citing sentences from article full-text is a prerequisite for creating a variety of future academic information services such as citation-based automatic summarization, automatic generation of review articles, sentiment analysis of citing statements, information retrieval based on citation contexts, etc. However, finding citing sentences is not easy due to the existence of implicit citing sentences which do not have explicit citation markers. While several methods have been proposed to attack this problem for English, it is difficult to find such automatic methods for Korean academic literature. This article presents a rule-based approach to identifying Korean citing sentences. Experiments show that the proposed method could find 30% of implicit citing sentences in our test data in nearly 70% precision.

4
정영임(한국과학기술정보연구원) ; 김정환(한국과학기술정보연구원) 2012, Vol.29, No.2, pp.7-25 https://doi.org/10.3743/KOSIM.2012.29.2.007
초록보기
초록

전자저널의 활용이 급속히 증가하면서 도서관에서는 자관에서 구입되는 전자저널이 얼마나, 어떻게 활용되고 있는지에 대한 관심이 증가하였다. 또한 전자정보 컨소시엄 주관기관에서도 컨소시엄 내에서 유통되는 학술자원의 이용통계에 대한 분석을 통해 국가 차원의 전자학술저널의 유통 현황 파악 및 수요자 중심의 정보수집 정책 개발이 필수적이다. 그러나 기존의 수작업에 의존한 이용통계 수집과 출판사에서 제공하는 저널 이용통계 보고서만으로는 이용에 대한 포괄적이고 심층적인 분석이 불가능하다. 이에 본 연구에서는 대용량 이용통계 수집 및 분석의 기반 마련을 위해 스크린 스크래핑과 SUSHI 프로토콜을 적용한 전자저널 이용통계 자동수집 시스템을 구현하였다. 또 저널 서지정보 및 컨소시엄 계약 데이터베이스를 연동하여 심층적인 이용통계 분석정보를 생성할 수 있는 방안을 제안하였다.

Abstract

The proliferating use of e-journals has led increasing interest in collecting and analyzing usage statistic information. However, the existing manual method and simple journal usage reports provided by publishers hinder the effective collection of large-scale usage statistics and the comprehensive/in-depth analysis on them. Thus we have proposed a hybrid automatic method of collecting e-journal usage statistics based on screen scraping and SUSHI protocol. In addition, the generation method of summary statistics presented in graphs, charts and tables has been suggested in this study. By utilizing the suggested system and analysis data, librarians can compose various reports on budget or operation of the libraries.

정보관리학회지