바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: structured retrieval, 검색결과: 25
1
강남규(한국과학기술정보연구원) ; 이석형(한국기업평가(주)) ; 이응봉(충남대학교) 2002, Vol.19, No.3, pp.91-110 https://doi.org/10.3743/KOSIM.2002.19.3.091
초록보기
초록

최근, 키워드 기반의 정보검색의 한계를 극복하기 위한 구조문서 기반의 연구가 활발하게 진행되고 있지만, 실제 적용에는 많은 어려움이 존재한다. 본 고에서는 구조문서에 대한 본문검색시스템을 제안한다. 본문검색시스템에 적용된 문서는 XML로 구축된 국가연구개발 보고서를 대상으로 하였으며, XML 연구보고서의 DTD, 본문 간의 이동을 위한 네비게이션 정보추출, 본문검색을 위한 검색엔진의 적용 방안에 관하여 살펴본다. 본 시스템은 XML 문서에 대해 문서의 구조정보를 저장하고 이를 검색하여 다양한 형태로 열람할 수 있는 검색 엔진의 부재 상황을 본문검색이라는 방법으로 극복하기 위한 것이다.

Abstract

Recently, to overcome the limit of keyword based retrieval system, the study based structured document has been studied. But it is hard for structured retrieval system to adapt a real service, in this paper, we propose a method of retrieval mechanism for the ful-text of XML documents. We explain DTD of XML based report, extracting navigation information and planing to adapt the retrieval system for article retrieval. Using the fulltext retrieval scheme, suggested system can be an alternative plan of professional structured based retrieval system.

2
윤소영(국사편찬위원회) ; 문성빈(연세대학교) 2006, Vol.23, No.1, pp.201-219 https://doi.org/10.3743/KOSIM.2006.23.1.201
초록보기
초록

이 연구에서는 가장 적합한 엘리먼트 기반 XML 문서검색 기법을 제시하기 위해 언어모델 검색 접근법으로 다이버전스 기법, 보정 기법 그리고 계층적 언어모델의 검색성능을 평가하는 실험을 수행하였다. 실험 결과, 가장 효율적인 검색 접근법으로 문서의 구조정보를 적용한 계층적 언어모델 검색을 제안하였다. 특히, 계층적 언어모델은 실제 검색에서 중요성을 가지는 검색순위 상위에서 뛰어난 성능을 보였다.

Abstract

This experimental study suggests an element-based XML document retrieval method that reveals highly relevant elements. The models investigated here for comparison are divergence and smoothing method, and hierarchical language model. In conclusion, the hierarchical language model proved to be most effective in element-based XML document retrieval with regard to the improved exhaustivity and harmed specificity.

초록보기
초록

XML 웹 문서 포맷은 문헌 내에 내용뿐만 아니라 의미 있는 논리적인 구조 정보를 포함할 수 있어, 검색에서 문서의 내용 뿐만 아니라 구조로 접근하는 것을 제공한다. 그래서 본 연구의 목적은 XML 검색에 있어 내용 검색에 추가적인 요소로 사용된 구조적인 제한이 얼마나 유용한지를 실험하기 위해 내용만으로 검색한 결과와 내용과 구조적인 제한을 가지고 검색한 결과간의 성능을 비교하였다. 이 실험은 자체 개발된 단말노드 언어모델기반의 XML 검색시스템을 사용하였고 INEX 2005의 ad-hoc트랙에 참여하여 모든 실험방법과 INEX 2005의 실험 문헌 집단을 사용하였다.

Abstract

XML documents format on the Web provides a mechanism to impose their content and logical structure information. Therefore, an XML processor provides access to their content and strucure. The purpose of this study is to investigate the usefulness of structural hints in the leaf node language model-based XML document retrieval. In order to this purpose, this experiment tested the performances of the leaf node language model-based XML retrieval system to compare the queries for a topic containing only content-only constraints and both content constrains and structure constraints. A newly designed and implemented leaf node language model-based XML retrieval system was used. And we participated in the ad-hoc track of INEX 2005 and conducted an experiment using a large-scale XML test collection provided by INEX 2005.

초록보기
초록

통신기술과 정보기기의 발달로 대학에서 교육과정에 정보를 활용하는 방식이 급격히 변화하고 있어 저작권이 있는 정보를 윤리적, 합법적으로 교육 자료로 사용하게 될 경우 인지해야할 사항들이 점점 늘어나고 있다. 이 연구에서는 대학에 필요한 교육적 목적의 정보 공정사용에 관련한 저작권 법과 각종 지침을 분석한 후 대학도서관에서 교육자와 학생에게 인지시켜야 할 주요 개념을 도출하여 대학 도서관이 정보 공정사용 지침에 포함해야 할 주요 영역을 제시하고자 하였다. 또한 영역별로 도출된 주요 개념들이 국내 대학 도서관 사이트에서 적절하게 교육자와 학생들에게 제공되고 있는지를 조사하였다.

Abstract

Due to the radical changes of information technology, it becomes indispensable for educators and students of university to learn how to use copyrighted works ethically and legally without violating the copyright law. As a result, academic libraries need to take responsibilities to inform them fair use criteria and to provide proper fair use guidelines. This study analysed various fair use guidelines for them and copyright law to identify key areas of fair use guideline for the academic libraries. It also investigated 10 university libraries' web sites to find that the identified key areas are delivered to the educators and students.

초록보기
초록

Abstract

For the guarantee of retrieval ratio, thesaurus's maintenance for descriptors are necessary. To maintain the optimum scale of thesaurus, new terms and existing terms should be structured to the equivalence relationship. Therefore, equivalence relationships are needed to new standard. This study proposes new standard of the equivalence relationships, which is more specified for better guarantee of retrieval ratios. The relationships have seven facets. These six facets will be used as new knowledge-base, which could be reestablished between the descriptors.

초록보기
초록

현재 메타데이터와 폭소노미는 정보의 표현과 조직, 검색에 널리 사용되고 있다. 그러나 각각이 지닌 고유한 특성과 장점을 모두 활용하기 위해 이 두 가지 방식을 연결시키기 위한 연구가 많이 수행되고 있다. 본 연구에서는 폭소노미와 메타데이터가 지닌 공통점을 활용해 이 두 가지 방식을 마이크로컨텐츠를 이용해 연결시켜 정보자원의 활용을 극대화하는 방안을 제안하고 있다. 마이크로컨텐츠는 폭소노미의 동적인 특성과 메타데이터의 명확한 체계를 모두 반영한 구조로서, 실질적인 태그나 요소의 값을 갖지 않는 개념적인 구조이다. 이 마이크로컨텐츠를 이용한 접근방법은 폭소노미 태그와 메타데이터 구조에서 제공받은 접근점을 통해 이들 두 가지 방식의 단점을 상호보완하고 장점을 극대화하는데 활용될 수 있다.

Abstract

Metadata and folksonomy are two main approaches in representing, organizing, and retrieving resources in the current information environment. Many researches have conducted studies to combine of metadata and folksonomy in order to utilize the strengths of both approaches. This research proposed an approach to utilize both metadata and folksonomy in representing resources by using microcontents. Microcontents in this research is a conceptual structure that reflects dynamic characteristics of folksonomy and the structure of metadata. By connecting folksonomy with metadata through this microcontents structure, both approaches can maximize their strengths and minimize their weaknesses in representing, organizing, and retrieving resources.

초록보기
초록

웹 문서 검색을 위해 키워드와 불리언 연산식을 사용하는 것에 비해 자연어 질의 문장을 입력하는 방법은 검색 시스템 사용자에게 훨씬 이상적인 인터페이스이다. 본 논문은 사용자가 입력하는 자연어 질의 문장을 구문 분석하고 그 구문 구조에 기반하여 검색어를 확장하는 다중 검색 기법을 제안한다. 구문 트리를 순회하여 구조적으로 연관된 복합 명사를 조합하거나 분할하는 과정을 거치고, 이형 표기 및 축약 표기 용어들에 대해 확장 다중 검색함으로써 웹 정보 검색 시스템의 재현율과 정확도를 높일 수 있다.

Abstract

For the users of information retrieval systems, natural language query is the more ideal interface, compared with keyword and boolean expressions. This paper proposes a retrieval technique with expanded keyword from syntactically-analyzed structures of natural language query as user input. Through the steps combining or splitting the compound nouns based on syntactic tree traversal of the query, and expanding the other-formed or shorten-formed into multiple keyword, it can enhance the precision and correctness of the retrieval system.

초록보기
초록

최근 수년 동안 영상자료와 음성자료 분석에 대한 이론들이 텍스트자료 검색 시스템과 함께 사용되기 위해서 제안 되어 왔으며 데이터 처리 속도의 급격한 향상과 함께 발전되어 왔다. 일반적 검색 방법들은 단지 텍스트만을 사용하지만 텍스트와 그림을 동시에 사용하는 검색 방법 또한 최근에 제안되어 왔다. 본 연구는 다매체자료의 공통기술표현포맷(CRFMD)이라는 이름으로 화상자료와 텍스트자료를 하나의 자료 구조로 통합하는 방법을 제안하고 있으며, 주어진 테스트자료에 대한 화상자료의 유사성 분석에서 텍스트와 그림의 형태소를 함께 사용하였을 때 현격히 개선되어 짐을 보여주고 있다. CRFMD는 의료문서 검색, WWW 검색, 박물관 소장품 검색과 같은 다양한 분야의 다매체자료 검색 및 처리에 응용될 수가 있을 것이다.

Abstract

In recent years, theories of image and sound analysis have been proposed to work with text retrieval systems and have progressed quickly with the rapid progress in data processing speeds. This study proposes a common representation format for multimedia documents (CRFMD) composed of both images and text to form a single data structure. It also shows that image classification of a given test set is dramatically improved when text features are encoded together with image features. CRFMD might be applicable to other areas of multimedia document retrieval and processing, such as medical image retrieval, World Wide Web searching, and museum collection retrieval.

9
최상희(대구가톨릭대학교) ; 서은경(한성대학교) 2006, Vol.23, No.2, pp.229-243 https://doi.org/10.3743/KOSIM.2006.23.2.229
초록보기
초록

질의응답문서는 이용자가 입력한 질의, 질의설명, 답을 아는 다른 이용자가 제시한 응답으로 구성된 구조화된 문서로서, 최근 웹 문서처럼 검색이 일반적으로 일어나고 있는 정보원이다. 이 연구에서는 질의응답문서의 구조적 특성을 기반으로 질의를 재생성하여 질의응답문서의 검색효율을 향상시키고자 하였다. 질의재생성 실험에서 성능이 비교된 문서구조는 질의와 응답내용이다. 질의를 기반으로 질의를 재생성하는 방식에서는 질의응답검색 시스템에 입력되어 있는 유사질의를 활용하여 클러스터링하는 기법이 적용되었다. 응답정보를 기반으로 질의를 재생성하는 방식에서는 가장 유사한 기존 질의에 대해 응답된 내용에서 단락검색으로 적합한 문장들을 선정하여 활용하는 기법이 적용되었다. 실험 결과 응답정보를 활용하여 질의를 재생성하는 방식이 정확률은 유지하면서 더 다양한 검색결과를 제공하는 것으로 나타났다.

Abstract

This study aims to suggest an effective way to enhance question-answer(QA) document retrieval performance by reconstructing queries based on the structural features in the QA documents. QA documents are a structured document which consists of three components: question from a questioner, short description on the question, answers chosen by the questioner. The study proposes the methods to reconstruct a new query using by two major structural parts, question and answer, and examines which component of a QA document could contribute to improve query performance. The major finding in this study is that to use answer document set is the most effective for reconstructing a new query. That is, queries reconstructed based on terms appeared on the answer document set provide the most relevant search results with reducing redundancy of retrieved documents.

10
이지숙(NHN㈜) ; 정영미(연세대학교) 2007, Vol.24, No.3, pp.201-218 https://doi.org/10.3743/KOSIM.2007.24.3.201
초록보기
초록

이 연구에서는 TREC이 제시한 토픽 검색의 정의에 따라 질의에 적합한 웹 사이트를 검색하는 효과적인 토픽 검색 알고리즘을 제안하고 실험을 통해 그 성능을 평가하였다. 이 연구의 토픽 검색 알고리즘은 먼저 질의에 대한 웹 페이지 검색 결과로부터 적합한 웹 사이트를 선정한 다음, 선정된 사이트의 구조를 이용하여 질의에 대한 적합성 점수를 산출한다. TREC의 .GOV 실험 문헌 집단과 TREC-2004 실험의 질의 및 적합문헌 리스트를 이용한 검색 실험 결과 이 토픽 검색 알고리즘은 상위 10위 안에 최소 2개 이상의 적합 사이트를 검색하여 비교적 높은 수준의 성능을 보였다. 또한 TREC-2004의 적합문헌 리스트 분석을 통해 적합문헌 선정에 토픽 검색의 정의가 엄격하게 적용되지 않은 경우가 있음을 확인하고, 수정된 적합문헌 리스트를 이용하여 토픽 검색 성능을 재평가한 결과 이 연구에서 제안한 토픽 검색 알고리즘의 성능이 월등히 향상되었다.

Abstract

This study proposes a topic distillation algorithm that ranks the relevant sites selected from retrieved web pages, and evaluates the performance of the algorithm. The algorithm calculates the topic score of a site using its hierarchical structure. The TREC .GOV test collection and a set of TREC-2004 queries for topic distillation task are used for the experiment. The experimental results showed the algorithm returned at least 2 relevant sites in top ten retrieval results. We performed an in-depth analysis of the relevant sites list provided by TREC-2004 to find out that the definition of topic distillation was not strictly applied in selecting relevant sites. When we re-evaluated the retrieved sites/sub-sites using the revised list of relevant sites, the performance of the proposed algorithm was improved significantly.

정보관리학회지