바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: retrieval effectiveness, 검색결과: 37
1
정영미(연세대학교) ; 장지은(연세대학교) 2003, Vol.20, No.3, pp.111-127 https://doi.org/10.3743/KOSIM.2003.20.3.111
초록보기
초록

이 연구의 목적은 사건을 연구대상으로 하는 사건트래킹 기법이 과연 최신 사건 정보를 검색함에 있어 기존의 정보필터링 기법보다 성능이 우수한가를 살펴보는 데 있다. 따라서 이 연구에서는 특정 사건에 관한 최신 기사를 보다 효과적으로 검색하여 제공하는 기법을 찾아내기 위하여 kNN(k-Nearest Neighbors) 분류기를 응용한 사건트래킹 기법과 질의기반 정보필터링 기법을 사용하여 사건검색 실험을 수행한 후 두 기법의 검색 성능을 비교하였다. 사건트래킹 실험은 초기의 고정 학습문서 집합을 사용한 사건트래킹과 트래킹 과정에서 변화하는 동적 학습문서 집합을 사용한 사건트래킹의 두 가지 방법으로 수행되었다. 정보필터링 실험도 초기질의를 사용한 정보필터링과 필터링 과정에서 계속 수정되는 질의를 사용한 정보필터링의 두 가지 방법으로 수행되었다. 실험 결과 사건트래킹 기법에서는 고정 학습문서 집합을 사용한 경우가 동적 학습문서 집합을 사용한 경우보다 더 우수한 성능을 보였으며, 정보필터링 기법에서는 초기질의를 사용한 경우가 수정질의를 사용한 경우보다 더 좋은 성능을 보였다. 또한 고정 학습문서 집합을 사용한 사건트래킹과 초기질의를 사용한 정보필터링을 비교한 결과 정보필터링 기법이 사건트래킹 기법에 비해 더 좋은 사건검색 성능을 보이는 것으로 나타났다.

Abstract

The purpose of this study is to ascertain whether event tracking is more effective in event retrieval than information filtering. This study examined the two techniques for event retrieval to suggest the more effective one. The event-retrieval performances of the event tracking technique based on a kNN classifier and the query-based information filtering technique were compared. Two event tracking experiments, one with the static training set and the other with the dynamic training set, were carried out. Two information filtering experiments, one with initial queries and the other with refined queries, were also carried out to evaluate the event-retrieval effectiveness. We found that the event tracking technique with the static training set performed better than one with the dynamic training set. It was also found that the information filtering technique using intial queries performed better than one using the refined queries. In conclusion, the comparison of the best cases of event tracking and information filtering revealed that the information filtering technique outperformed the event tracking technique in event retrieval.

2
정영미(연세대학교) ; 이용구(계명대학교) 2005, Vol.22, No.2, pp.125-145 https://doi.org/10.3743/KOSIM.2005.22.2.125
초록보기
초록

이 연구에서는 문헌 및 질의의 내용을 대표하는 주제어의 중의성 해소를 위해 대표적인 지도학습 모형인 나이브 베이즈 분류기와 비지도학습 모형인 EM 알고리즘을 각각 적용하여 검색 실험을 수행한 다음, 주제어의 중의성 해소를 통해 검색 성능의 향상을 가져올 수 있는지를 평가하였다. 실험문헌 집단은 약 12만 건에 달하는 한국어 신문기사로 구성하였으며, 중의성 해소 대상 단어로는 한국어 동형이의어 9개를 선정하였다. 검색 실험에는 각 중의성 단어를 포함하는 18개의 질의를 사용하였다. 중의성 해소 실험 결과 나이브 베이즈 분류기는 최적의 조건에서 평균 92%의 정확률을 보였으며, EM 알고리즘은 최적의 조건에서 평균 67% 수준의 클러스터링 성능을 보였다. 중의성 해소 알고리즘을 통합한 의미기반 검색에서는 나이브 베이즈 분류기 통합 검색이 약 39.6%의 정확률을 보였고, EM 알고리즘 통합 검색이 약 36%의 정확률을 보였다. 중의성 해소 모형을 적용하지 않은 베이스라인 검색의 정확률 37%와 비교하면 나이브 베이즈 통합 검색은 약 7.4%의 성능 향상률을 보인 반면 EM 알고리즘 통합 검색은 약 3%의 성능 저하율을 보였다.

Abstract

This paper presents a semantic vector space retrieval model incorporating a word sense disambiguation algorithm in an attempt to improve retrieval effectiveness. Nine Korean homonyms are selected for the sense disambiguation and retrieval experiments. The total of approximately 120,000 news articles comprise the raw test collection and 18 queries including homonyms as query words are used for the retrieval experiments. A Naive Bayes classifier and EM algorithm representing supervised and unsupervised learning algorithms respectively are used for the disambiguation process. The Naive Bayes classifier achieved 92% disambiguation accuracy, while the clustering performance of the EM algorithm is 67% on the average. The retrieval effectiveness of the semantic vector space model incorporating the Naive Bayes classifier showed 39.6% precision achieving about 7.4% improvement. However, the retrieval effectiveness of the EM algorithm-based semantic retrieval is 3% lower than the baseline retrieval without disambiguation. It is worth noting that the performances of disambiguation and retrieval depend on the distribution patterns of homonyms to be disambiguated as well as the characteristics of queries.

초록보기
초록

본 논문에서는 문헌의 적합성수준을 적합성정도에 따라 4그룹(부적합한, 조금 적합한, 적합한, 매우 적합한)으로 나눈 후 서로 다른 심사자가 적합성 판정을 내린 4개의 적합성 판정세트(A, B, C, D)에서 “조금 적합한” 문헌을 부적합문헌으로 분류했을 때와 적합문헌으로 분류하였을 때에, 초록/표제 시스템과 전문검색시스템에서 적합성피드백으로 인한 검색효율성의 증진은 어느 쪽이 더 혜택을 받게 되는 지를 연구하였다. “조금 적합한” 문헌을 적합문헌으로 포함시켰을 때 초록/표제시스템이 전문검색시스템보다 모든 적합성판정세트에서 검색효율성의 증가율이 높았고, 반면에 전문검색시스템에서는 “조금 적합한” 문헌을 적합문헌그룹에서 제외시켰을 때 검색효율성의 증가율이 일관성 있게 높아지는 것을 발견하였다. 이는 전문검색시스템에서는 적합문헌으로 포함된 “조금 적합한” 문헌으로부터 얻어지는 적합성피드백 정보는 잡음의 역할을 하게 되어 검색효율성의 증진에 도움이 안 되고 있음을 암시하고 있다. 특히, 매우 동질적인 문헌을 색인 및 검색대상으로 하고 있는 전문검색시스템에서는 잡음에 의해 초래되는 낮은 정확률을 개선하는 정교한 검색기법에 대한 연구가 지속되어야만 한다.

Abstract

This study examined the relative retrieval effectiveness after relevance feedback between two systems (Title/Abstract and Full-text) using four different sets of relevance judgment. Four relevance levels (not relevant, marginally relevant, relevant, highly relevant) are also used, each of which is determined by referees giving a relevance score to documents. This study also investigated how much the average precision was improved after relevance feedback when “marginally relevant” documents are included in the relevant class with the Title/Abstract system, and with the Full-text retrieval system as well. It is found that the Title/Abstract system benefited from relevance feedback with the marginally relevant documents. In case of the Title/Abstract system, the higher percentage of improvement was consistently obtained when including the marginally relevant documents in the relevance class, however the result was vice versa in case of the Full-text retrieval system. It implied that the marginally relevant documents in the relevant class had caused noises in the Full-text retrieval system.

4
변영태(홍익대학교) ; 황상규(홍익대학교) ; 정찬기(국방대학교) 2010, Vol.27, No.4, pp.33-47 https://doi.org/10.3743/KOSIM.2010.27.4.033
초록보기
초록

정보기술혁명 및 네트워크 기반 정보공유 대중화는 국방 분야 디지털콘텐츠 수를 증가시켰다. 이에 따라 급격하게 그 수가 증가한 장기 보존된 디지털화된 공공정보 가운데 사용자 본인에게 적합한 공공정보를 찾는 것은 매우 중요한 문제로 대두되고 있다. 디지털콘텐츠는 원 자료의 출처 및 생산 시기에 따라 그 형태가 매우 다양하고, 디지털콘텐츠 간에는 많은 상호 연관 관계가 존재한다. 비즈니스 서비스 온톨로지는 공공분야 디지털 아카이브 정보 생산자와 정보 이용자 간의 상호 지식을 명시화하고 지식을 공유할 수 있는 방안을 제공함으로써 디지털 공공정보 검색능력을 증진시키는데 많은 도움을 줄 수 있다. 비즈니스 서비스 온톨로지는 정보 생산자와 정보 이용자 간의 교량과 같은 인터페이스 역할을 수행하는 것이다. 그러나 업무 처리절차에 대한 의미 지식 추출의 어려움으로 인하여, 비정형의 업무 활동들로부터 정형화된 비즈니스 서비스로의 매핑 정보를 제공하는 비즈니스 서비스 온톨로지 자동화는 실용화하기가 매우 힘든 실정이다. 이러한 문제점을 해결하고자 본 연구에서는 비즈니스 서비스 온톨로지 구축을 위한 첫 단계로써 전사적 아키텍처(ITA/EA)로부터 단위 비즈니스 서비스 식별 자동화 방안을 제안한다.

Abstract

The growth of IT technology and the popularity of network based information sharing increase the number of digital contents in military area. Thus, there arise issues of finding suitable public information with the growing number of long-term preservation of digital public information. According to the source of raw data and the time of compilation may be variable and there can be existed in many correlations about digital contents. The business service ontology makes knowledge explicit and allows for knowledge sharing among information provider and information consumer for public digital archive engaged in improving the searching ability of digital public information. The business service ontology is at the interface as a bridge between information provider and information consumer. However, according to the difficulty of semantic knowledge extraction for the business process analysis, it is hard to realize the automation of constructing business service ontology for mapping from unformed activities to a unit of business service. To solve the problem, we propose a new business service auto-acquisition method for the first step of constructing a business service ontology based on Enterprise Architecture.

초록보기
초록

본 연구에서는 웹 환경에서의 학습 방법이 학생들의 정보검색 및 정보종합 능력에 어떠한 영향을 미치는가를 규명하고자 하였다. 본 연구의 결과는 다음과 같다. 첫째, 과제 중심형 학습 집단이 기법 중심형 학습 집단보다 정보검색 능력 중 정보성취도 검사점수가 높게 나타났으며, 통계적으로 유의미한 차이를 보였다 (t=3.59, p〈.05). 둘째, 네이버 국내 웹 1차 검색 (재현율 t=1.81, 정확율 t=.61)에서 과제 중심형 학습 집단과 기법 중심형 학습 집단간에 재현율과 정확율 모두 유의미한 차이가 없었다 (p〉.05). 그러나 2차 검색 (재현율 t=2.93, 정확율 t=2.45)과 3차 검색 (재현율 t=3.48, 정확율 t=2.50)에서는 과제중심형 학습 집단이 기법 중심형 학습 집단보다 재현율과 정확율이 높게 나타났으며, 통계적으로 유의미한 차이를 보였다 (p〈.05). 셋째, 과제 중심형 학습 집단과 기법 중심형 학습 집단은 정보종합 능력의 검사 점수 차이가 통계적으로 유의미하지 않았다 (t=1.95, p〉.05). 위 실험 결과를 종합해 보면, 인터넷에서 정보를 검색하는 경우에 과제에 대한 분석과 그에 알맞는 정보검색 기법을 적용하는 것이 중요하다. 기법에 의존하기보다는 과제를 분석하고 그에 알맞는 검색을 수행해야 한다. 또 정보 이용 교육이 정보검색 수준에서 머무르는 것이 아니라, 정보검색과 정보종합에 관한 교육이 정보 문제 해결의 맥락에서 이루어져야 할 것이다.

Abstract

The purpose of this study is to investigate the effects of learning methods on students'''' information retrieval and information synthesis capability in web. This is an experimental study comparing the two different learning methods as task-based learning and technic-based learning. The findings of this study were as follows: 1. The task-based learning was more effective than the technic-based learning in information achievements as information retrieval capability (t= 3.59, p〈.05). 2. In the 1st retrieval (recall ratio t=1.81 precision ratio t=.61) of Naver Korean Web Retrieval, there was no significant difference (p〉.05). In the 2nd retrieval (recall ratio t=2.93 precision ratio t=2.45) and 3rd retrieval (recall ratio t=3.48 precision ratio t= 2.50), the task-based group was more effective than the technic-based group (p〈.05). 3. There was no significant difference in students'''' information synthesis capability between the task-based learning and technic-based learning (t= 1.95, p〉.05). The findings of this study suggest that the task-based learning approach is more effective to improve students'''' information literacy, and that professionals should consider better instructional principles for the improvement of instructional quality.

6
백우진(건국대학교) ; Sun-Eun Jung(Konkuk U) ; Euigun Ahn(Yonsei U) ; 김기용(건국대학교) ; 신문선(건국대학교) 2008, Vol.25, No.2, pp.49-68 https://doi.org/10.3743/KOSIM.2008.25.2.049
초록보기
초록

Abstract

In many information retrieval experiments, the data fusion techniques have been used to achieve higher effectiveness in comparison to the single evidence-based retrieval. However, there had not been many image retrieval studies using the data fusion techniques especially in combining retrieval results based on multiple retrieval methods. In this paper, we describe how the image retrieval effectiveness can be improved by combining two sets of the retrieval results using the Sobel operator-based edge detection and the Self Organizing Map(SOM) algorithms. We used the clip art images from a commercial collection to develop a test data set. The main advantage of using this type of the data set was the clear cut relevance judgment, which did not require any human interven- tion.

초록보기
초록

Abstract

The ability of the searcher to express their information problem to an information retrieval system is fundamental to the retrieval process. Query by visual example is the principal query paradigm for expressing queries in a content-based image retrieval environment yet there is little empirical evidence to support its efficacy in facilitating query formulation. The aim of this research was to investigate the usability of the query by colour method in supporting a range of information problems in order to contribute to the gap in knowledge regarding the relationship between searchers’ information problems and the query methods required to support efficient and effective visual query formulation. The results strongly suggest that the query method does not support visual query formulation and that there is a significant mismatch between the searchers information problems and the expressive power of the retrieval paradigm.

8
백우진(건국대학교) ; 이재준(인하대학교) ; 함은미(건국대학교) ; 신문선(안양대학교) ; 신민기(건국대학교) ; 안의건(연세대학교) 2007, Vol.24, No.3, pp.321-341 https://doi.org/10.3743/KOSIM.2007.24.3.321
초록보기
초록

산업재산권중 하나인 상표에 대한 효율적인 이미지 검색은 상표도용 및 이로 인한 분쟁을 방지할 수 있다. 이를 위해서 효율적인 내용기반 유사이미지 검색이 하나의 방안이 될 수 있다. 본 논문은 상표이미지로부터 회색조 히스토그램(gray histogram) 분석을 통하여 가시적인 자질을 추출하여 Self Organizing Map(SOM) 알고리즘을 적용한 내용기반 유사이미지 검색시스템을 이용하는 방법을 제안하였다. 또한 내용기반 유사이미지 검색시스템의 정량적인 성능평가 방안을 제시하여 본 연구에서 개발한 이미지 검색 시스템의 객관적인 성능평가를 수행하였다.

Abstract

It will be possible to prevent the infringement of the trademarks and the insueing disputes regarding the originality of the trademarks by using an efficient content-based trademark image retrieval system. In this paper, we describe a content-based image retrieval system using the Self Organizing Map(SOM) algorithm. The SOM algorithm utilizes the visual features, which were derived from the gray histogram representation of the images. In addition, we made the objective effectiveness evaluation possible by coming up with a quantitative measure to gauge the effectiveness of the content-based image retrieval system.

초록보기
초록

기계가 정보의 의미를 이해하고 처리할 수 있도록 기존의 웹을 확장하는 것을 목적으로 하는 시멘틱 웹은 온톨로지를 이용하여 지식을 공유하게 된다. 본 논문에서는 정교한 질의의 처리를 위하여 온톨로지 내에 존재하는 의미 관계들을 질의의 확장을 위한 연관피드백 정보로 이용하는 방안을 제안한다. 실험은 도메인 온톨로지인 Medicine 온톨로지를 대상으로 하였으며, 출현 용어들의 빈도정보만을 이용한 키워드기반 문서검색과 제안한 온톨로지기반 문서검색의 성능을 비교하였다. 이 때, 두 시스템의 정확률과 재현율을 성능 평가의 기준으로 삼았다. 그 결과, 검색 엔진은 온톨로지에 정의된 개념들과 규칙들을 활용하면서 검색의 정확률을 향상시키는데 도움이 되었고 검색 성능을 향상시키기 위한 추론의 기반으로도 사용될 수 있었다.

Abstract

For the purpose of extending the Web that is able to understand and process information by machine, Semantic Web shared knowledge in the ontology form. For exquisite query processing, this paper proposes a method to use semantic relations in the ontology as relevance feedback information to query expansion. We made experiment on pharmacy domain. And in order to verify the effectiveness of the semantic relation in the ontology, we compared a keyword based document retrieval system that gives weights by using the frequency information compared with an ontology based document retrieval system that uses relevant information existed in the ontology to a relevant feedback. From the evaluation of the retrieval performance, we knew that search engine used the concepts and relations in ontology for improving precision effectively. Also it used them for the basis of the inference for improvement the retrieval performance.

초록보기
초록

의견 검색은 사용자의 정보 요구에 주제적으로 연관되면서도 의견이 포함되어 있는 정보를 검색하는 태스크이다. 본 연구는 효과적인 의견 검색을 위해 사용자 정보 요구를 표현하는 방법과 이 요구를 만족시킬만한 여러 의견 자질들을 효과적으로 결합할 수 있는 방법에 대하여 실험을 통해 분석하였다. 본 실험에서는 추론 네트워크 모델을 기본 검색 모델로 사용하였고, Blogs06 컬렉션과 100개의 TREC 토픽에 대해 실험을 수행하였다. 실험 결과, 가상의 ‘의견’ 개념을 설정하여 효과적으로 의견 검색의 정보 요구를 표현할 수 있었으며, 극히 소량의 일반 의견 단어집만을 사용했는데도 동일한 환경에서 기존 모델과 견줄 만한 의견 검색 성능을 달성할 수 있었다.

Abstract

Opinion retrieval is to retrieve items which are relevant to the user information need topically and include opinion about the topic. This paper aims to find a method to represent user information need for effective opinion retrieval and to analyze the combination methods for opinion features through various experiments. The experiments are carried out in the inference network framework using the Blogs06 collection and 100 TREC test topics. The results show that our suggested representation method based on hidden ‘opinion’ concept is effective, and the compact model with very small opinion lexicon shows the comparable performance to the previous model on the same test data set.

정보관리학회지