바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: retrieval effectiveness, 검색결과: 2
1
정영미(연세대학교) ; 장지은(연세대학교) 2003, Vol.20, No.3, pp.111-127 https://doi.org/10.3743/KOSIM.2003.20.3.111
초록보기
초록

이 연구의 목적은 사건을 연구대상으로 하는 사건트래킹 기법이 과연 최신 사건 정보를 검색함에 있어 기존의 정보필터링 기법보다 성능이 우수한가를 살펴보는 데 있다. 따라서 이 연구에서는 특정 사건에 관한 최신 기사를 보다 효과적으로 검색하여 제공하는 기법을 찾아내기 위하여 kNN(k-Nearest Neighbors) 분류기를 응용한 사건트래킹 기법과 질의기반 정보필터링 기법을 사용하여 사건검색 실험을 수행한 후 두 기법의 검색 성능을 비교하였다. 사건트래킹 실험은 초기의 고정 학습문서 집합을 사용한 사건트래킹과 트래킹 과정에서 변화하는 동적 학습문서 집합을 사용한 사건트래킹의 두 가지 방법으로 수행되었다. 정보필터링 실험도 초기질의를 사용한 정보필터링과 필터링 과정에서 계속 수정되는 질의를 사용한 정보필터링의 두 가지 방법으로 수행되었다. 실험 결과 사건트래킹 기법에서는 고정 학습문서 집합을 사용한 경우가 동적 학습문서 집합을 사용한 경우보다 더 우수한 성능을 보였으며, 정보필터링 기법에서는 초기질의를 사용한 경우가 수정질의를 사용한 경우보다 더 좋은 성능을 보였다. 또한 고정 학습문서 집합을 사용한 사건트래킹과 초기질의를 사용한 정보필터링을 비교한 결과 정보필터링 기법이 사건트래킹 기법에 비해 더 좋은 사건검색 성능을 보이는 것으로 나타났다.

Abstract

The purpose of this study is to ascertain whether event tracking is more effective in event retrieval than information filtering. This study examined the two techniques for event retrieval to suggest the more effective one. The event-retrieval performances of the event tracking technique based on a kNN classifier and the query-based information filtering technique were compared. Two event tracking experiments, one with the static training set and the other with the dynamic training set, were carried out. Two information filtering experiments, one with initial queries and the other with refined queries, were also carried out to evaluate the event-retrieval effectiveness. We found that the event tracking technique with the static training set performed better than one with the dynamic training set. It was also found that the information filtering technique using intial queries performed better than one using the refined queries. In conclusion, the comparison of the best cases of event tracking and information filtering revealed that the information filtering technique outperformed the event tracking technique in event retrieval.

2
정영미(연세대학교) ; 이용구(계명대학교) 2005, Vol.22, No.2, pp.125-145 https://doi.org/10.3743/KOSIM.2005.22.2.125
초록보기
초록

이 연구에서는 문헌 및 질의의 내용을 대표하는 주제어의 중의성 해소를 위해 대표적인 지도학습 모형인 나이브 베이즈 분류기와 비지도학습 모형인 EM 알고리즘을 각각 적용하여 검색 실험을 수행한 다음, 주제어의 중의성 해소를 통해 검색 성능의 향상을 가져올 수 있는지를 평가하였다. 실험문헌 집단은 약 12만 건에 달하는 한국어 신문기사로 구성하였으며, 중의성 해소 대상 단어로는 한국어 동형이의어 9개를 선정하였다. 검색 실험에는 각 중의성 단어를 포함하는 18개의 질의를 사용하였다. 중의성 해소 실험 결과 나이브 베이즈 분류기는 최적의 조건에서 평균 92%의 정확률을 보였으며, EM 알고리즘은 최적의 조건에서 평균 67% 수준의 클러스터링 성능을 보였다. 중의성 해소 알고리즘을 통합한 의미기반 검색에서는 나이브 베이즈 분류기 통합 검색이 약 39.6%의 정확률을 보였고, EM 알고리즘 통합 검색이 약 36%의 정확률을 보였다. 중의성 해소 모형을 적용하지 않은 베이스라인 검색의 정확률 37%와 비교하면 나이브 베이즈 통합 검색은 약 7.4%의 성능 향상률을 보인 반면 EM 알고리즘 통합 검색은 약 3%의 성능 저하율을 보였다.

Abstract

This paper presents a semantic vector space retrieval model incorporating a word sense disambiguation algorithm in an attempt to improve retrieval effectiveness. Nine Korean homonyms are selected for the sense disambiguation and retrieval experiments. The total of approximately 120,000 news articles comprise the raw test collection and 18 queries including homonyms as query words are used for the retrieval experiments. A Naive Bayes classifier and EM algorithm representing supervised and unsupervised learning algorithms respectively are used for the disambiguation process. The Naive Bayes classifier achieved 92% disambiguation accuracy, while the clustering performance of the EM algorithm is 67% on the average. The retrieval effectiveness of the semantic vector space model incorporating the Naive Bayes classifier showed 39.6% precision achieving about 7.4% improvement. However, the retrieval effectiveness of the EM algorithm-based semantic retrieval is 3% lower than the baseline retrieval without disambiguation. It is worth noting that the performances of disambiguation and retrieval depend on the distribution patterns of homonyms to be disambiguated as well as the characteristics of queries.

정보관리학회지