바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 내용검색, 검색결과: 2
1
정영미(연세대학교) ; 이용구(계명대학교) 2005, Vol.22, No.2, pp.125-145 https://doi.org/10.3743/KOSIM.2005.22.2.125
초록보기
초록

이 연구에서는 문헌 및 질의의 내용을 대표하는 주제어의 중의성 해소를 위해 대표적인 지도학습 모형인 나이브 베이즈 분류기와 비지도학습 모형인 EM 알고리즘을 각각 적용하여 검색 실험을 수행한 다음, 주제어의 중의성 해소를 통해 검색 성능의 향상을 가져올 수 있는지를 평가하였다. 실험문헌 집단은 약 12만 건에 달하는 한국어 신문기사로 구성하였으며, 중의성 해소 대상 단어로는 한국어 동형이의어 9개를 선정하였다. 검색 실험에는 각 중의성 단어를 포함하는 18개의 질의를 사용하였다. 중의성 해소 실험 결과 나이브 베이즈 분류기는 최적의 조건에서 평균 92%의 정확률을 보였으며, EM 알고리즘은 최적의 조건에서 평균 67% 수준의 클러스터링 성능을 보였다. 중의성 해소 알고리즘을 통합한 의미기반 검색에서는 나이브 베이즈 분류기 통합 검색이 약 39.6%의 정확률을 보였고, EM 알고리즘 통합 검색이 약 36%의 정확률을 보였다. 중의성 해소 모형을 적용하지 않은 베이스라인 검색의 정확률 37%와 비교하면 나이브 베이즈 통합 검색은 약 7.4%의 성능 향상률을 보인 반면 EM 알고리즘 통합 검색은 약 3%의 성능 저하율을 보였다.

Abstract

This paper presents a semantic vector space retrieval model incorporating a word sense disambiguation algorithm in an attempt to improve retrieval effectiveness. Nine Korean homonyms are selected for the sense disambiguation and retrieval experiments. The total of approximately 120,000 news articles comprise the raw test collection and 18 queries including homonyms as query words are used for the retrieval experiments. A Naive Bayes classifier and EM algorithm representing supervised and unsupervised learning algorithms respectively are used for the disambiguation process. The Naive Bayes classifier achieved 92% disambiguation accuracy, while the clustering performance of the EM algorithm is 67% on the average. The retrieval effectiveness of the semantic vector space model incorporating the Naive Bayes classifier showed 39.6% precision achieving about 7.4% improvement. However, the retrieval effectiveness of the EM algorithm-based semantic retrieval is 3% lower than the baseline retrieval without disambiguation. It is worth noting that the performances of disambiguation and retrieval depend on the distribution patterns of homonyms to be disambiguated as well as the characteristics of queries.

초록보기
초록

웹, XML, EAD 등을 포함한 새로운 기술과 기술(description)도구의 출현으로 기존의 도서관자료와 기록물을 통합 관리할 수 있고, 정보교환을 위한 다양한 검색보조도구를 모두 수용할 수 있는 내용표준에 대한 필요성이 부각되고 있다. 이에 본 연구에서는 기록물업계의 국제적 동향을 반영하여 ISAD(G) 및 ISAAR(CPF)와 조화를 이루고, MARC과 EAD 등 다양한 검색보조도구의 데이터구조 표현을 수용할 수 있도록 제정된 DACS와 기존의 기술규칙인 APPM2를 비교분석하였다. 분석결과를 토대로 우리나라 기록물 기술규칙 제정시 고려해야 할 사항들을 제시하였다.

Abstract

The advent of new technologies and descriptive tools, including the Web, XML, and EAD, have highlighted the necessity of content standard which can integrate and manage to library materials and archives and accommodate various finding aids for information exchange. This research analyzes both APPM2 and DACS. The former is an old established description rule. On the other hand, the latter keeps step with ISAD(G) and ISAAR(CPF) as adopting the international trend of archives and is able to describe the data structure of a variety of finding aids including MARC, EAD, etc. As a result, it presents the points to take into consideration as making descriptive rules about our archives.

정보관리학회지