바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

  • P-ISSN1013-0799
  • E-ISSN2586-2073

사전 정보를 이용한 단어 중의성 해소 모형에 관한 실험적 연구

An Experimental Study on an Effective Word Sense Disambiguation Model Based on Automatic Sense Tagging Using Dictionary Information

정보관리학회지, (P)1013-0799; (E)2586-2073
2007, v.24 no.1, pp.321-342
https://doi.org/10.3743/KOSIM.2007.24.1.321
이용구 (계명대학교)
정영미 (연세대학교)

  • 다운로드 수
  • 조회수

초록

이 연구에서는 수작업 태깅없이 기계가독형 사전을 이용하여 자동으로 의미를 태깅한 후 학습데이터로 구축한 분류기에 대해 의미를 분류하는 단어 중의성 해소 모형을 제시하였다. 자동 태깅을 위해 사전 추출 정보 기반 방법과 연어 공기 기반 방법을 적용하였다. 실험 결과, 자동 태깅에서는 복수 자질 축소를 적용한 사전 추출 정보 기반 방법이 70.06%의 태깅 정확도를 보여 연어 공기 기반 방법의 56.33% 보다 24.37% 향상된 성능을 가져왔다. 사전 추출 정보 기반 방법을 이용한 분류기의 분류 정학도는 68.11%로서 연어 공기 기반 방법의 62.09% 보다 9.7% 향상된 성능을 보였다. 또한 두 자동 태깅 방법을 결합한 결과 태깅 정확도는 76.09%, 분류 정확도는 76.16%로 나타났다.

Abstract

This study presents an effective word sense disambiguation model that does not require manual sense tagging process by automatically tagging the right sense using a machine-readable dictionary, and attempts to classify the senses of those words using a classifier built from the training data. The automatic tagging technique was implemnted by the dictionary information-based and the collocation co-occurrence-based methods. The dictionary information-based method that applied multiple feature selection showed the tagging accuracy of 70.06%, and the collocation co-occurrence-based method 56.33%. The sense classifier using the dictionary information-based tagging method showed the classification accuracy of 68.11%, and that using the collocation co-occurrence-based tagging method 62.09%. The combined tagging method applying data fusion technique achieved a greater performance of 76.09% resulting in the classification accuracy of 76.16%.

참고문헌

1

(1999). 표준국어대사전. , -.

2

(1998). 연세한국어사전. , -.

3

(2005). 정보검색 성능 향상을 위한 단어 중의성 해소모형에 관한 연구. 22(2), 125-145.

4

(1996). Word sense disambiguation using conceptual density. , 16-22.

5

(2001). SENSEVAL-2: Overview. , 1-5.

6

A Method for Disambiguating Word Sense in a Large Corpus. , 415-439.

7

Estimating upper and lower bounds on the performance of word sense disambiguation Programs Proceedings of the 30th Annual Meeting of the Association for Computational Linguistics. , 249-256.

8

Proceedings of the Speech and Natural Language Workshop. , 233-237.

9

A method for disambiguating word senses in a large corpus. , 5 415-6 439.

10

(2000). English Framework and Results. 34(1-2), 1 -13.

11

Proceedings of the 12th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. , -136.

12

(m.1986). How to Tell a Pine Cone from an Ice Cream Cone Proceedings of the 1986 SIGDOC Conference. , 24-26.

13

(1999). Foundations of Statistical Natural Language Processing. , -.

14

(1995). Disambiguating Noun Groupings with Respect to WordNet Senses. , 54-68.

15

(2003). Word Sense Disambiguation: the Case for Combinations for Knowledge Sources. , -.

16

(454-460.). Word sense disambiguation using statistical models of Roget's categories trained on large corpora. , -.

17

(266-271.). One sense per collocation. , -.

18

(1995). Unsupervised word sense disambiguation rivaling supervised methods. , 189-196.

정보관리학회지