바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

  • P-ISSN1013-0799
  • E-ISSN2586-2073

지도적 잠재의미색인(LSI)기법을 이용한 의견 문서 자동 분류에 관한 실험적 연구

An Experimental Study on Opinion Classification Using Supervised Latent Semantic Indexing(LSI)

정보관리학회지, (P)1013-0799; (E)2586-2073
2009, v.26 no.3, pp.451-462
https://doi.org/10.3743/KOSIM.2009.26.3.451
이지혜 (연세대학교)
정영미 (연세대학교)

  • 다운로드 수
  • 조회수

초록

본 연구에서는 의견이나 감정을 담고 있는 의견 문서들의 자동 분류 성능을 향상시키기 위하여 개념색인의 하나인 잠재의미색인 기법을 사용한 분류 실험을 수행하였다. 실험을 위해 수집한 1,000개의 의견 문서는 500개씩의 긍정 문서와 부정 문서를 포함한다. 의견 문서 텍스트의 형태소 분석을 통해 명사 형태의 내용어 집합과 용언, 부사, 어기로 구성되는 의견어 집합을 생성하였다. 각기 다른 자질 집합들을 대상으로 의견 문서를 분류한 결과 용어색인에서는 의견어 집합, 잠재의미색인에서는 내용어와 의견어를 통합한 집합, 지도적 잠재의미색인에서는 내용어 집합이 가장 좋은 성능을 보였다. 전체적으로 의견 문서의 자동 분류에서 용어색인 보다는 잠재의미색인 기법의 분류 성능이 더 좋았으며, 특히 지도적 잠재의미색인 기법을 사용할 경우 최고의 분류 성능을 보였다.

Abstract

The aim of this study is to apply latent semantic indexing(LSI) techniques for efficient automatic classification of opinionated documents. For the experiments, we collected 1,000 opinionated documents such as reviews and news, with 500 among them labelled as positive documents and the remaining 500 as negative. In this study, sets of content words and sentiment words were extracted using a POS tagger in order to identify the optimal feature set in opinion classification. Findings addressed that it was more effective to employ LSI techniques than using a term indexing method in sentiment classification. The best performance was achieved by a supervised LSI technique.

참고문헌

1

정영미. (2005). 정보검색연구:구미무역출판부.

2

황재원. (2008). 감정 분류를 위한 한국어 감정 자질 추출 기법과 감정 자질의 유용성 평가. 인지과학, 19(4), 499-517.

3

Chakraborti, S. (2006). Sprinkling: supervised Latent Semantic Indexing. Lecture Notes in Computer Science, 3936, 510-514.

4

Chaovalit, P. (2005). Movie Re- view Mining: a comparison between supervised and unsupervised classification approaches (-). Proc. of the 38th Annual Hawaii International Conference on System Sciences.

5

Cui, H. (2006). Comparative experiments on sentiment classification for online product re- views (1265-1270). Proc. of the 21st National Conference on Artificial Intelligenc.

6

Dave, K. (2003). Mining the peanut gallery: Opinion extraction and semantic classification of product reviews (519-528). Proc. of the 12th International Conference on World Wide Web.

7

Ding, C. H. Q. (1999). A similarity-based probability model for Latent Semantic Indexing (59-65). Proc. of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.

8

Dumais, S. T. (1993). LSI meets TREC: A status report (137-152). Proc. of the 1st Text REtrieval Conference(TREC-1).

9

Liu, Bing.. (2007). Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data:Springer.

10

Pang, Bo. (2002). Thumbs up? Senti- ment classification using machine lear- ning techniques (79-86). Proc. of the ACL-02 Conference on Empirical Methods in Natural Language Processing.

11

Pang, Bo. (2004). A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts (271-278). Pro. of the 42nd An- nual Meeting of the Association for Computational Linguistics.

12

Turney, P. (2002). Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews (417-424). Proc. of the 40th annual meeting of the Association for Computational Linguistics.

13

Wilson, T. (2004). Just how mad are you? Finding strong and weak opinion clauses (761-767). Proc. of the 2004 National Conference on Association for the Advancement of Artificial Intelligence.

14

Yang, Y. (1997). A com- parative study on feature selection in text categorization (412-420). Proc. of the 14th International Conference on Machine Learning.

15

Yu, H. (2003). Towards answering opinion questions: Separating facts from opinions and identifying the polarity of opinion sentences (129-136). Proc. of the 8th Conference on Empirical Methods in Natural Language Processing.

정보관리학회지