바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

문헌간 유사도를 이용한 SVM 분류기의 문헌분류성능 향상에 관한 연구

Improving the Performance of SVM Text Categorization with Inter-document Similarities

정보관리학회지 / Journal of the Korean Society for Information Management, (P)1013-0799; (E)2586-2073
2005, v.22 no.3, pp.261-287
https://doi.org/10.3743/KOSIM.2005.22.3.261
이재윤 (경기대학교)
  • 다운로드 수
  • 조회수

초록

이 논문의 목적은 SVM(지지벡터기계) 분류기의 성능을 문헌간 유사도를 이용해서 향상시키는 것이다. 는 문헌 벡터 자질 표현에 기반한 SVM 문헌자동분류를 제안하였다. 제안한 방식은 분류 자질로 색인어 대신 문헌 벡터를, 자질값으로 가중치 대신 벡터유사도를 사용한다. 제안한 방식에 대한 실험 결과, SVM 분류기의 성능을 향상시킬 수 있었다. 실행 효율 향상을 위해서 문헌 벡터 자질 선정 방안과 범주 센트로이드 벡터를 사용하는 방안을 제안하였다. 실험 결과 소규모의 벡터 자질 집합만으로도 색인어 자질을 사용하는 기존 방식보다 나은 성능을 얻을 수 있었다.

keywords
문헌자동분류, 문서범주화, SVM 분류기, 분류자질, 문헌유사도, automatic document classification, text categorization, SVM classifier, classificationfeatures, document similarity, automatic document classification, text categorization, SVM classifier, classificationfeatures, document similarity

Abstract

The purpose of this paper is to explore the ways to improve the performance of SVM(Support Vector Machines) text classifier using inter-document similarit ies. SVMs are powerful machine technique for automatic document classification. In this paper text categorization via SVMs aproach based on feature representation with document vectors is suggested. In this appr oach, document vectors instead stead of term weights are used as feature values. Experiments show that SVM clasifier with do cument vector features can improve the document classification performance. For the sake o f run-time efficiency, two methods are developed: One is to select document vector feature s, and the other is to use category centroid vector features instead. Experiments on these two methods show that we the performance of conventional methods with index term features.

keywords
문헌자동분류, 문서범주화, SVM 분류기, 분류자질, 문헌유사도, automatic document classification, text categorization, SVM classifier, classificationfeatures, document similarity, automatic document classification, text categorization, SVM classifier, classificationfeatures, document similarity

참고문헌

1.

(2000). 한국어 테스트 컬렉션 HANTEC의 확장및 보완. , 210-215.

2.

(2001). 지식 분류의 자동화를 위한클러스터링 모형 연구. , 203-230.

3.

(2000). SVM 분류기를 이용한 문서범주화 연구. , 229-248.

4.

(2003). “Support vector machines for textcategorization Proceedings of the 36thHawaii International Conference onSystem Sciences. , -.

5.

(2003). “Automating hierarchical documentclassification for constructionmanagement information systems Automation in Construction. , 395-406.

6.

(2000). AnIntroduction to Support VectorMachines and Other Kernel-basedLearning Methods. , -.

7.

(1998). “Inductive learningalgorithms and representations for textcategorization Proceedings of theSeventh International Conference onInformation and KnowledgeManagement. , 148-155.

8.

(1998). Proceedings of the 10th EuropeanConference on Machine Learning. , -.

9.

(2001). Using Unlabeled Data toImprove Text Classification. , -.

10.

(2002). Proceedings of theEleventh International Conference onInformation and Knowledge Management. , 659-661.

11.

(1983). Introduction to Modern InformationRetrieval. , -.

12.

(19991995). “Featureselection in SVM text categorization Proceedings of the 16th NationalConference on Artificial Intelligence The Nature of Statistical. haru, 480-99 486.

13.

(2000). Learning Theory. New York: Springer. Witten, Ian H., and Eibe Frank.. , -.

14.

(1997). “Acomparative study on feature selectionin text categorization Proceedings of theFourteenth International Conference onMachine Learning. , 412-420.

15.

(1999). Proceedings of the ACM SIGIRConference on Research andDevelopment in Information Retrieval. , 42-49.

정보관리학회지