바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 문헌분류, 검색결과: 3
초록보기
초록

이 논문의 목적은 SVM(지지벡터기계) 분류기의 성능을 문헌간 유사도를 이용해서 향상시키는 것이다. 는 문헌 벡터 자질 표현에 기반한 SVM 문헌자동분류를 제안하였다. 제안한 방식은 분류 자질로 색인어 대신 문헌 벡터를, 자질값으로 가중치 대신 벡터유사도를 사용한다. 제안한 방식에 대한 실험 결과, SVM 분류기의 성능을 향상시킬 수 있었다. 실행 효율 향상을 위해서 문헌 벡터 자질 선정 방안과 범주 센트로이드 벡터를 사용하는 방안을 제안하였다. 실험 결과 소규모의 벡터 자질 집합만으로도 색인어 자질을 사용하는 기존 방식보다 나은 성능을 얻을 수 있었다.

Abstract

The purpose of this paper is to explore the ways to improve the performance of SVM(Support Vector Machines) text classifier using inter-document similarit ies. SVMs are powerful machine technique for automatic document classification. In this paper text categorization via SVMs aproach based on feature representation with document vectors is suggested. In this appr oach, document vectors instead stead of term weights are used as feature values. Experiments show that SVM clasifier with do cument vector features can improve the document classification performance. For the sake o f run-time efficiency, two methods are developed: One is to select document vector feature s, and the other is to use category centroid vector features instead. Experiments on these two methods show that we the performance of conventional methods with index term features.

2
정영미(연세대학교) ; 이용구(계명대학교) 2005, Vol.22, No.2, pp.125-145 https://doi.org/10.3743/KOSIM.2005.22.2.125
초록보기
초록

이 연구에서는 문헌 및 질의의 내용을 대표하는 주제어의 중의성 해소를 위해 대표적인 지도학습 모형인 나이브 베이즈 분류기와 비지도학습 모형인 EM 알고리즘을 각각 적용하여 검색 실험을 수행한 다음, 주제어의 중의성 해소를 통해 검색 성능의 향상을 가져올 수 있는지를 평가하였다. 실험문헌 집단은 약 12만 건에 달하는 한국어 신문기사로 구성하였으며, 중의성 해소 대상 단어로는 한국어 동형이의어 9개를 선정하였다. 검색 실험에는 각 중의성 단어를 포함하는 18개의 질의를 사용하였다. 중의성 해소 실험 결과 나이브 베이즈 분류기는 최적의 조건에서 평균 92%의 정확률을 보였으며, EM 알고리즘은 최적의 조건에서 평균 67% 수준의 클러스터링 성능을 보였다. 중의성 해소 알고리즘을 통합한 의미기반 검색에서는 나이브 베이즈 분류기 통합 검색이 약 39.6%의 정확률을 보였고, EM 알고리즘 통합 검색이 약 36%의 정확률을 보였다. 중의성 해소 모형을 적용하지 않은 베이스라인 검색의 정확률 37%와 비교하면 나이브 베이즈 통합 검색은 약 7.4%의 성능 향상률을 보인 반면 EM 알고리즘 통합 검색은 약 3%의 성능 저하율을 보였다.

Abstract

This paper presents a semantic vector space retrieval model incorporating a word sense disambiguation algorithm in an attempt to improve retrieval effectiveness. Nine Korean homonyms are selected for the sense disambiguation and retrieval experiments. The total of approximately 120,000 news articles comprise the raw test collection and 18 queries including homonyms as query words are used for the retrieval experiments. A Naive Bayes classifier and EM algorithm representing supervised and unsupervised learning algorithms respectively are used for the disambiguation process. The Naive Bayes classifier achieved 92% disambiguation accuracy, while the clustering performance of the EM algorithm is 67% on the average. The retrieval effectiveness of the semantic vector space model incorporating the Naive Bayes classifier showed 39.6% precision achieving about 7.4% improvement. However, the retrieval effectiveness of the EM algorithm-based semantic retrieval is 3% lower than the baseline retrieval without disambiguation. It is worth noting that the performances of disambiguation and retrieval depend on the distribution patterns of homonyms to be disambiguated as well as the characteristics of queries.

3
김정현(전남대학교) ; 배주연(전남대학교) 2005, Vol.22, No.4, pp.5-22 https://doi.org/10.3743/KOSIM.2005.22.4.005
초록보기
초록

광고산업과 미디어의 발전에 따라 광고물의 증가뿐만 아니라 광고와 관련한 많은 연구가 이루어지고 있으며, 그 결과 광고 관련 자료가 꾸준히 증가하고 있는 추세이다. 그런데 KDC 광고분야의 분류체계를 살펴보면 광고관련 분류항목이 너무나 미비하며, 더욱이 주류 배치에 있어 관련 학문과의 연관성을 고려하지 않아 사서나 이용자 모두에게 혼란을 초래하고 있다. 이러한 점을 감안하여 본 연구에서는 광고의 유형 및 학문적 특성에 대해 고찰하고, KDC를 비롯한 NDC, DDC, LCC와 같은 문헌분류법 및 광고 전문도서관, 그리고 인터넷 포털사이트와 인터넷서점 등의 분류체계를 분석함으로써 KDC 광고분야의 분류체계에 대한 문제점을 알아보고 이에 대한 개선방안을 제시하였다.

Abstract

As the development of advertising industry and media the research about an advertisement get accomplished. As the result information resources called on the advertising materials are on an increasing trend. However, it looks into the classification system in advertising field of KDC, the problems are as the follows: ① the classification items are too incomplete, ② the main class is badly arranged. The reason have no regard for the correlation with a science. So, it gives rise to confusion to the librarian and user. The purpose of the study is to present the improvement plan on the classification system in advertising field of KDC. In order to build the improvement plan, the four steps are utilized. The first step is to investigate the characteristic of sciences on advertising and a type. The second one is to survey the current status of the library classification as KDC, NDC, DDC, and LCC. The third one is to analyse the classification system of library and web site on the advertising. The forth one is to grasp the problems on the classification system in advertising field of KDC.

정보관리학회지