바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: divergence, 검색결과: 2
초록보기
초록

이 연구에서는 분포 유사도를 문헌 클러스터링에 적용하여 전통적인 코사인 유사도 공식을 대체할 수 있는 가능성을 모색해보았다. 대표적인 분포 유사도인 KL 다이버전스 공식을 변형한 Jansen-Shannon 다이버전스, 대칭적 스큐 다이버전스, 최소 스큐 다이버전스의 세 가지 공식을 문헌 벡터에 적용하는 방안을 고안하였다. 분포 유사도를 적용한 문헌 클러스터링 성능을 검증하기 위해서 세 실험 집단을 대상으로 두 가지 실험을 준비하여 실행하였다. 첫 번째 문헌 클러스터링 실험에서는 최소 스큐 다이버전스가 코사인 유사도 뿐만 아니라 다른 다이버전스 공식의 성능도 확연히 앞서는 뛰어난 성능을 보였다. 두 번째 실험에서는 피어슨 상관계수를 이용하여 1차 유사도 행렬로부터 2차 분포 유사도를 산출하여 문헌 클러스터링을 수행하였다. 실험 결과는 2차 분포 유사도가 전반적으로 더 좋은 문헌 클러스터링 성능을 보이는 것으로 나타났다. 문헌 클러스터링에서 처리 시간과 분류 성능을 함께 고려한다면 이 연구에서 제안한 최소 스큐 다이버전스 공식을 사용하고, 분류 성능만 고려할 경우에는 2차 분포 유사도 방식을 사용하는 것이 바람직하다고 판단된다.

Abstract

In this study, measures of distributional similarity such as KL-divergence are applied to cluster documents instead of traditional cosine measure, which is the most prevalent vector similarity measure for document clustering. Three variations of KL-divergence are investigated; Jansen-Shannon divergence, symmetric skew divergence, and minimum skew divergence. In order to verify the contribution of distributional similarities to document clustering, two experiments are designed and carried out on three test collections. In the first experiment the clustering performances of the three divergence measures are compared to that of cosine measure. The result showed that minimum skew divergence outperformed the other divergence measures as well as cosine measure. In the second experiment second-order distributional similarities are calculated with Pearson correlation coefficient from the first-order similarity matrixes. From the result of the second experiment, second-order distributional similarities were found to improve the overall performance of document clustering. These results suggest that minimum skew divergence must be selected as document vector similarity measure when considering both time and accuracy, and second-order similarity is a good choice for considering clustering accuracy only.

초록보기
초록

대출데이터는 대학도서관에 축적된 중요한 데이터로서 도서관 장서개발이나 서비스 개선에 활용될 수 있는 중요한 데이터이다. 이 연구는 대출빈도를 기반으로 한 다양한 대출관련지수를 비교분석하여 지수별 특성을 파악한 후 도서관 운영에 적용할 수 있는 타당성을 평가하고자 하였다. A 대학도서관의 10개 단과대학별 대출데이터를 대상으로 비교분석한 지수는 대출빈도, 대출엔트로피, 대출 h-지수, 대출주제차별지수 등 총 4개의 지수이다. 이 지수들을 적용하여 단과대학별 대출현황을 분석하였고 단과대학별로 나타나는 대출주제의 특성을 표하는 각 지수의 특성을 비교 분석하였다. 분석 결과 대출 엔트로피는 여러 대학이 공통으로 선호하는 주제를 표현하는 성향이 있는 것으로 나타났다. 반면 대출주제차별지수는 특정대학에서만 특화되어 대출되는 주제를 표현하는 성향이 있는 것으로 나타났다.

Abstract

Circulation data is a key data set of academic libraries in terms of collection development and service improvement This study aims to identify the characteristics of circulation measures and their feasibility. This study collected the circulation data of 10 colleges in a university and analyzed 4 measures based on the circulation data: circulation frequency, circulation entropy, circulation h-index, and circulation divergence. These measures are to present the circulation topics of each college. This study identified that circulation entropy tends to present general topics which are popular for many colleges, but circulation divergence tends to present specific topics which are preferred by a specific college.

정보관리학회지