바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: test collections, 검색결과: 3
초록보기
초록

역문헌빈도 가중치 기법은 문헌 집단에서 출현빈도가 낮을수록 색인어의 중요도가 높다는 가정에 근거하고 있다. 그런데 이는 중간빈도어를 중요하게 여기는 여타 이론과는 일치하지 않는 것이다. 이 연구에서는 저빈도어보다 중간빈도어가 더 중요하다는 가정에 근거하여 역문헌빈도 가중치 공식을 수정한 피벗 역문헌빈도 가중치 기법을 제안하였다. 제안된 기법을 검증하기 위해서 세 실험집단을 대상으로 검색실험을 수행한 결과. 피벗 역문헌빈도 가중치기법이 역문헌빈도 가중치 기법에 비해서 특히 검색결과 상위에서의 성능을 향상시키는 것으로 나타났다.

Abstract

The Inverse Document Frequency (IDF) weighting method is based on the hypothesis that in the document collection the lower the frequency of a term is, the more important the term is as a subject word. This well-known hypothesis is, however, somewhat questionable because some low frequency terms turn out to be insufficient subject words. This study suggests the pivoted IDF weighting method for better retrieval effectiveness, on the assumption that medium frequency terms are more important than low frequency terms. We thoroughly evaluated this method on three test collections and it showed performance improvements especially at high ranks.

2
이재윤(명지대학교) 2016, Vol.33, No.3, pp.7-29 https://doi.org/10.3743/KOSIM.2016.33.3.007
초록보기
초록

연구자 성과 평가를 위해 널리 사용되는 h-지수는 일관성 부족 문제와 공저자 수를 고려하지 않는다는 문제를 가지고 있다. 이를 극복하기 위해 h-지수와 g-지수, 그리고 공저 보정 방안을 검토하고 2004년부터 2013년 사이의 실제 KCI 데이터를 대상으로 분석해본 결과는 다음과 같다. 첫째, 일관성 결여 문제를 해소하기 위해서는 g-지수를 사용하는 것이 더 바람직하다고 판단된다. 둘째, 연구 성과의 양적인 측면과 질적인 측면을 한꺼번에 반영하는 복합 지수라는 h-지수와 g-지수의 고유한 특성을 유지하기 위해서는 반드시 공저를 보정하여 지수를 측정해야 한다. 셋째, 공저자 수로 나눈 인용빈도를 사용하는 hC-지수와 gC-지수를 적용하면 단독 저술 비중이 높은 인문학 분야 연구자도 공정하게 평가할 수 있고, 특정 분야나 특정 기관에 속한 연구자가 상위 순위를 과점하는 현상을 방지할 수 있다.

Abstract

The h-index is a popular bibliometric indicator for evaluating individual researchers. However, it has been criticized for its inconsistency with reflecting increased number of citations and disregarding the number of co-authors in a paper. In order to overcome these problems, we examined the g-index and other Hirsch-type indices considering the number of co-authors. Test data collection was extracted from Korean Citation Index database published from 2004 to 2013. The results of this study are as follows: First, g-index is more reliable indicator than h-index with consistency. Second, number of co-authors must be considered to maintain the h-index as an complex indicator applying the quality and the quantity of research performance. Finally, hc-index and gc-index, with fractionalised counting of the papers, can fairly measure the research performance of humanities researchers, and successfully prevent specific disciplines or institutions occupying majority of top rankings.

초록보기
초록

이 연구에서는 분포 유사도를 문헌 클러스터링에 적용하여 전통적인 코사인 유사도 공식을 대체할 수 있는 가능성을 모색해보았다. 대표적인 분포 유사도인 KL 다이버전스 공식을 변형한 Jansen-Shannon 다이버전스, 대칭적 스큐 다이버전스, 최소 스큐 다이버전스의 세 가지 공식을 문헌 벡터에 적용하는 방안을 고안하였다. 분포 유사도를 적용한 문헌 클러스터링 성능을 검증하기 위해서 세 실험 집단을 대상으로 두 가지 실험을 준비하여 실행하였다. 첫 번째 문헌 클러스터링 실험에서는 최소 스큐 다이버전스가 코사인 유사도 뿐만 아니라 다른 다이버전스 공식의 성능도 확연히 앞서는 뛰어난 성능을 보였다. 두 번째 실험에서는 피어슨 상관계수를 이용하여 1차 유사도 행렬로부터 2차 분포 유사도를 산출하여 문헌 클러스터링을 수행하였다. 실험 결과는 2차 분포 유사도가 전반적으로 더 좋은 문헌 클러스터링 성능을 보이는 것으로 나타났다. 문헌 클러스터링에서 처리 시간과 분류 성능을 함께 고려한다면 이 연구에서 제안한 최소 스큐 다이버전스 공식을 사용하고, 분류 성능만 고려할 경우에는 2차 분포 유사도 방식을 사용하는 것이 바람직하다고 판단된다.

Abstract

In this study, measures of distributional similarity such as KL-divergence are applied to cluster documents instead of traditional cosine measure, which is the most prevalent vector similarity measure for document clustering. Three variations of KL-divergence are investigated; Jansen-Shannon divergence, symmetric skew divergence, and minimum skew divergence. In order to verify the contribution of distributional similarities to document clustering, two experiments are designed and carried out on three test collections. In the first experiment the clustering performances of the three divergence measures are compared to that of cosine measure. The result showed that minimum skew divergence outperformed the other divergence measures as well as cosine measure. In the second experiment second-order distributional similarities are calculated with Pearson correlation coefficient from the first-order similarity matrixes. From the result of the second experiment, second-order distributional similarities were found to improve the overall performance of document clustering. These results suggest that minimum skew divergence must be selected as document vector similarity measure when considering both time and accuracy, and second-order similarity is a good choice for considering clustering accuracy only.

정보관리학회지