바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 클러스터링, 검색결과: 2
초록보기
초록

이 연구에서는 분포 유사도를 문헌 클러스터링에 적용하여 전통적인 코사인 유사도 공식을 대체할 수 있는 가능성을 모색해보았다. 대표적인 분포 유사도인 KL 다이버전스 공식을 변형한 Jansen-Shannon 다이버전스, 대칭적 스큐 다이버전스, 최소 스큐 다이버전스의 세 가지 공식을 문헌 벡터에 적용하는 방안을 고안하였다. 분포 유사도를 적용한 문헌 클러스터링 성능을 검증하기 위해서 세 실험 집단을 대상으로 두 가지 실험을 준비하여 실행하였다. 첫 번째 문헌 클러스터링 실험에서는 최소 스큐 다이버전스가 코사인 유사도 뿐만 아니라 다른 다이버전스 공식의 성능도 확연히 앞서는 뛰어난 성능을 보였다. 두 번째 실험에서는 피어슨 상관계수를 이용하여 1차 유사도 행렬로부터 2차 분포 유사도를 산출하여 문헌 클러스터링을 수행하였다. 실험 결과는 2차 분포 유사도가 전반적으로 더 좋은 문헌 클러스터링 성능을 보이는 것으로 나타났다. 문헌 클러스터링에서 처리 시간과 분류 성능을 함께 고려한다면 이 연구에서 제안한 최소 스큐 다이버전스 공식을 사용하고, 분류 성능만 고려할 경우에는 2차 분포 유사도 방식을 사용하는 것이 바람직하다고 판단된다.

Abstract

In this study, measures of distributional similarity such as KL-divergence are applied to cluster documents instead of traditional cosine measure, which is the most prevalent vector similarity measure for document clustering. Three variations of KL-divergence are investigated; Jansen-Shannon divergence, symmetric skew divergence, and minimum skew divergence. In order to verify the contribution of distributional similarities to document clustering, two experiments are designed and carried out on three test collections. In the first experiment the clustering performances of the three divergence measures are compared to that of cosine measure. The result showed that minimum skew divergence outperformed the other divergence measures as well as cosine measure. In the second experiment second-order distributional similarities are calculated with Pearson correlation coefficient from the first-order similarity matrixes. From the result of the second experiment, second-order distributional similarities were found to improve the overall performance of document clustering. These results suggest that minimum skew divergence must be selected as document vector similarity measure when considering both time and accuracy, and second-order similarity is a good choice for considering clustering accuracy only.

2
이재윤(경기대학교) 2007, Vol.24, No.3, pp.363-383 https://doi.org/10.3743/KOSIM.2007.24.3.363
초록보기
초록

전 학문 분야를 포괄하는 광역 과학 지도는 학문 분야 사이의 구조적인 관계를 시각적으로 분석하는데 사용되고 있다. 이 연구에서는 광역 과학 지도에 대한 선행 연구를 개관한 후 새로운 방법으로 국내의 학술 활동을 반영하는 광역 과학 지도를 생성하였다. 광역 과학 지도에 대한 연구는 ISI사(현재 Thomson Scientific)의 Garfield와 Small에 의해서 촉발되었고 최근에는 스페인 그라나다 대학의 SCImago 연구팀과 미국 인디애나 대학의 Brner 교수팀이 활발히 연구 결과를 발표하고 있다. 이들은 자신들이 만들어 발표하고 있는 지도를 과학 지도 또는 사이언토그램이라고 부르며, 이에 관련된 활동을 과학지도학(scientography)이라고 하였다. 기존의 광역 과학 지도는 대부분 학술 논문 사이의 인용 분석에 근거하여 제작되었으나, 국내 학술 논문에 대한 인용 데이터베이스는 아직 미비한 상태이다. 따라서 이 연구에서는 국내의 광역 과학 지도를 만들기 위해서 학술진흥재단에 신청된 과제 제안서의 텍스트를 활용하였다. 학문 분야 사이의 연결 정보를 네트워크로 표현하는 수단으로 널리 사용되고 있는 패스파인더 네트워크(PFNet) 알고리즘으로 광역 과학 지도를 생성한 후, 이의 대안으로 개발된 클러스터링 기반 네트워크(CBNet) 알고리즘으로 다시 지도를 생성하였다. 최종적으로 두 지도에 나타난 상반된 관점을 통합하도록 CBNet 지도를 수정하여 국내 광역 과학 지도를 제시하였다.

Abstract

Global map of science, which is visualizing large scientific domains, can be used to visually analyze the structural relationships between major areas of science. This paper reviewed previous efforts on global science map, and then tried to making a science map of Korea with some new methods. There are several research groups on making global map of science including Dr. Small and Dr. Garfield of ISI (now Thompson Scientific), SCImago research group at the University of Granada, and Dr. Brner's InfoVis Lab at the Indiana University. They called their maps as science map or scientogram and called the activity of mapping science as scientography. Most of the previous works are based on citations between scientific articles. However citation database for Korean journal articles is still under construction. This research tried to make a Korean science map with the text in the proposals suggested for funding from Korean Research Foundation. Two kinds of method for generating networks of scientific fields are used. One is Pathfinder network (PFNet) alogorithm which has been used in several published bibliometric studies. The other is clustering-based network (CBnet) algorithm which was proposed recently as an alternative to PFNet. In order to take into account both views of the two algorithms, the resulting maps are combined to a final science map of Korea.

정보관리학회지