바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 클러스터링, 검색결과: 6
1
최상희(대구가톨릭대학교) ; 이재윤(경기대학교) 2012, Vol.29, No.1, pp.331-349 https://doi.org/10.3743/KOSIM.2012.29.1.331
초록보기
초록

구조적 초록은 학술 논문의 주제를 표현하는 역할을 하여 학술 논문을 처리하는데 중요한 요소로 인식되어왔다. 이 연구에서는 구조적 초록을 구성하는 세부 필드의 속성을 4개로 분석하고 초록의 구조를 활용하여 문서 클러스터링에 적용할 수 있는 가능성을 고찰고자 하였다. 구조적 초록의 필드 속성을 문서 클러스터링에 적용한 결과 클러스터링 기법간의 편차가 있었으나 연구 목적이 제공하는 정보량에 비해 주제성이 커서 클러스터링 성능에 가장 큰 영향을 미치고 있는 것으로 나타났다. 또한 분석 결과 특정 필드에 특화되어 출현하는 필드 종속적인 단어가 발생하는 것으로 나타나 필드 종속적인 단어를 배제하고 집단내 평균연결 기법을 적용하였을 때는 클러스터링의 성능이 개선되는 것으로 분석되었다.

Abstract

Structured abstracts have been regarded as an essential information factor to represent topics of journal articles. This study aims to provide an unconventional view to utilize structured abstracts with the analysis on sub fields of a structured abstract in depth. In this study, a structured abstract was segmented into four fields, namely, purpose, design, findings, and values/implications. Each field was compared in the performance analysis of document clustering. In result, the purpose statement of an abstract affected on the performance of journal article clustering more than any other fields. Furthermore, certain types of keywords were identified to be excluded in the document clustering to improve clustering performance, especially by Within group average clustering method. These keywords had stronger relationship to a specific abstract field such as research design than the topic of an article.

초록보기
초록

이 연구에서는 분포 유사도를 문헌 클러스터링에 적용하여 전통적인 코사인 유사도 공식을 대체할 수 있는 가능성을 모색해보았다. 대표적인 분포 유사도인 KL 다이버전스 공식을 변형한 Jansen-Shannon 다이버전스, 대칭적 스큐 다이버전스, 최소 스큐 다이버전스의 세 가지 공식을 문헌 벡터에 적용하는 방안을 고안하였다. 분포 유사도를 적용한 문헌 클러스터링 성능을 검증하기 위해서 세 실험 집단을 대상으로 두 가지 실험을 준비하여 실행하였다. 첫 번째 문헌 클러스터링 실험에서는 최소 스큐 다이버전스가 코사인 유사도 뿐만 아니라 다른 다이버전스 공식의 성능도 확연히 앞서는 뛰어난 성능을 보였다. 두 번째 실험에서는 피어슨 상관계수를 이용하여 1차 유사도 행렬로부터 2차 분포 유사도를 산출하여 문헌 클러스터링을 수행하였다. 실험 결과는 2차 분포 유사도가 전반적으로 더 좋은 문헌 클러스터링 성능을 보이는 것으로 나타났다. 문헌 클러스터링에서 처리 시간과 분류 성능을 함께 고려한다면 이 연구에서 제안한 최소 스큐 다이버전스 공식을 사용하고, 분류 성능만 고려할 경우에는 2차 분포 유사도 방식을 사용하는 것이 바람직하다고 판단된다.

Abstract

In this study, measures of distributional similarity such as KL-divergence are applied to cluster documents instead of traditional cosine measure, which is the most prevalent vector similarity measure for document clustering. Three variations of KL-divergence are investigated; Jansen-Shannon divergence, symmetric skew divergence, and minimum skew divergence. In order to verify the contribution of distributional similarities to document clustering, two experiments are designed and carried out on three test collections. In the first experiment the clustering performances of the three divergence measures are compared to that of cosine measure. The result showed that minimum skew divergence outperformed the other divergence measures as well as cosine measure. In the second experiment second-order distributional similarities are calculated with Pearson correlation coefficient from the first-order similarity matrixes. From the result of the second experiment, second-order distributional similarities were found to improve the overall performance of document clustering. These results suggest that minimum skew divergence must be selected as document vector similarity measure when considering both time and accuracy, and second-order similarity is a good choice for considering clustering accuracy only.

초록보기
초록

개체들 사이의 관계를 저차원 공간에 매핑하는 다차원척도법을 수행하기 위한 다양한 방법과 알고리즘이 개발되어왔다. 그러나 PROXSCAL이나 ALSCAL과 같은 기존의 기법들은 50개 이상의 개체를 포함하는 데이터 집합을 대상으로 개체 간의 관계와 군집 구조를 시각화하는데 있어서 효과적이지 못한 것으로 나타났다. 이 연구에서 제안하는 군집 지향 척도법 CLUSCAL(CLUster-oriented SCALing)은 기존 방법과 달리 입력되는 데이터의 군집 구조를 고려하도록 고안되었다. 50명의 저자동시인용 데이터와 85개 단어의 동시출현 데이터에 대해서 적용해본 결과 제안한 CLUSCAL 기법은 군집 구조를 잘 식별할 수 있는 MDS 지도를 생성하는 유용한 기법임이 확인되었다.

Abstract

There have been many methods and algorithms proposed for multidimensional scaling to mapping the relationships between data objects into low dimensional space. But traditional techniques, such as PROXSCAL or ALSCAL, were found not effective for visualizing the proximities between objects and the structure of clusters of large data sets have more than 50 objects. The CLUSCAL(CLUster-oriented SCALing) technique introduced in this paper differs from them especially in that it uses cluster structure of input data set. The CLUSCAL procedure was tested and evaluated on two data sets, one is 50 authors co-citation data and the other is 85 words co-occurrence data. The results can be regarded as promising the usefulness of CLUSCAL method especially in identifying clusters on MDS maps.

초록보기
초록

패스파인더 네트워크를 사용하여 지적 구조의 분석과 규명을 시도한 여러 연구가 발표되었다. 패스파인더 네트워크는 다차원척도법에 비해서 여러 장점을 가지고 있지만 구축 알고리즘의 복잡도가 매우 높아서 실행 시간이 오래 걸리며, 전통적인 지적 구조 분석에 유용하게 사용되어온 군집분석을 함께 적용하기가 어려운 것이 단점이다. 이 연구에서는 이와 같은 패스파인더 네트워크의 약점을 보완할 수 있는 새로운 기법으로 병렬 최근접 이웃 클러스터링(PNNC) 기법을 제안하였다. PNNC 기법의 클러스터링 성능을 전통적인 계층적 병합식 클러스터링 기법들과 비교해본 결과 효과성과 효율성 양면에서 기존 기법보다 우세한 것으로 확인되었다.

Abstract

Recently there are many bibliometric studies attempting to utilize Pathfinder networks(PFNets) for examining and analyzing the intellectual structure of a scholarly field. Pathfinder network scaling has many advantages over traditional multidimensional scaling, including its ability to represent local details as well as global intellectual structure. However there are some limitations in PFNets including very high time complexity. And Pathfinder network scaling cannot be combined with cluster analysis, which has been combined well with traditional multidimensional scaling method. In this paper, a new method named as Parallel Nearest Neighbor Clustering (PNNC) are proposed for complementing those weak points of PFNets. Comparing the clustering performance with traditional hierarchical agglomerative clustering methods shows that PNNC is not only a complement to PFNets but also a fast and powerful clustering method for organizing informations.

5
이재윤(경기대학교) 2007, Vol.24, No.3, pp.363-383 https://doi.org/10.3743/KOSIM.2007.24.3.363
초록보기
초록

전 학문 분야를 포괄하는 광역 과학 지도는 학문 분야 사이의 구조적인 관계를 시각적으로 분석하는데 사용되고 있다. 이 연구에서는 광역 과학 지도에 대한 선행 연구를 개관한 후 새로운 방법으로 국내의 학술 활동을 반영하는 광역 과학 지도를 생성하였다. 광역 과학 지도에 대한 연구는 ISI사(현재 Thomson Scientific)의 Garfield와 Small에 의해서 촉발되었고 최근에는 스페인 그라나다 대학의 SCImago 연구팀과 미국 인디애나 대학의 Brner 교수팀이 활발히 연구 결과를 발표하고 있다. 이들은 자신들이 만들어 발표하고 있는 지도를 과학 지도 또는 사이언토그램이라고 부르며, 이에 관련된 활동을 과학지도학(scientography)이라고 하였다. 기존의 광역 과학 지도는 대부분 학술 논문 사이의 인용 분석에 근거하여 제작되었으나, 국내 학술 논문에 대한 인용 데이터베이스는 아직 미비한 상태이다. 따라서 이 연구에서는 국내의 광역 과학 지도를 만들기 위해서 학술진흥재단에 신청된 과제 제안서의 텍스트를 활용하였다. 학문 분야 사이의 연결 정보를 네트워크로 표현하는 수단으로 널리 사용되고 있는 패스파인더 네트워크(PFNet) 알고리즘으로 광역 과학 지도를 생성한 후, 이의 대안으로 개발된 클러스터링 기반 네트워크(CBNet) 알고리즘으로 다시 지도를 생성하였다. 최종적으로 두 지도에 나타난 상반된 관점을 통합하도록 CBNet 지도를 수정하여 국내 광역 과학 지도를 제시하였다.

Abstract

Global map of science, which is visualizing large scientific domains, can be used to visually analyze the structural relationships between major areas of science. This paper reviewed previous efforts on global science map, and then tried to making a science map of Korea with some new methods. There are several research groups on making global map of science including Dr. Small and Dr. Garfield of ISI (now Thompson Scientific), SCImago research group at the University of Granada, and Dr. Brner's InfoVis Lab at the Indiana University. They called their maps as science map or scientogram and called the activity of mapping science as scientography. Most of the previous works are based on citations between scientific articles. However citation database for Korean journal articles is still under construction. This research tried to make a Korean science map with the text in the proposals suggested for funding from Korean Research Foundation. Two kinds of method for generating networks of scientific fields are used. One is Pathfinder network (PFNet) alogorithm which has been used in several published bibliometric studies. The other is clustering-based network (CBnet) algorithm which was proposed recently as an alternative to PFNet. In order to take into account both views of the two algorithms, the resulting maps are combined to a final science map of Korea.

초록보기
초록

지적구조 분석을 위해 가중 네트워크를 시각화해야 하는 경우에 패스파인더 네트워크와 같은 링크 삭감 알고리즘이 널리 사용되고 있다. 이 연구에서는 네트워크 시각화를 위한 링크 삭감 알고리즘의 적합도를 측정하기 위한 지표로 NetRSQ를 제안하였다. NetRSQ는 개체간 연관성 데이터와 생성된 네트워크에서의 경로 길이 사이의 순위 상관도에 기반하여 네트워크의 적합도를 측정한다. NetRSQ의 타당성을 확인하기 위해서 몇 가지 네트워크 생성 방식에 대해 정성적으로 평가를 했었던 선행 연구의 데이터를 대상으로 시험적으로 NetRSQ를 측정해보았다. 그 결과 품질이 좋게 평가된 네트워크일수록 NetRSQ가 높게 측정됨을 확인하였다. 40가지 계량서지적 데이터에 대해서 4가지 링크 삭감 알고리즘을 적용한 결과에 대해서 NetRSQ로 품질을 측정하는 실험을 수행한 결과, 특정 알고리즘의 네트워크 표현 결과가 항상 좋은 품질을 보이는 것은 아니며, 반대로 항상 나쁜 품질을 보이는 것도 아님을 알 수 있었다. 따라서 이 연구에서 제안한 NetRSQ는 생성된 계량서지적 네트워크의 품질을 측정하여 최적의 기법을 선택하는 근거로 활용될 수 있을 것이다.

Abstract

Link reduction algorithms such as pathfinder network are the widely used methods to overcome problems with the visualization of weighted networks for knowledge domain analysis. This study proposed NetRSQ, an indicator to measure the goodness of fit of a link reduction algorithm for the network visualization. NetRSQ is developed to calculate the fitness of a network based on the rank correlation between the path length and the degree of association between entities. The validity of NetRSQ was investigated with data from previous research which qualitatively evaluated several network generation algorithms. As the primary test result, the higher degree of NetRSQ appeared in the network with better intellectual structures in the quality evaluation of networks built by various methods. The performance of 4 link reduction algorithms was tested in 40 datasets from various domains and compared with NetRSQ. The test shows that there is no specific link reduction algorithm that performs better over others in all cases. Therefore, the NetRSQ can be a useful tool as a basis of reliability to select the most fitting algorithm for the network visualization of intellectual structures.

정보관리학회지