바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 클러스터링, 검색결과: 26
초록보기
초록

패스파인더 네트워크를 사용하여 지적 구조의 분석과 규명을 시도한 여러 연구가 발표되었다. 패스파인더 네트워크는 다차원척도법에 비해서 여러 장점을 가지고 있지만 구축 알고리즘의 복잡도가 매우 높아서 실행 시간이 오래 걸리며, 전통적인 지적 구조 분석에 유용하게 사용되어온 군집분석을 함께 적용하기가 어려운 것이 단점이다. 이 연구에서는 이와 같은 패스파인더 네트워크의 약점을 보완할 수 있는 새로운 기법으로 병렬 최근접 이웃 클러스터링(PNNC) 기법을 제안하였다. PNNC 기법의 클러스터링 성능을 전통적인 계층적 병합식 클러스터링 기법들과 비교해본 결과 효과성과 효율성 양면에서 기존 기법보다 우세한 것으로 확인되었다.

Abstract

Recently there are many bibliometric studies attempting to utilize Pathfinder networks(PFNets) for examining and analyzing the intellectual structure of a scholarly field. Pathfinder network scaling has many advantages over traditional multidimensional scaling, including its ability to represent local details as well as global intellectual structure. However there are some limitations in PFNets including very high time complexity. And Pathfinder network scaling cannot be combined with cluster analysis, which has been combined well with traditional multidimensional scaling method. In this paper, a new method named as Parallel Nearest Neighbor Clustering (PNNC) are proposed for complementing those weak points of PFNets. Comparing the clustering performance with traditional hierarchical agglomerative clustering methods shows that PNNC is not only a complement to PFNets but also a fast and powerful clustering method for organizing informations.

초록보기
초록

본 논문에서는 온라인 뉴스 기사에서 자동으로 추출된 키워드 집합을 활용하여 특정 시점에서의 세부 주제별 토픽을 추출하고 정형화하는 새로운 방법론을 제시한다. 이를 위해서, 우선 다량의 텍스트 집합에 존재하는 개별 단어들의 중요도를 측정할 수 있는 복수의 통계적 가중치 모델들에 대한 비교 실험을 통해 TF-IDF 모델을 선정하였고 이를 활용하여 주요 키워드 집합을 추출하였다. 또한 추출된 키워드들 간의 의미적 연관성을 효과적으로 계산하기 위해서 별도로 수집된 약 1,000,000건 규모의 뉴스 기사를 활용하여 단어 임베딩 벡터 집합을 구성하였다. 추출된 개별 키워드들은 임베딩 벡터 형태로 수치화되고 K-평균 알고리즘을 통해 클러스터링 된다. 최종적으로 도출된 각각의 키워드 군집에 대한 정성적인 심층 분석 결과, 대부분의 군집들이 레이블을 쉽게 부여할 수 있을 정도로 충분한 의미적 집중성을 가진 토픽들로 평가되었다.

Abstract

In this paper, we propose a new methodology for extracting and formalizing subjective topics at a specific time using a set of keywords extracted automatically from online news articles. To do this, we first extracted a set of keywords by applying TF-IDF methods selected by a series of comparative experiments on various statistical weighting schemes that can measure the importance of individual words in a large set of texts. In order to effectively calculate the semantic relation between extracted keywords, a set of word embedding vectors was constructed by using about 1,000,000 news articles collected separately. Individual keywords extracted were quantified in the form of numerical vectors and clustered by K-means algorithm. As a result of qualitative in-depth analysis of each keyword cluster finally obtained, we witnessed that most of the clusters were evaluated as appropriate topics with sufficient semantic concentration for us to easily assign labels to them.

13
김수연(연세대학교) ; 정영미(연세대학교) 2006, Vol.23, No.3, pp.147-165 https://doi.org/10.3743/KOSIM.2006.23.3.147
초록보기
초록

이 연구에서는 전체 문헌집단으로부터 초기 질의어에 대한 연관용어 선정 시 사용할 수 있는 최적의 기법을 찾기 위해 연관규칙 마이닝과 용어 클러스터링 기법을 이용하여 연관용어 선정 실험을 수행하였다. 연관규칙 마이닝 기법에서는 Apriori 알고리즘을 사용하였으며, 용어 클러스터링 기법에서는 연관성 척도로 GSS 계수, 자카드계수, 코사인계수, 소칼 & 스니스 5, 상호정보량을 사용하였다. 성능평가 척도로는 연관용어 정확률과 연관용어 일치율을 사용하였으며, 실험결과 Apriori 알고리즘과 GSS 계수가 가장 좋은 성능을 나타냈다.

Abstract

In this study, experiments for selection of association terms were conducted in order to discover the optimum method in selecting additional terms that are related to an initial query term. Association term sets were generated by using support, confidence, and lift measures of the Apriori algorithm, and also by using the similarity measures such as GSS, Jaccard coefficient, cosine coefficient, and Sokal & Sneath 5, and mutual information. In performance evaluation of term selection methods, precision of association terms as well as the overlap ratio of association terms and relevant documents' indexing terms were used. It was found that Apriori algorithm and GSS achieved the highest level of performances.

14
최상희(대구가톨릭대학교) ; 정영미(연세대학교) 2004, Vol.21, No.3, pp.289-303 https://doi.org/10.3743/KOSIM.2004.21.3.289
초록보기
초록

This experimental study proposes a multi-document summarization method that produces optimal summaries in which users can find answers to their queries. In order to identify the most effective method for this purpose, the performance of the three summarization methods were compared. The investigated methods are sentence clustering, passage extraction through spreading activation, and clustering-passage extraction hybrid methods. The effectiveness of each summarizing method was evaluated by two criteria used to measure the accuracy and the redundancy of a summary. The passage extraction method using the sequential bnb search algorithm proved to be most effective in summarizing multiple documents with regard to summarization precision. This study proposes the passage extraction method as the optimal multi-document summarization method. 攀*** 본 연구는 연세대학교 대학원 박사학위논문의 일부를 요약한 것임.*** 연세대학교 문헌정보학과 시간강사(shchoi@lis.yonsei.ac.kr)****연세대학교 문헌정보학과 교수(ymchung@yonsei.ac.kr) 논문접수일자 : 2004년 8월 27일 게재확정일자 : 2004년 9월 13일攀攀

Abstract

초록보기
초록

Abstract

The purpose of this study is to identify topic areas of academic library research using two informetric methods; word clustering and Pathfinder network. For the data analysis, 139 articles published in major library and information science journals from 2005 to 2009 were collected from the Korean Science Citation Index database. The keywords that represent research topics were gathered from two sections: an abstract and titles in references. Results showed that reference titles usefully represent topics in detail, and combining abstracts and reference titles can produce an expanded topic map.

16
이선희(한국과학기술정보연구원) ; 김지영(한국과학기술정보연구원) 2020, Vol.37, No.2, pp.285-310 https://doi.org/10.3743/KOSIM.2020.37.2.285
초록보기
초록

본 논문은 고에너지 물리학(HEP) 분야 국내 연구자들의 학술 커뮤니케이션의 특성을 파악하고자 성공적인 오픈액세스 모델로 평가되는 SCOAP3 학술지를 분석하였다. HEP 분야 국내 연구자들의 협업과 연구 활동 내용을 파악하기 위한 연구방법으로 통계를 활용한 양적 분석과 저자 소속기관과 학술지에 대한 네트워크 분석을 수행하였다. 연구 결과, 국내 연구자가 참여한 10종의 SCOAP3 학술지 가운데 국내 저자 참여 논문 비율은 전체 논문 가운데 8.0%였다. 논문 한 편당 공저자 수가 천 명이 넘는 논문 비율이 전체 논문의 28.7%나 되었다. 이 분석 결과들은 HEP 글로벌 네트워크에서 국내 연구자들이 적극적으로 협업하고 있다는 것을 증명하였다. 소속기관을 중심으로 협력 관계를 파악하고자 네트워크 분석을 실시한 결과, 협력 네트워크를 3개의 클러스터로 구분할 수 있었다. 즉 S대학 중심의 클러스터, CERN과 협력 인프라를 제공하는 K연구기관 중심의 클러스터, 그리고 I연구원 중심의 클러스터로 나누어졌다. 연구기관과 학술지의 네트워크 분석을 통하여 학술지 중 JHEP, PRD, PLB가 참여도가 높은 학술지였으며 대학들과 연구원들도 협력하여 오픈 액세스 논문 저작에 참여하고 있음을 알 수 있었다. 본 연구 결과는 SCOAP3 컨소시엄에 참여하는 도서관들이 HEP 분야 연구자를 이해하고 이들을 위한 최적의 연구 정보환경을 구축하기 위한 기초자료로 활용될 수 있다.

Abstract

This paper analyzed SCOAP3 journals, which have been evaluated as successful open access models, to understand the characteristics of scholarly communication among domestic researchers in the field of high energy physics (HEP). As research methods, a quantitative analysis using statistics and a network analysis of authors’ affiliated institutions and academic journals were conducted to understand collaboration and research activities of domestic researchers in the HEP field. The results of the study revealed that, among the 10 SCOAP3 journals in which Korean researchers participated, the proportion of articles in which Korean authors participated was 8.0% of the total. The proportion of papers with more than 1,000 co-authors per paper was 28.7% of the total. The results of this analysis proved that Korean researchers were actively collaborating in the HEP global network. From the results of the network analysis to understand the cooperative relationship centered on the affiliated organization, the cooperative network could be divided into three clusters: a cluster centered on S universities, a cluster centered on K research institutes that provided researchers a cooperative infrastructure with CERN, and a cluster centered on I research institute. Through the network analysis for research institutes and journals, it was found that JHEP, PRD, and PLB among academic journals were highly participating journals, and universities and researchers were also participating in the writing of open access papers. The results of this study can be used as a basic resource for understanding researchers and building a research information environment in libraries.

17
심지영(연세대학교) ; 김태수(연세대학교) 2002, Vol.19, No.3, pp.5-30 https://doi.org/10.3743/KOSIM.2002.19.3.005
초록보기
초록

본 연구는 음악의 내용에 해당하는 음렬 패턴을 대상으로 분류자질을 선정하고 이를 기준으로 음렬간 유사도를 측정한 후 음렬간 군집을 형성하였다. 이는 내용기반음악검색 시스템에서 유사한 음렬을 검색 결과로 제시함으로써 이용자 탐색을 용이하게 하기 위함이다. 실험문헌집단으로는 「A Dictionary of Musical Themes」에 수록된 주제소절의 kern 형식 파일을 사용하였으며, 음렬 처리도구로는 Humdrum Toolkit version 1.0을 사용하였다. 음렬의 분절 여부와 시작 위치에 따른 네 가지 형태의 유사도 행렬을 대상으로 계층적 클러스터링 기법을 사용하여 유사한 음렬간 군집을 형성하였다. 이들 결과에 대한 평가는 외적 기준이 되는 수작업 분류표가 있는 경우 WACS 척도를 사용하였고, 음렬 내 임의의 위치에서부터 시작한 음렬을 대상으로 한 경우, 클러스터링 결과로부터 얻어낸 군집 내 공통 자질 패턴 분포를 통해 내적 기준을 마련하여 평가하였다. 평가 결과에 의하면 음렬의 시작 위치와 무관하게 분절한 자질을 사용하여 클러스터링한 결과가 그렇지 않은 것에 비해 뚜렷한 차이를 보이며 높게 나타났다.

Abstract

In this paper, classification feature is selected with focus of musical content, note sequences pattern, and measures similarity between note sequences followed by constructing clusters by similar note sequences, which is easier for users to search by showing the similar note sequences with the search result in the CBMR system. Experimental document was 「A Dictionary of Musical Themes」, the index of theme bar focused on classical music and obtained kern-type file. Humdrum Toolkit version 1.0 was used as note sequences treat tool. The hierarchical clustering method is by stages focused on four-type similarity matrices by whether the note sequences segmentation or not and where the starting point is. For the measurement of the result, WACS standard is used in the case of being manual classification and in the case of the note sequences starling from any point in the note sequences, there is used common feature pattern distribution in the cluster obtained from the clustering result. According to the result, clustering with segmented feature unconnected with the starting point Is higher with distinct difference compared with clustering with non-segmented feature.

18
이재윤(경기대학교) 2007, Vol.24, No.3, pp.363-383 https://doi.org/10.3743/KOSIM.2007.24.3.363
초록보기
초록

전 학문 분야를 포괄하는 광역 과학 지도는 학문 분야 사이의 구조적인 관계를 시각적으로 분석하는데 사용되고 있다. 이 연구에서는 광역 과학 지도에 대한 선행 연구를 개관한 후 새로운 방법으로 국내의 학술 활동을 반영하는 광역 과학 지도를 생성하였다. 광역 과학 지도에 대한 연구는 ISI사(현재 Thomson Scientific)의 Garfield와 Small에 의해서 촉발되었고 최근에는 스페인 그라나다 대학의 SCImago 연구팀과 미국 인디애나 대학의 Brner 교수팀이 활발히 연구 결과를 발표하고 있다. 이들은 자신들이 만들어 발표하고 있는 지도를 과학 지도 또는 사이언토그램이라고 부르며, 이에 관련된 활동을 과학지도학(scientography)이라고 하였다. 기존의 광역 과학 지도는 대부분 학술 논문 사이의 인용 분석에 근거하여 제작되었으나, 국내 학술 논문에 대한 인용 데이터베이스는 아직 미비한 상태이다. 따라서 이 연구에서는 국내의 광역 과학 지도를 만들기 위해서 학술진흥재단에 신청된 과제 제안서의 텍스트를 활용하였다. 학문 분야 사이의 연결 정보를 네트워크로 표현하는 수단으로 널리 사용되고 있는 패스파인더 네트워크(PFNet) 알고리즘으로 광역 과학 지도를 생성한 후, 이의 대안으로 개발된 클러스터링 기반 네트워크(CBNet) 알고리즘으로 다시 지도를 생성하였다. 최종적으로 두 지도에 나타난 상반된 관점을 통합하도록 CBNet 지도를 수정하여 국내 광역 과학 지도를 제시하였다.

Abstract

Global map of science, which is visualizing large scientific domains, can be used to visually analyze the structural relationships between major areas of science. This paper reviewed previous efforts on global science map, and then tried to making a science map of Korea with some new methods. There are several research groups on making global map of science including Dr. Small and Dr. Garfield of ISI (now Thompson Scientific), SCImago research group at the University of Granada, and Dr. Brner's InfoVis Lab at the Indiana University. They called their maps as science map or scientogram and called the activity of mapping science as scientography. Most of the previous works are based on citations between scientific articles. However citation database for Korean journal articles is still under construction. This research tried to make a Korean science map with the text in the proposals suggested for funding from Korean Research Foundation. Two kinds of method for generating networks of scientific fields are used. One is Pathfinder network (PFNet) alogorithm which has been used in several published bibliometric studies. The other is clustering-based network (CBnet) algorithm which was proposed recently as an alternative to PFNet. In order to take into account both views of the two algorithms, the resulting maps are combined to a final science map of Korea.

초록보기
초록

본 연구는 2014년부터 2018년까지 최근 5년간 미국에서 발표된 도서관학 및 정보과학 분야 학위논문의 연구 동향을 파악하기 위해 PQDT Global 데이터베이스에 수록된 1,016편의 박사학위 논문을 수집하여 각 논문의 관련 학문 분야를 나타내는 분야명들을 추출하고 네트워크 분석을 통해 분야명 간의 관계와 네트워크 전반에 걸쳐 다른 분야들과 관계가 있는 전역중심성이 높은 분야명을 파악하는 것과 동시에 군집분석을 통해 연관성 높은 분야명들이 어떠한 군집을 형성하는지, 각 군집 안에서 지역중심성이 높은 분야명들은 어떤 것들인지 살펴보았다. 103개 핵심 분야명 키워드를 이용한 네트워크 분석 결과 최근 5년간 미국의 도서관학 및 정보과학 분야 박사학위 논문의 관련 학문분야로는 컴퓨터 관련 분야, 교육 관련 분야, 커뮤니케이션 관련 분야 외에도 다양한 이용자 집단에 관한 연구와 정보시스템 관련 분야 등을 포함하여 26개의 군집을 형성하는 것으로 나타났다. 26개 군집들 중 정보과학을 중심으로 하는 군집에는 컴퓨터 관련 학문 분야명들이 다수 포함되었고, 도서관학을 중심으로 하는 군집에는 대부분 교육 관련 분야명들이 포함되었으며, 그 외에도 이용자 연구와 관련하여 특정 이용자 그룹과 관련된 젠더연구 분야나 정보시스템과 관련하여 경영학, 지리학, 의공학 등 다양한 학문 분야와 연관되어 있음을 알 수 있다.

Abstract

The study examines the research trends of doctoral dissertations in Library Science and Information Science published in the U.S. for the last 5 years. Data collected from PQDT Global includes 1,016 doctoral dissertations containing “Library Science” or “Information Science” as subject headings, and keywords extracted from those dissertations were used for a network analysis, which helps identifying the intellectual structure of the dissertations. Also, the analysis using 103 subject heading keywords resulted in various centrality measures, including triangle betweenness centrality and nearest neighbor centrality, as well as 26 clusters of associated subject headings. The most frequently studied subjects include computer-related subjects, education-related subjects, and communication-related subjects, and a cluster with information science as the most central subject contains most of the computer-related keywords, while a cluster with library science as the most central subject contains many of the education-related keywords. Other related subjects include various user groups for user studies, and subjects related to information systems such as management, economics, geography, and biomedical engineering.

20
유영준(나사렛대학교) 2003, Vol.20, No.3, pp.277-297 https://doi.org/10.3743/KOSIM.2003.20.3.277
초록보기
초록

이 연구는 색인어가 특정 주제 영역의 지식 구조를 표현할 수 있다는 것을 전제로 한다. 여기에서는 문헌정보학 관련 학술지인 정보관리학회지, 한국도서관정보학회지, 한국문헌정보학회지 등에 수록된 논문을 대상으로 국회도서관이 배정한 색인어를 클러스터링하여 문헌정보학의 지식 구조를 파악하였다.그 과정에서, 색인어간의 연관도 및 동시 출현 빈도를 이용하여 색인어 군집을 생성하였고, 초출색인어와 시기 구분에 의한 시계열 분석을 수행함으로써 문헌정보학의 발전 과정과 그 동향을 밝혔다. 또한 색인어 군집에 의해 도출된 지식 구조와 기존의 전통적인 분류체계의 지식 구조를 비교하여 두 지식 구조간의 차이를 분석하였다.

Abstract

This study was conducted upon the premise that index terms display the intellectual structure of a specific subject field. In this study, an attempt was made to grasp the intellectual structure of Library and Information Science by clustering the index terms of the journals of the related academic societies at the Library of National Assembly - such as the Journal of the Korean Society for Information Management, the Journal of the Korean Library and Information Science Society, and the Journal of the Korean Society for Library and Information Science. Through the course of the study, index term clusters were generated based on the linkage of the index terms and the frequency of co-occurrence, and moreover, time periods analysis was conducted along with studies on first-appearing terms, in order to clarify the trend and development process of the Library and Information Science. This study also analysed the difference between two intellectual structure by comparing the structure generated by index term clusters with the existing structure of traditional classification systems.

정보관리학회지