바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 군집분석, 검색결과: 33
21
최원실(이화여자대학교 일반대학원 문헌정보학과) ; 정은경(이화여자대학교) 2019, Vol.36, No.3, pp.109-129 https://doi.org/10.3743/KOSIM.2019.36.3.109
초록보기
초록

대학의 재정 악화는 대학도서관 예산 삭감으로 이어지고, 특히 자료구입비 예산에 큰 영향을 끼쳤다. 이에 대한 해결책으로 대학도서관 자원공유에 관한 논의가 이루어지고 있으며, 상호대차 데이터를 분석하는 연구들이 진행되었다. 본 연구는 이러한 연구 흐름과 같이 국내 4년제 대학도서관 상호대차 장서 프로파일을 규명하고자 하였다. 이를 위해 2011년부터 2017년까지 KERIS 종합목록의 서지와 상호대차 데이터를 활용하여 상호대차 현황을 분석하였다. 그 결과로 첫째, 2011년에는 대규모 대학도서관을 중심으로 서양서 상호대차의 제공이 이루어졌으나, 2014년 이후 점차적으로 고유장서의 비율이 증가하면서 상호대차 네트워크 내 주요 권역의 범위가 확대되고, 권역 내 영향력이 증가하는 기관이 다수 출현하였다. 둘째, 2012년에는 서양서 소장 종수가 많고, 공통장서의 비율이 높을수록 상호대차 네트워크 내 영향력이 크게 나타났으나, 2016년에는 이러한 경향과 더불어 고유장서의 비중이 높을수록 제공 측면에서 영향력이 증가하였다. 셋째, 서양서 소장과 상호대차 지수에 의한 계층적 군집 분석에 따른 6개 군집의 대학도서관이 규명되었다. 이러한 연구결과는 향후 대학도서관 자원공유를 위한 정책 수립에 있어서 활용할 수 있으리라 기대한다.

Abstract

Since the recent financial crisis in universities has caused the decrease of academic library budget, the resource sharing has been considered by utilizing inter-library loan (ILL) data for solving the financial deficit. This study aims to identify the collection profiles of western monographs’ ILL data among 4-year academic libraries. In order to achieve the purpose of this study, this study analyzes ILL data from 2011 to 2017 using the bibliographic data and ILL transactions of the KERIS union catalog. The findings of the study show that the western monographs was significantly provided by large-scale academic libraries in 2011, however, the extent of major regions expanded, and the number of influential institutions rose in 2016. Second, in 2012, the influence in the ILL network increased in the quantity of western monographs holdings and the proportion of common collections. On the other hand, in 2016, it was also shown that the influence in terms of provision in the ILL network increased in the proportion of unique collections. Lastly, the ILL participating academic libraries were classified into six clusters by a hierarchical clustering analysis of holdings and ILL indexes.

초록보기
초록

Mendeley의 독자 정보는 학계 밖에서 학문의 결과물이 어떻게 소비되고 있는지 다각도로 파악하여 피인용도로는 해석할 수 없었던 미지의 세계를 예측하는데 활용될 수 있다. 본 연구는 Mendeley의 co-readership 데이터를 활용해 한국 관련 논문의 독자 국가 네트워크 분석을 수행하여 공통의 학문적 관심사를 공유하는 국가 군집을 이해하고 이들 국가가 네트워크 상에서 어떠한 영향력을 가지는지 확인하였다. 그 결과 전 분야에서 미국을 비롯한 선진국은 대체로 높은 전역중심성을 보여 한국 관련 연구에 대한 전반적인 협력과 잠재적 교류 가능성을 가지는 것으로 나타났으며, 일부 개발도상국은 높은 지역중심성을 보여 상호간 공통의 학문적 관심사로 연계되어 있는 것으로 확인되었다. 한편 의학과 사회과학 분야는 OECD 국가와 개발도상국이 분리된 독자층을 이루었으며, 공학 분야는 신흥경제개발국이 대규모 독자 군집으로 형성되는 특징을 보였다. 또한 공학은 네트워크 밀도가 상대적으로 높게 나타나 국가간 학문적 교류와 지식의 확산, 협력의 가능성이 높은 것으로 분석되었다.

Abstract

Mendeley readership data could be used to understand how research outcome be spent outside of academia in multi way. So it could be utilized to understand unknown world which citation rate could not explain still now. This study, by conducting a country network analysis using Mendeley’s co readership data about articles of Korea related research, clusters countries that share common academic interest. As a result, the US and other advanced countries in all fields showed high overall and regional centrality, indicating that they have overall cooperation and potential for exchange of Korea related studies. Some developing countries have shown high regional centrality and are linked to common academic interests. In the medical and social sciences, the OECD and developing countries have formed a separate group of readers, and the engineering sector has been characterized by emerging developing countries as a large community of readers. In addition, engineering science field has shown that network density is relatively high, so there might be high possibility of academic exchanges, knowledge dissemination and cooperation among countries.

23
이재윤(명지대학교 문헌정보학과) 2023, Vol.40, No.4, pp.403-428 https://doi.org/10.3743/KOSIM.2023.40.4.403
초록보기
초록

이 연구에서는 데이터 리터러시 분야 연구의 발전 경로와 지적구조 및 떠오르는 유망 주제를 파악하고자 하였다. 이를 위해서 Web of Science에서 검색한 데이터 리터러시 관련 논문은 교육학 분야와 문헌정보학 분야 논문이 전체의 60% 가까이를 차지하였다. 우선 인용 네트워크 분석에서는 페이지랭크 알고리즘을 사용해서 인용 영향력이 높은 다양한 주제의 핵심 논문을 파악하였다. 데이터 리터러시 연구의 발전 경로를 파악하기 위해서 기존의 주경로분석법을 적용해보았으나 교육학 분야의 연구 논문만 포함되는 한계가 있었다. 이를 극복할 수 있는 새로운 기법으로 페이지랭크 주경로분석법을 개발한 결과, 교육학 분야와 문헌정보학 분야의 핵심 논문이 모두 포함되는 발전 경로를 파악할 수 있었다. 데이터 리터러시 연구의 지적구조를 분석하기 위해서 키워드 서지결합 분석을 시행하였다. 도출된 키워드 서지결합 네트워크의 세부 구조와 군집 파악을 위해서 병렬최근접이웃클러스터링 알고리즘을 적용한 결과 대군집 2개와 그에 속한 소군집 7개를 파악할 수 있었다. 부상하는 유망 주제를 도출하기 위해서 각 키워드와 군집의 성장지수와 평균출판년도를 측정하였다. 분석 결과 팬데믹 상황과 AI 챗봇의 부상이라는 시대적 배경 하에서 사회정의를 위한 비판적 데이터 리터러시가 고등교육 측면에서 급부상하고 있는 것으로 나타났다. 또한 이 연구에서 연구의 발전경로를 파악하는 수단으로 새롭게 개발한 페이지랭크 주경로분석 기법은 서로 다른 영역에서 병렬적으로 발전하는 둘 이상의 연구흐름을 발견하기에 효과적이었다.

Abstract

This study investigates the development path and intellectual structure of data literacy research, aiming to identify emerging topics in the field. A comprehensive search for data literacy-related articles on the Web of Science reveals that the field is primarily concentrated in Education & Educational Research and Information Science & Library Science, accounting for nearly 60% of the total. Citation network analysis, employing the PageRank algorithm, identifies key papers with high citation impact across various topics. To accurately trace the development path of data literacy research, an enhanced PageRank main path algorithm is developed, which overcomes the limitations of existing methods confined to the Education & Educational Research field. Keyword bibliographic coupling analysis is employed to unravel the intellectual structure of data literacy research. Utilizing the PNNC algorithm, the detailed structure and clusters of the derived keyword bibliographic coupling network are revealed, including two large clusters, one with two smaller clusters and the other with five smaller clusters. The growth index and mean publishing year of each keyword and cluster are measured to pinpoint emerging topics. The analysis highlights the emergence of critical data literacy for social justice in higher education amidst the ongoing pandemic and the rise of AI chatbots. The enhanced PageRank main path algorithm, developed in this study, demonstrates its effectiveness in identifying parallel research streams developing across different fields.

초록보기
초록

이 연구는 입지선정 과정에서 다양한 집단의 의사를 반영하고 객관성 있는 입지후보지를 선정하는 방법을 제시하고자 하였다. 제안하는 도서관 입지선정 모형은 입지기준의 중요도를 측정하는 계층분석법과 구체적인 입지를 선정하는 지리정보시스템을 통해서 이루어졌고 이를 서초구에 적용하였다. 먼저, 문헌연구를 통해 도서관 입지기준을 설정하였고 설정된 기준을 계층화하였다. 계층화된 기준 중에서 서초구 환경에 적합한 기준을 추출하여 설문지를 작성하였고 이를 도서관 이용자, 전문가, 행정 공무원의 세 집단을 대상으로 설문조사를 실시했다. 일관성을 유지하고 있는 설문만을 분석하여 각 기준들의 상대적인 중요도를 측정하였다. 다음으로, 도서관 입지 배제지역을 설정하였고 입지기준들의 지도 레이어를 작성하였다. 레이어를 설문을 통해 얻은 각 기준의 상대적인 중요도를 가중치로 하여 중첩함으로써 75개 후보지를 선정하였다. 선정된 후보지들을 기준별 유사도에 따라 5개의 클러스터로 군집화했고 적합도가 낮은 한 개의 군집을 제외한 네 개의 후보지를 최종 입지후보지로 제시했다.

Abstract

This study proposes a new site selection model which reflects integrated opinions of several groups and identifies sites through objectivity of selection procedure. The proposed model consists of two parts, Analytic Hierarchy Process(AHP) and Geographic Information(GIS). This model was applied to Seocho-gu in Seoul. First, library site selection criteria were determined through literature study. Hierarchical relationship based on the questionnaire was determined and refined to be suited to Seocho-gu case. A survey was conducted with three groups, namely, library users, librarians, and public worker. A few inconsistent answers to the survey questionnaire were excluded and the relative importance of each criterion was measured. Next, an overlay method was used and the relative importance was used as a weight for selecting candidates. This process excluded the areas where a library was unable to be built, for example, rivers, military areas, other restricted areas by law, etc. and resulted in seventy-five sites. Five groups of candidates were identified according to the similarity of criteria. Finally, four groups, after eliminating one lowly fitted group, were determined.

초록보기
초록

이 연구에서는 프로파일링 분석과 동시출현단어 분석을 이용해 인접 학문과의 연관성을 바탕으로 한국어교육학의 정체성을 분석하고자 하였다. 먼저, 한국어교육학, 국어교육학, 국어학 학술지의 논문에서 추출한 주제어를 기반으로 저널 프로파일링 분석을 수행하였고 그 결과 한국어교육학 분야의 학술지들이 하나의 독립된 군집을 형성하는 것으로 나타났다. 그리고 학문 분야 프로파일링 분석과 동시출현단어 분석을 이용해 학문 분야 간 관계를 분석한 결과 한국어교육학이 국어학보다 국어교육학과 더 큰 유사성을 가지는 것으로 나타났다. 마지막으로, 동시출현단어 분석을 통해 세 학문 분야의 지적 구조를 비교․분석하였다. 이를 통해 한국어교육학에서만 출현한 주제들을 확인함으로써 인접학문들과의 관계 속에서 한국어교육학이 드러내는 정체성을 파악할 수 있었다.

Abstract

This study aims at establishing the identity of teaching Korean as a Foreign Language (KFL) domain by using journal profiling and co-word analysis in comparison with the relevant and adjacent domains. Firstly, by extracting and comparing topic terms, we calculate the similarity of academic journals of the three domains, KFL, teaching Korean as a Native Language (KNL), and Korean Linguistics (KL). The result shows that the journals of KFL form a distinct cluster from the others. The profiling analysis and co-word analysis are then conducted to visualize the relationship among all the three domains in order to uncover the characteristics of KFL. The findings show that KFL is more similar to KNL than to KL. Finally, the comparison of knowledge structures of these three domains based on the co-word analysis demonstrates the uniqueness of KFL as an independent domain in relation with the other relevant domains.

초록보기
초록

본 연구의 목적은 빅데이터 연구 논문의 주제 분야 간의 연관관계를 분석하는데 있다. 동시 인용 관계를 적용하여 분석 대상의 주제 분야를 추출하였으며, R 프로그램의 Apriori 알고리즘을 이용하여 연관관계의 규칙을 분석하고, arulesViz 패키지를 사용하여 시각화하였다. 연구 결과 22개 주제 분야가 추출되었는데, 이들 주제 분야는 3가지 군집으로 구분되었다. 주제 분야의 연관관계 유형을 분석한 결과, 연관관계의 복잡성에 따라 ‘전문형’, ‘일반형’, ‘확대형’으로 구분되었다. 전문형에는 문헌정보학, 신문방송학 등이 포함되었고, 일반형에는 정치외교학, 무역학, 관광학 등이 포함되었고, 확대형에는 기타인문학, 사회과학일반, 관광학일반 등이 포함되었다. 이 연관관계는 빅데이터 연구자가 한 주제 분야를 인용할 때 관계가 있는 다른 주제 분야를 인용하는 경향을 보여주는 것으로, 도서관에서 학술정보서비스를 위해 연관관계를 활용한 서비스를 고려해야 할 필요가 있다.

Abstract

The purpose of this study is to analyze the association among the subject areas of big data research papers. The subject group of the units of analysis was extracted by applying co-citation networks, and the rules of association were analyzed using Apriori algorithm of R program, and visualized using the arulesViz package of R program. As a result of the study, 22 subject areas were extracted and these subjects were divided into three clusters. As a result of analyzing the association type of the subject, it was classified into ‘professional type’, ‘general type’, ‘expanded type’ depending on the complexity of association. The professional type included library and information science and journalism. The general type included politics & diplomacy, trade, and tourism. The expanded types included other humanities, general social sciences, and general tourism. This association networks show a tendency to cite other subject areas that are relevant when citing a subject field, and the library should consider services that use the association for academic information services.

초록보기
초록

최근 들어 다양한 분야에서 딥러닝이 혁신적인 기계학습 기법으로 급속하게 확산되고 있다. 이 연구에서는 딥러닝 연구동향을 분석하기 위해서 자아 중심 주제 인용분석 기법을 변형하여 응용해보았다. 이를 위해 Web of Science에서 ‘deep learning’으로 탐색하여 검색된 문헌 중 소수의 씨앗 문헌으로부터 인용 관계를 통해 분석 대상 문헌을 확보하는 방법을 시도하였다. 씨앗 문헌을 인용하는 최근 논문들을 딥러닝 분야의 현행 연구를 반영하는 자아 문헌집합으로 설정하였다. 자아 문헌으로부터 빈번히 인용된 선행 연구들은 딥러닝 분야의 연구 주제를 나타내는 인용 정체성 문헌집합으로 설정하였다. 자아 문헌집합에 대해서는 공저 네트워크 분석을 비롯한 정량적 분석을 실시하여 주요 국가와 연구 기관을 파악하였다. 인용 정체성 문헌들에 대해서는 동시인용 분석을 실시하고, 도출된 문헌 군집을 인용하는 주요 키워드인 인용 이미지 키워드를 파악하여 주요 문헌과 주요 연구 주제를 밝혀내었다. 마지막으로 특정 주제에 대한 인용 영향력이 성장하는 추세를 반영하는 인용 성장지수 CGI를 제안하고 측정하여 딥러닝 분야의 선도 연구 주제가 변화하는 동향을 밝혔다.

Abstract

Recently, deep learning has been rapidly spreading as an innovative machine learning technique in various domains. This study explored the research trends of deep learning via modified ego centered topic citation analysis. To do that, a few seed documents were selected from among the retrieved documents with the keyword ‘deep learning’ from Web of Science, and the related documents were obtained through citation relations. Those papers citing seed documents were set as ego documents reflecting current research in the field of deep learning. Preliminary studies cited frequently in the ego documents were set as the citation identity documents that represents the specific themes in the field of deep learning. For ego documents which are the result of current research activities, some quantitative analysis methods including co-authorship network analysis were performed to identify major countries and research institutes. For the citation identity documents, co-citation analysis was conducted, and key literatures and key research themes were identified by investigating the citation image keywords, which are major keywords those citing the citation identity document clusters. Finally, we proposed and measured the citation growth index which reflects the growth trend of the citation influence on a specific topic, and showed the changes in the leading research themes in the field of deep learning.

28
최형욱(이화여자대학교 일반대학원 문헌정보학과) ; 최예진(이화여자대학교 일반대학원 문헌정보학과) ; 남소연(이화여자대학교 일반대학원 문헌정보학과) 2018, Vol.35, No.2, pp.89-114 https://doi.org/10.3743/KOSIM.2018.35.2.089
초록보기
초록

학문 분야의 연구 동향 변화에 대한 연구는 해당 분야의 세부 연구주제와 구조에 대한 파악뿐만 아니라 시간 흐름에 따른 변화 모습을 관찰할 수 있는 방법이다. 이에 본 연구에서는 국내 문헌정보학 분야의 연구 동향을 살펴보기 위하여 2003년부터 2017년까지 한국학술지인용색인(KCI)에 등재된 문헌정보학 분야 학술지 중 인용지수가 가장 높은 3종에 개제된 논문의 한국어 저자키워드를 대상으로 동시출현단어 분석을 수행하였다. 시계열 분석을 위해 15년의 연구 기간을 5년 단위로 누적하여 2003년~2007년, 2003년~2012년, 2003년~2017년으로 구분하였고, 기간별로 출현빈도 10회 이상의 저자키워드를 선정하여 분석하고 이를 시각화하였다. 분석 결과, 2003년~2007년 기간의 지적구조는 총 25개의 키워드로 구성된 8개의 영역이 확인되었으며, 2003년~2012년 기간의 지적구조에서는 총 76개의 키워드로 구성된 3영역 17 군집이 확인되었다. 또한, 2003년~2017년 기간의 지적구조는 총 132개의 키워드로 구성된 6영역 32군집으로 나타났다. 누적 기간별 종합 분석 결과, 한국의 문헌정보학 분야는 지난 15년간 기간별로 새로운 키워드가 포괄적으로 추가되었으며, 세부 주제 역시 세분화 되어 점차 세분화되고 확장되고 있음을 확인하였다.

Abstract

Research on changes in research trends in academic disciplines is a method that enables observation of not only the detailed research subject and structure of the field but also the state of change in the flow of time. Therefore, in this study, in order to observe the changes of research trend in library and information science field in Korea, co-word analysis was conducted with Korean author keywords from three types of journals which were listed in the Korea Citation Index(KCI) and have top citation impact factor were selected. For the time series analysis, the 15-year research period was accumulated in 5-years units, and divided into 2003~2007, 2003~2012, and 2003~2017. The keywords which limited to the frequency of appearance 10 or more, respectively, were analyzed and visualized. As a result of the analysis, during the period from 2003 to 2007, the intellectual structure composed with 25 keywords and 8 areas was confirmed, and during the period from 2003 to 2012, the structure composed by 3 areas 17 sub-areas with 76 keywords was confirmed. Also, the intellectual structure during the period from 2003 to 2017 was crowded into 6 areas 32 consisting of a total of 132 keywords. As a result of comprehensive period analysis, in the field of library and information science in Korea, over the past 15 years, new keywords have been added for each period, and detailed topics have also been subdivided and gradually segmented and expanded.

초록보기
초록

본 논문에서는 온라인 뉴스 기사에서 자동으로 추출된 키워드 집합을 활용하여 특정 시점에서의 세부 주제별 토픽을 추출하고 정형화하는 새로운 방법론을 제시한다. 이를 위해서, 우선 다량의 텍스트 집합에 존재하는 개별 단어들의 중요도를 측정할 수 있는 복수의 통계적 가중치 모델들에 대한 비교 실험을 통해 TF-IDF 모델을 선정하였고 이를 활용하여 주요 키워드 집합을 추출하였다. 또한 추출된 키워드들 간의 의미적 연관성을 효과적으로 계산하기 위해서 별도로 수집된 약 1,000,000건 규모의 뉴스 기사를 활용하여 단어 임베딩 벡터 집합을 구성하였다. 추출된 개별 키워드들은 임베딩 벡터 형태로 수치화되고 K-평균 알고리즘을 통해 클러스터링 된다. 최종적으로 도출된 각각의 키워드 군집에 대한 정성적인 심층 분석 결과, 대부분의 군집들이 레이블을 쉽게 부여할 수 있을 정도로 충분한 의미적 집중성을 가진 토픽들로 평가되었다.

Abstract

In this paper, we propose a new methodology for extracting and formalizing subjective topics at a specific time using a set of keywords extracted automatically from online news articles. To do this, we first extracted a set of keywords by applying TF-IDF methods selected by a series of comparative experiments on various statistical weighting schemes that can measure the importance of individual words in a large set of texts. In order to effectively calculate the semantic relation between extracted keywords, a set of word embedding vectors was constructed by using about 1,000,000 news articles collected separately. Individual keywords extracted were quantified in the form of numerical vectors and clustered by K-means algorithm. As a result of qualitative in-depth analysis of each keyword cluster finally obtained, we witnessed that most of the clusters were evaluated as appropriate topics with sufficient semantic concentration for us to easily assign labels to them.

30
정은경(이화여자대학교 사회과학대학 문헌정보학과 교수) 2020, Vol.37, No.1, pp.153-177 https://doi.org/10.3743/KOSIM.2020.37.1.153
초록보기
초록

오픈과학의 흐름에서 데이터 공유와 재이용은 중요한 연구자의 활동이 되어가고 있다. 데이터 공유와 재이용에 관한 여러 논의 중에서 데이터학술지와 데이터논문의 발간이 가시적인 결과를 보여주고 있다. 데이터학술지는 여러 학문 분야에서 발간되고 있으며, 논문의 수도 점차 증가하고 있다. 데이터논문은 데이터 자체와는 다르게 인용을 주고 받는 활동이 포함되어, 따라서 이들이 형성하는 고유한 지적구조가 생겨나게 된다. 본 연구는 데이터학술지와 데이터논문이 학술커뮤니티에서 구성하는 지적구조를 규명하고자 Web of Science에 색인된 14종의 데이터학술지와 6,086건의 데이터논문과 인용된 참고문헌 84,908건을 분석하였다. 저자사항과 함께 동시인용분석과 서지결합분석을 네트워크로 시각화하여 데이터논문이 형성한 세부 주제 분야를 규명하였다. 분석결과, 저자, 저자소속기관, 국가를 추출하여 출현빈도를 살펴보면, 전통적인 학술지 논문과 다른 양상을 보인다. 이러한 결과는 데이터의 생산이 용이한 기관과 국가에 주로 데이터논문을 출간하기 때문이라고 해석될 수 있다. 동시인용분석와 서지결합분석 모두 분석도구, 데이터베이스, 게놈구성 등이 주된 세부 주제 영역으로 나타났다. 동시인용분석결과는 9개의 군집으로 형성되었는데, 특정 주제 분야로 나타난 영역은 수질과 기후 등의 분야이다. 서지결합분석은 총 27개의 컴포넌트로 구성되었는데, 수질, 기후 이 외에도 해양, 대기 등의 세부 주제 영역이 파악되었다. 특기할만한 사항으로는 사회과학 분야의 주제 영역도 나타났다는 점이다.

Abstract

In the context of open science, data sharing and reuse are becoming important researchers’ activities. Among the discussions about data sharing and reuse, data journals and data papers shows visible results. Data journals are published in many academic fields, and the number of papers is increasing. Unlike the data itself, data papers contain activities that cite and receive citations, thus creating their own intellectual structures. This study analyzed 14 data journals indexed by Web of Science, 6,086 data papers and 84,908 cited references to examine the intellectual structure of data journals and data papers in academic community. Along with the author’s details, the co-citation analysis and bibliographic coupling analysis were visualized in network to identify the detailed subject areas. The results of the analysis show that the frequent authors, affiliated institutions, and countries are different from that of traditional journal papers. These results can be interpreted as mainly because the authors who can easily produce data publish data papers. In both co-citation and bibliographic analysis, analytical tools, databases, and genome composition were the main subtopic areas. The co-citation analysis resulted in nine clusters, with specific subject areas being water quality and climate. The bibliographic analysis consisted of a total of 27 components, and detailed subject areas such as ocean and atmosphere were identified in addition to water quality and climate. Notably, the subject areas of the social sciences have also emerged.

정보관리학회지