바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: data analysis, 검색결과: 12
1
이재윤(명지대학교 문헌정보학과) 2023, Vol.40, No.4, pp.403-428 https://doi.org/10.3743/KOSIM.2023.40.4.403
초록보기
초록

이 연구에서는 데이터 리터러시 분야 연구의 발전 경로와 지적구조 및 떠오르는 유망 주제를 파악하고자 하였다. 이를 위해서 Web of Science에서 검색한 데이터 리터러시 관련 논문은 교육학 분야와 문헌정보학 분야 논문이 전체의 60% 가까이를 차지하였다. 우선 인용 네트워크 분석에서는 페이지랭크 알고리즘을 사용해서 인용 영향력이 높은 다양한 주제의 핵심 논문을 파악하였다. 데이터 리터러시 연구의 발전 경로를 파악하기 위해서 기존의 주경로분석법을 적용해보았으나 교육학 분야의 연구 논문만 포함되는 한계가 있었다. 이를 극복할 수 있는 새로운 기법으로 페이지랭크 주경로분석법을 개발한 결과, 교육학 분야와 문헌정보학 분야의 핵심 논문이 모두 포함되는 발전 경로를 파악할 수 있었다. 데이터 리터러시 연구의 지적구조를 분석하기 위해서 키워드 서지결합 분석을 시행하였다. 도출된 키워드 서지결합 네트워크의 세부 구조와 군집 파악을 위해서 병렬최근접이웃클러스터링 알고리즘을 적용한 결과 대군집 2개와 그에 속한 소군집 7개를 파악할 수 있었다. 부상하는 유망 주제를 도출하기 위해서 각 키워드와 군집의 성장지수와 평균출판년도를 측정하였다. 분석 결과 팬데믹 상황과 AI 챗봇의 부상이라는 시대적 배경 하에서 사회정의를 위한 비판적 데이터 리터러시가 고등교육 측면에서 급부상하고 있는 것으로 나타났다. 또한 이 연구에서 연구의 발전경로를 파악하는 수단으로 새롭게 개발한 페이지랭크 주경로분석 기법은 서로 다른 영역에서 병렬적으로 발전하는 둘 이상의 연구흐름을 발견하기에 효과적이었다.

Abstract

This study investigates the development path and intellectual structure of data literacy research, aiming to identify emerging topics in the field. A comprehensive search for data literacy-related articles on the Web of Science reveals that the field is primarily concentrated in Education & Educational Research and Information Science & Library Science, accounting for nearly 60% of the total. Citation network analysis, employing the PageRank algorithm, identifies key papers with high citation impact across various topics. To accurately trace the development path of data literacy research, an enhanced PageRank main path algorithm is developed, which overcomes the limitations of existing methods confined to the Education & Educational Research field. Keyword bibliographic coupling analysis is employed to unravel the intellectual structure of data literacy research. Utilizing the PNNC algorithm, the detailed structure and clusters of the derived keyword bibliographic coupling network are revealed, including two large clusters, one with two smaller clusters and the other with five smaller clusters. The growth index and mean publishing year of each keyword and cluster are measured to pinpoint emerging topics. The analysis highlights the emergence of critical data literacy for social justice in higher education amidst the ongoing pandemic and the rise of AI chatbots. The enhanced PageRank main path algorithm, developed in this study, demonstrates its effectiveness in identifying parallel research streams developing across different fields.

초록보기
초록

대출데이터는 대학도서관에 축적된 중요한 데이터로서 도서관 장서개발이나 서비스 개선에 활용될 수 있는 중요한 데이터이다. 이 연구는 대출빈도를 기반으로 한 다양한 대출관련지수를 비교분석하여 지수별 특성을 파악한 후 도서관 운영에 적용할 수 있는 타당성을 평가하고자 하였다. A 대학도서관의 10개 단과대학별 대출데이터를 대상으로 비교분석한 지수는 대출빈도, 대출엔트로피, 대출 h-지수, 대출주제차별지수 등 총 4개의 지수이다. 이 지수들을 적용하여 단과대학별 대출현황을 분석하였고 단과대학별로 나타나는 대출주제의 특성을 표하는 각 지수의 특성을 비교 분석하였다. 분석 결과 대출 엔트로피는 여러 대학이 공통으로 선호하는 주제를 표현하는 성향이 있는 것으로 나타났다. 반면 대출주제차별지수는 특정대학에서만 특화되어 대출되는 주제를 표현하는 성향이 있는 것으로 나타났다.

Abstract

Circulation data is a key data set of academic libraries in terms of collection development and service improvement This study aims to identify the characteristics of circulation measures and their feasibility. This study collected the circulation data of 10 colleges in a university and analyzed 4 measures based on the circulation data: circulation frequency, circulation entropy, circulation h-index, and circulation divergence. These measures are to present the circulation topics of each college. This study identified that circulation entropy tends to present general topics which are popular for many colleges, but circulation divergence tends to present specific topics which are preferred by a specific college.

초록보기
초록

연관성 척도는 정보검색 및 데이터마이닝을 비롯한 다양한 분야에서 사용되고 있다. 각 연관성 척도가 높거나 낮은 빈도 중에서 어떤 쪽을 선호하는가를 나타내는 빈도수준 선호경향은 척도의 적용 결과에 중요한 영향을 미치므로 이에 대한 면밀한 조사가 필요하다. 이 연구에서는 주요 연관성 척도들의 빈도수준 선호경향을 가상의 데이터를 통해 분석하고 그 결과를 제시하였다. 또한 코사인 계수를 비롯한 대표적인 연관성 척도에 대해서 빈도수준 선호경향을 조절할 수 있는 방법을 제안하였다. 이 조절 방법을 동시출현 기반 질의확장 정보검색에 적용해본 결과 그 유용성이 확인되었다. 마지막으로 분석 및 실험 결과가 관련 분야에 시사하는 바를 논하였다.

Abstract

Association measures are applied to various applications, including information retrieval and data mining. Each association measure is subject to a close examination to its tendency to prefer high or low frequency level because it has a significant impact on the performance of applications. This paper examines the frequency level preference(FLP) tendency of some popular association measures using artificially generated cooccurrence data, and evaluates the results. After that, a method of how to adjust the FLP tendency of major association measures such as cosine coefficient is proposed. This method is tested on the cooccurrence-based query expansion in information retrieval and the result can be regarded as promising the usefulness of the method. Based on these results of analysis and experiment, implications for related disciplines are identified.

4
이재윤(명지대학교 문헌정보학과) ; 정은경(이화여자대학교 문헌정보학과) 2022, Vol.39, No.1, pp.309-330 https://doi.org/10.3743/KOSIM.2022.39.1.309
초록보기
초록

학문의 구조, 특성, 하위 분야 등을 계량적으로 규명하는 지적구조 분석 연구가 최근 급격히 증가하는 추세이다. 지적구조 분석 연구를 수행하기 위하여 전통적으로 사용되는 분석기법은 서지결합분석, 동시인용분석, 단어동시출현분석, 저자서지결합분석 등이다. 이 연구의 목적은 키워드서지결합분석(KBCA, Keyword Bibliographic Coupling Analysis)을 새로운 지적구조 분석 방식으로 제안하고자 한다. 키워드서지결합분석 기법은 저자서지결합분석의 변형으로 저자 대신에 키워드를 표지로 하여 키워드가 공유한 참고문헌의 수를 두 키워드의 주제적 결합 정도로 산정한다. 제안된 키워드서지결합분석 기법을 사용하여 Web of Science에서 검색된 ‘Open Data’ 분야의 1,366건의 논문집합을 대상으로 분석하였다. 1,366건의 논문집합에서 추출된 7회 이상 출현한 63종의 키워드를 오픈데이터 분야의 핵심 키워드로 선정하였다. 63종의 핵심 키워드를 대상으로 키워드서지결합분석 기법으로 제시된 지적구조는 열린정부와 오픈사이언스라는 주된 영역과 10개의 소주제로 규명되었다. 이에 반해 단어동시출현분석의 지적구조 네트워크는 전체 구성과 세부 영역 구조 규명에 있어 미진한 것으로 나타났다. 이러한 결과는 키워드서지결합분석이 키워드 간의 서지결합도를 사용하여 키워드 간의 관계를 풍부하게 측정하기 때문이라고 볼 수 있다.

Abstract

Intellectual structure analysis, which quantitatively identifies the structure, characteristics, and sub-domains of fields, has rapidly increased in recent years. Analysis techniques traditionally used to conduct intellectual structure analysis research include bibliographic coupling analysis, co-citation analysis, co-occurrence analysis, and author bibliographic coupling analysis. This study proposes a novel intellectual structure analysis method, Keyword Bibliographic Coupling Analysis (KBCA). The Keyword Bibliographic Coupling Analysis (KBCA) is a variation of the author bibliographic coupling analysis, which targets keywords instead of authors. It calculates the number of references shared by two keywords to the degree of coupling between the two keywords. A set of 1,366 articles in the field of ‘Open Data’ searched in the Web of Science were collected using the proposed KBCA technique. A total of 63 keywords that appeared more than 7 times, extracted from 1,366 article sets, were selected as core keywords in the open data field. The intellectual structure presented by the KBCA technique with 63 key keywords identified the main areas of open government and open science and 10 sub-areas. On the other hand, the intellectual structure network of co-occurrence word analysis was found to be insufficient in the overall structure and detailed domain structure. This result can be considered because the KBCA sufficiently measures the relationship between keywords using the degree of bibliographic coupling.

5
김지현(이화여자대학교) ; 정은경(이화여자대학교) ; 윤정원(University of South Florida) ; 이재윤(명지대학교) 2017, Vol.34, No.1, pp.7-29 https://doi.org/10.3743/KOSIM.2017.34.1.007
초록보기
초록

학술 커뮤니티 내에서 논문의 인용은 보편적인 규범으로 자리 잡은 데 비해 데이터의 인용은 아직 초보적인 단계에 머물러 있다. 이를 개선하기 위해 제기되고 있는 데이터 인용의 필요성 및 원칙과 가이드라인에 대해서 살펴보았다. 또한 데이터 인용체계 구축 사례에서는 데이터 인용 요소들을 정의하고 서비스를 제공하는 DataCite, Dataverse Network, Data Citation Index 사례를 중심으로 살펴보았다. 마지막으로 한국종합사회조사 데이터 인용 분석을 통해 국내 데이터세트 인용/이용 정보 제공 실태를 조사하였다.

Abstract

Data citation remains in its infancy, although providing the citation to a journal article is a typical norm in an academic community. This study examines the need for data citation, its principles and guidelines for improving the issue. In addition, the study investigates cases that established data citation mechanism, including DataCite, Dataverse Network and Data Citation Index that define elements of data citation and provide relevant services. At the end, it explores the current state of data citation in Korea through the analysis of citations to dataset from Korean General Social Survey.

6
김조아(명지대학교 대학원 문헌정보학과) ; 이재윤(명지대학교) 2016, Vol.33, No.2, pp.201-225 https://doi.org/10.3743/KOSIM.2016.33.2.201
초록보기
초록

학제적 분야의 연구 전선을 분석하는 새로운 기법으로 인용 이미지 구축자 프로파일링 기법을 제안하였다. 인용 이미지 구축자 프로파일링은 해당 문헌을 인용한 문헌의 표제어를 단서로 사용하여 문헌 간의 주제관계를 파악하는 방법이다. 이 연구에서는 시험적으로 국내 여성학 연구를 대상으로 인용 이미지 구축자 프로파일링 기법을 적용하여 연구 전선과 주요 연구 주제를 파악해보았다. 분석 대상은 KCI의 2015년 기준 여성학분야 인용빈도 10회 이상에 해당하는 핵심문헌 집합이다. 여성학 분야에 문헌동시인용 기법을 적용한 결과 인용 데이터 부족 때문에 어려움이 있었던 반면에, 인용 이미지 구축자 프로파일링 기법을 적용한 결과 성공적으로 2개 대분야 및 6개 소분야를 파악할 수 있었다. 이 연구에서 제안한 인용 이미지 구축자 프로파일링 기법은 학제적 연구분야의 동향을 파악하는데 기여할 수 있을 것으로 기대된다.

Abstract

A new technique for revealing the research fronts of a interdisciplinary discipline has been developed. Citation image makers profiling (CIMP) determines the relationships between research papers with the title words of the citing documents. We adapted this new technique to analyze the research fronts and hot topics in women’s studies of Korea. By Korean Citation Index (KCI) data in 2015, we selected 148 papers cited more than 9 times as the core documents of women’s studies. Analysis of intellectual structure using citation image makers profiling was performed with the 148 core documents and those citing papers. Document co-citation analysis was hindered by citation data sparsity, while CIMP method successfully revealed the structure of research fronts of Korean women’s studies including 2 divisions and 6 subdivisions. The CIMP method suggested in this study has good potential to discover the characteristics of research fronts of interdisciplinary research domains.

초록보기
초록

한국학술지인용색인 KCI의 데이터를 사용한 문헌동시인용 분석을 통해 2004년부터 2013년까지 10년 동안의 한국 문헌정보학의 연구 전선을 구체적으로 파악해보았다. KCI 웹사이트로부터 문헌정보학 분야 핵심 논문 159개와 이를 인용한 논문 정보를 수작업으로 수집하였다. 군집 분석 및 네트워크 분석 결과 27개의 복수 논문 군집과 8개의 단일 논문 군집이 도출되었다. 27개의 복수 논문 군집 중에서 논문 수가 가장 많은 것은 ‘문헌정보학 교육’ 주제 군집이었고, 인용 영향력이 가장 큰 것은 ‘인용분석 & 지적구조 분석’ 주제 군집이었다. 핵심 문헌 집합에 대한 인용 중에서 67.5%는 문헌정보학 내부에서 이루어졌고, 나머지 32.5%는 타 학문 분야로부터 발생한 것이었다. 전반적으로 문헌정보학 분야 내 인용 비율과 인용 영향력 성장 지수를 모두 고려하였을 때, 문헌정보학 분야 내부에서 최근 연구가 가장 활발해지고 있는 연구 전선 주제로는 ‘지역 기록’, ‘인용분석 & 지적구조 분석’, ‘연구동향 분석’의 세 주제가 꼽혔다. 이 연구에서 사용된 분석 기법은 국내 학제적 연구 분야의 연구 전선 분석에 효과적일 것으로 기대된다.

Abstract

By document co-citation analysis with Korean Citation Index (KCI) data, this study accurately identified the research fronts and hot topics in Korean library and information science (LIS) from 2004 to 2013. 159 core papers in LIS domain and their citations are scraped manually from Korean Citation Index web site. In the cluster analysis and network analysis, 159 core papers were grouped into 27 clusters with multiple papers and 8 singlton clusters. Among the 27 clusters which have multple papers, ‘LIS education’ cluster was the largest with 16 core papers, and ‘citation analysis & intellectual structure analysis’ cluster had the strongest citation impact according to the ehs-index. Closer observation of the citations to the core papers in each research front showed that 67.5% of the citations were made by LIS research papers and 32.5% of the citations were made by non-LIS research papers. Considering the share of citations and the citation impact growth index, ‘local documentation’, ‘citation analysis & intellectual structure analysis’, and ‘research trends analysis’ were identified as the most emerging research front in Korean library and information science. The analytical methods used in this study have great potential in discovering the characteristics of research fronts in Korean interdisciplinary research domains.

초록보기
초록

이 연구에서는 공개된 가중 네트워크 분석용 소프트웨어인 Opsahl의 tnet과 이재윤의 WNET에서 지원하는 가중 네트워크 중심성 지수를 비교 분석해보았다. tnet은 가중 연결정도중심성, 가중 근접중심성, 가중 매개중심성을 지원하고, WNET은 최근접이웃중심성, 평균연관성, 평균프로파일연관성, 삼각매개중심성을 지원한다. 가상 데이터를 대상으로 한 분석에서 tnet의 중심성 지수는 링크 가중치의 선형 변화에 민감한 반면 WNET의 중심성 지수는 선형 변화에 영향을 받지 않았다. 실제 네트워크 6종을 대상으로 가중 네트워크 중심성을 측정하고 결과를 비교하여 두 소프트웨어의 가중 네트워크 중심성 지수들의 특징을 파악하고 중심성 지수 간 관계를 살펴보았다.

Abstract

This study compared and analyzed weighted network centrality measures supported by Opsahl’s tnet and Lee’s WNET, which are free softwares for weighted network analysis. Three node centrality measures including weighted degree, weighted closeness, and weighted betweenness are supported by tnet, and four node centrality measures including nearest neighbor centrality, mean association, mean profile association, triangle betweenness centrality are supported by WNET. An experimental analysis carried out on artificial network data showed tnet’s high sensitiveness on linear transformations of link weights, however, WNET’s centrality measures were insensitive to linear transformations. Seven centrality measures from both tools, tnet and WNET, were calculated on six real network datasets. The results showed the characteristics of weighted network centrality measures of tnet and WNET, and the relationships between them were also discussed.

9
이재윤(명지대학교) ; 정은경(이화여자대학교) 2014, Vol.31, No.2, pp.57-77 https://doi.org/10.3743/KOSIM.2014.31.2.057
초록보기
초록

Abstract

As co-authorship has been prevalent within science communities, counting the credit of co-authors appropriately is an important consideration, particularly in the context of identifying the knowledge structure of fields with author-based analysis. The purpose of this study is to compare the characteristics of co-author credit counting methods by utilizing correlations, multidimensional scaling, and pathfinder networks. To achieve this purpose, this study analyzed a dataset of 2,014 journal articles and 3,892 cited authors from the Journal of the Architectural Institute of Korea: Planning & Design from 2003 to 2008 in the field of Architecture in Korea. In this study, six different methods of crediting co-authors are selected for comparative analyses. These methods are first-author counting (m1), straight full counting (m2), and fractional counting (m3), proportional counting with a total score of 1 (m4), proportional counting with a total score between 1 and 2 (m5), and first-author-weighted fractional counting (m6). As shown in the data analysis, m1 and m2 are found as extreme opposites, since m1 counts only first authors and m2 assigns all co-authors equally with a credit score of 1. With correlation and multidimensional scaling analyses, among five counting methods (from m2 to m6), a group of counting methods including m3, m4, and m5 are found to be relatively similar. When the knowledge structure is visualized with pathfinder network, the knowledge structure networks from different counting methods are differently presented due to the connections of individual links. In addition, the internal validity shows that first-author-weighted fractional counting (m6) might be considered a better method to author clustering. Findings demonstrate that different co-author counting methods influence the network results of knowledge structure and a better counting method is revealed for author clustering.

10
김판준(신라대학교) ; 이재윤(경기대학교) 2007, Vol.24, No.4, pp.285-303 https://doi.org/10.3743/KOSIM.2007.24.4.285
초록보기
초록

본 연구는 연구 영역 분석을 위하여 통제어휘와 비통제어휘를 연계해서 사용하는 새로운 방법을 모색하기 위한 것이다. 동시출현단어분석은 크게 통제어휘와 비통제어휘를 사용하는 경우의 두 가지 유형으로 구분할 수 있는데, 통제어휘를 사용할 경우에는 자료 희귀성 및 색인자 효과가 단점이며, 비통제어휘를 사용할 경우에는 저자의 주관에 따른 단어 선택 및 단어의 중의성이 문제가 된다. 이 연구에서는 양자를 보완할 수 있는 방법으로, 통제어휘인 디스크립터를 비통제어휘인 단어와의 동시출현 정보로 표현하는 디스크립터 프로파일링을 제안하였다. 정보학 분야에 적용해본 결과, 디스크립터 프로파일링은 특정 영역의 최신 동향을 파악하는데 있어 통제어휘와 비통제어휘가 갖는 본질적인 문제점을 어느 정도 보완할 수 있는 것으로 나타났다.

Abstract

This study aims to explore a new technique making complementary linkage between controlled vocabularies and uncontrolled vocabularies for analyzing a research domain. Co-word analysis can be largely divided into two based on the types of vocabulary used: controlled and uncontrolled. In the case of using controlled vocabulary, data sparseness and indexer effect are inherent drawbacks. On the other case, word selection by the author's perspective and word ambiguity. To complement each other, we suggest a descriptor profiling that represents descriptors(controlled vocabulary) as the co-occurrence with words from the text(uncontrolled vocabulary). Applying the profiling to the domain of information science implies that this method can complement each other by reducing the inherent shortcoming of the controlled and uncontrolled vocabulary.

정보관리학회지