바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: data paper, 검색결과: 8
1
김조아(명지대학교 대학원 문헌정보학과) ; 이재윤(명지대학교) 2016, Vol.33, No.2, pp.201-225 https://doi.org/10.3743/KOSIM.2016.33.2.201
초록보기
초록

학제적 분야의 연구 전선을 분석하는 새로운 기법으로 인용 이미지 구축자 프로파일링 기법을 제안하였다. 인용 이미지 구축자 프로파일링은 해당 문헌을 인용한 문헌의 표제어를 단서로 사용하여 문헌 간의 주제관계를 파악하는 방법이다. 이 연구에서는 시험적으로 국내 여성학 연구를 대상으로 인용 이미지 구축자 프로파일링 기법을 적용하여 연구 전선과 주요 연구 주제를 파악해보았다. 분석 대상은 KCI의 2015년 기준 여성학분야 인용빈도 10회 이상에 해당하는 핵심문헌 집합이다. 여성학 분야에 문헌동시인용 기법을 적용한 결과 인용 데이터 부족 때문에 어려움이 있었던 반면에, 인용 이미지 구축자 프로파일링 기법을 적용한 결과 성공적으로 2개 대분야 및 6개 소분야를 파악할 수 있었다. 이 연구에서 제안한 인용 이미지 구축자 프로파일링 기법은 학제적 연구분야의 동향을 파악하는데 기여할 수 있을 것으로 기대된다.

Abstract

A new technique for revealing the research fronts of a interdisciplinary discipline has been developed. Citation image makers profiling (CIMP) determines the relationships between research papers with the title words of the citing documents. We adapted this new technique to analyze the research fronts and hot topics in women’s studies of Korea. By Korean Citation Index (KCI) data in 2015, we selected 148 papers cited more than 9 times as the core documents of women’s studies. Analysis of intellectual structure using citation image makers profiling was performed with the 148 core documents and those citing papers. Document co-citation analysis was hindered by citation data sparsity, while CIMP method successfully revealed the structure of research fronts of Korean women’s studies including 2 divisions and 6 subdivisions. The CIMP method suggested in this study has good potential to discover the characteristics of research fronts of interdisciplinary research domains.

초록보기
초록

한국학술지인용색인 KCI의 데이터를 사용한 문헌동시인용 분석을 통해 2004년부터 2013년까지 10년 동안의 한국 문헌정보학의 연구 전선을 구체적으로 파악해보았다. KCI 웹사이트로부터 문헌정보학 분야 핵심 논문 159개와 이를 인용한 논문 정보를 수작업으로 수집하였다. 군집 분석 및 네트워크 분석 결과 27개의 복수 논문 군집과 8개의 단일 논문 군집이 도출되었다. 27개의 복수 논문 군집 중에서 논문 수가 가장 많은 것은 ‘문헌정보학 교육’ 주제 군집이었고, 인용 영향력이 가장 큰 것은 ‘인용분석 & 지적구조 분석’ 주제 군집이었다. 핵심 문헌 집합에 대한 인용 중에서 67.5%는 문헌정보학 내부에서 이루어졌고, 나머지 32.5%는 타 학문 분야로부터 발생한 것이었다. 전반적으로 문헌정보학 분야 내 인용 비율과 인용 영향력 성장 지수를 모두 고려하였을 때, 문헌정보학 분야 내부에서 최근 연구가 가장 활발해지고 있는 연구 전선 주제로는 ‘지역 기록’, ‘인용분석 & 지적구조 분석’, ‘연구동향 분석’의 세 주제가 꼽혔다. 이 연구에서 사용된 분석 기법은 국내 학제적 연구 분야의 연구 전선 분석에 효과적일 것으로 기대된다.

Abstract

By document co-citation analysis with Korean Citation Index (KCI) data, this study accurately identified the research fronts and hot topics in Korean library and information science (LIS) from 2004 to 2013. 159 core papers in LIS domain and their citations are scraped manually from Korean Citation Index web site. In the cluster analysis and network analysis, 159 core papers were grouped into 27 clusters with multiple papers and 8 singlton clusters. Among the 27 clusters which have multple papers, ‘LIS education’ cluster was the largest with 16 core papers, and ‘citation analysis & intellectual structure analysis’ cluster had the strongest citation impact according to the ehs-index. Closer observation of the citations to the core papers in each research front showed that 67.5% of the citations were made by LIS research papers and 32.5% of the citations were made by non-LIS research papers. Considering the share of citations and the citation impact growth index, ‘local documentation’, ‘citation analysis & intellectual structure analysis’, and ‘research trends analysis’ were identified as the most emerging research front in Korean library and information science. The analytical methods used in this study have great potential in discovering the characteristics of research fronts in Korean interdisciplinary research domains.

초록보기
초록

개체들 사이의 관계를 저차원 공간에 매핑하는 다차원척도법을 수행하기 위한 다양한 방법과 알고리즘이 개발되어왔다. 그러나 PROXSCAL이나 ALSCAL과 같은 기존의 기법들은 50개 이상의 개체를 포함하는 데이터 집합을 대상으로 개체 간의 관계와 군집 구조를 시각화하는데 있어서 효과적이지 못한 것으로 나타났다. 이 연구에서 제안하는 군집 지향 척도법 CLUSCAL(CLUster-oriented SCALing)은 기존 방법과 달리 입력되는 데이터의 군집 구조를 고려하도록 고안되었다. 50명의 저자동시인용 데이터와 85개 단어의 동시출현 데이터에 대해서 적용해본 결과 제안한 CLUSCAL 기법은 군집 구조를 잘 식별할 수 있는 MDS 지도를 생성하는 유용한 기법임이 확인되었다.

Abstract

There have been many methods and algorithms proposed for multidimensional scaling to mapping the relationships between data objects into low dimensional space. But traditional techniques, such as PROXSCAL or ALSCAL, were found not effective for visualizing the proximities between objects and the structure of clusters of large data sets have more than 50 objects. The CLUSCAL(CLUster-oriented SCALing) technique introduced in this paper differs from them especially in that it uses cluster structure of input data set. The CLUSCAL procedure was tested and evaluated on two data sets, one is 50 authors co-citation data and the other is 85 words co-occurrence data. The results can be regarded as promising the usefulness of CLUSCAL method especially in identifying clusters on MDS maps.

초록보기
초록

연관성 척도는 정보검색 및 데이터마이닝을 비롯한 다양한 분야에서 사용되고 있다. 각 연관성 척도가 높거나 낮은 빈도 중에서 어떤 쪽을 선호하는가를 나타내는 빈도수준 선호경향은 척도의 적용 결과에 중요한 영향을 미치므로 이에 대한 면밀한 조사가 필요하다. 이 연구에서는 주요 연관성 척도들의 빈도수준 선호경향을 가상의 데이터를 통해 분석하고 그 결과를 제시하였다. 또한 코사인 계수를 비롯한 대표적인 연관성 척도에 대해서 빈도수준 선호경향을 조절할 수 있는 방법을 제안하였다. 이 조절 방법을 동시출현 기반 질의확장 정보검색에 적용해본 결과 그 유용성이 확인되었다. 마지막으로 분석 및 실험 결과가 관련 분야에 시사하는 바를 논하였다.

Abstract

Association measures are applied to various applications, including information retrieval and data mining. Each association measure is subject to a close examination to its tendency to prefer high or low frequency level because it has a significant impact on the performance of applications. This paper examines the frequency level preference(FLP) tendency of some popular association measures using artificially generated cooccurrence data, and evaluates the results. After that, a method of how to adjust the FLP tendency of major association measures such as cosine coefficient is proposed. This method is tested on the cooccurrence-based query expansion in information retrieval and the result can be regarded as promising the usefulness of the method. Based on these results of analysis and experiment, implications for related disciplines are identified.

5
이재윤(명지대학교) 2016, Vol.33, No.3, pp.7-29 https://doi.org/10.3743/KOSIM.2016.33.3.007
초록보기
초록

연구자 성과 평가를 위해 널리 사용되는 h-지수는 일관성 부족 문제와 공저자 수를 고려하지 않는다는 문제를 가지고 있다. 이를 극복하기 위해 h-지수와 g-지수, 그리고 공저 보정 방안을 검토하고 2004년부터 2013년 사이의 실제 KCI 데이터를 대상으로 분석해본 결과는 다음과 같다. 첫째, 일관성 결여 문제를 해소하기 위해서는 g-지수를 사용하는 것이 더 바람직하다고 판단된다. 둘째, 연구 성과의 양적인 측면과 질적인 측면을 한꺼번에 반영하는 복합 지수라는 h-지수와 g-지수의 고유한 특성을 유지하기 위해서는 반드시 공저를 보정하여 지수를 측정해야 한다. 셋째, 공저자 수로 나눈 인용빈도를 사용하는 hC-지수와 gC-지수를 적용하면 단독 저술 비중이 높은 인문학 분야 연구자도 공정하게 평가할 수 있고, 특정 분야나 특정 기관에 속한 연구자가 상위 순위를 과점하는 현상을 방지할 수 있다.

Abstract

The h-index is a popular bibliometric indicator for evaluating individual researchers. However, it has been criticized for its inconsistency with reflecting increased number of citations and disregarding the number of co-authors in a paper. In order to overcome these problems, we examined the g-index and other Hirsch-type indices considering the number of co-authors. Test data collection was extracted from Korean Citation Index database published from 2004 to 2013. The results of this study are as follows: First, g-index is more reliable indicator than h-index with consistency. Second, number of co-authors must be considered to maintain the h-index as an complex indicator applying the quality and the quantity of research performance. Finally, hc-index and gc-index, with fractionalised counting of the papers, can fairly measure the research performance of humanities researchers, and successfully prevent specific disciplines or institutions occupying majority of top rankings.

6
정경희(한성대학교 디지털인문정보학트랙 교수) ; 이재윤(명지대학교 문헌정보학과 교수) ; 정은경(이화여자대학교 문헌정보학과 교수) ; 최상희(대구가톨릭대학교 도서관학과 부교수) 2020, Vol.37, No.4, pp.255-286 https://doi.org/10.3743/KOSIM.2020.37.4.255
초록보기
초록

본 연구는 ‘한국연구재단 오픈액세스 2021(안)’에 대한 실행방안을 도출하기 위한 것이다. 본 연구는 APC 지원규모와 방법 및 절차, 국내 학술지의 오픈액세스 전환 지원, 오픈액세스 리포지터리에 논문을 기탁하는 방안 등 세 가지 측면에서 실행방안을 제안하였다. 첫째, APC는 합리적인 수준에서 지원되어야 하며 그 상한액을 설정하기 위하여 매년도 이전 3년간 오픈액세스 학술지에 출판한 논문의 APC 평균값이나 중위값을 적용한다. 또한 APC는 오픈액세스 학술지와 오픈액세스전환약정 학술지에 논문을 출판하는 경우 지원하고 하이브리드 학술지나 이중접근 학술지에는 지원하지 않는다. 둘째, 국내 학술지 오픈액세스 출판전환을 위하여 과도기에는 KJCI에 CCL 적용을 등록한 오픈액세스 학술지와 오픈액세스 출판 전환의향서를 제출한 학술지에 대하여 지원사업 신청이 가능하도록 해야 한다. 셋째, 하이브리드 학술지와 이중접근 학술지 및 구독학술지에 출판한 경우 원문기탁과 동시에 엠바고 등 저작권 사항을 보고해야 한다. 본 연구의 결과는 한국연구재단이 국내 학술지 출판환경과 국제적인 학술커뮤니케이션 상황에 부합하는 오픈액세스 정책을 신속하면서도 안정적이고 지속적으로 실행하는데 기초 자료로 활용될 수 있을 것이다.

Abstract

This study aims to identify the methods of implementation for the ‘National Research Foundation of Korea Open Access 2021(Plan)’. This study covers the methods of implementation in the three following core items: 1) developing the details on the amount, method, and procedures of APC support; 2) proposing methods for facilitating the transition of domestic Korean academic journals to open access journals; and 3) developing methods of entrusting papers to open access repositories. APC support should be guaranteed at a reasonable level. The average or median of APC values for the previous three years will be applied to set the upper limit for support each year. APC support will be provided when the paper is published to open access journals or transitioning journals to open access. Hybrid journals or dual access journals are not included. Support for open access publishing of academic journals in Korea during the transition period will be available for open access journals that have registered for CCL in KJCI or journals that have submitted their application for transitioning to open access. Publishing in hybrid, dual access or subscription-based journals must be accompanied by items related to copyright such as embargo. Research results will be used for the detailed implementation plan of ‘NRF OA2021 (Plan)’. They will serve as the base data for the rapid, stable, and sustainable implementation of open access policy in NRF, addressing the Korean domestic academic journal publishing environment and the field of international academic communication.

7
이재윤(명지대학교 문헌정보학과) 2023, Vol.40, No.4, pp.403-428 https://doi.org/10.3743/KOSIM.2023.40.4.403
초록보기
초록

이 연구에서는 데이터 리터러시 분야 연구의 발전 경로와 지적구조 및 떠오르는 유망 주제를 파악하고자 하였다. 이를 위해서 Web of Science에서 검색한 데이터 리터러시 관련 논문은 교육학 분야와 문헌정보학 분야 논문이 전체의 60% 가까이를 차지하였다. 우선 인용 네트워크 분석에서는 페이지랭크 알고리즘을 사용해서 인용 영향력이 높은 다양한 주제의 핵심 논문을 파악하였다. 데이터 리터러시 연구의 발전 경로를 파악하기 위해서 기존의 주경로분석법을 적용해보았으나 교육학 분야의 연구 논문만 포함되는 한계가 있었다. 이를 극복할 수 있는 새로운 기법으로 페이지랭크 주경로분석법을 개발한 결과, 교육학 분야와 문헌정보학 분야의 핵심 논문이 모두 포함되는 발전 경로를 파악할 수 있었다. 데이터 리터러시 연구의 지적구조를 분석하기 위해서 키워드 서지결합 분석을 시행하였다. 도출된 키워드 서지결합 네트워크의 세부 구조와 군집 파악을 위해서 병렬최근접이웃클러스터링 알고리즘을 적용한 결과 대군집 2개와 그에 속한 소군집 7개를 파악할 수 있었다. 부상하는 유망 주제를 도출하기 위해서 각 키워드와 군집의 성장지수와 평균출판년도를 측정하였다. 분석 결과 팬데믹 상황과 AI 챗봇의 부상이라는 시대적 배경 하에서 사회정의를 위한 비판적 데이터 리터러시가 고등교육 측면에서 급부상하고 있는 것으로 나타났다. 또한 이 연구에서 연구의 발전경로를 파악하는 수단으로 새롭게 개발한 페이지랭크 주경로분석 기법은 서로 다른 영역에서 병렬적으로 발전하는 둘 이상의 연구흐름을 발견하기에 효과적이었다.

Abstract

This study investigates the development path and intellectual structure of data literacy research, aiming to identify emerging topics in the field. A comprehensive search for data literacy-related articles on the Web of Science reveals that the field is primarily concentrated in Education & Educational Research and Information Science & Library Science, accounting for nearly 60% of the total. Citation network analysis, employing the PageRank algorithm, identifies key papers with high citation impact across various topics. To accurately trace the development path of data literacy research, an enhanced PageRank main path algorithm is developed, which overcomes the limitations of existing methods confined to the Education & Educational Research field. Keyword bibliographic coupling analysis is employed to unravel the intellectual structure of data literacy research. Utilizing the PNNC algorithm, the detailed structure and clusters of the derived keyword bibliographic coupling network are revealed, including two large clusters, one with two smaller clusters and the other with five smaller clusters. The growth index and mean publishing year of each keyword and cluster are measured to pinpoint emerging topics. The analysis highlights the emergence of critical data literacy for social justice in higher education amidst the ongoing pandemic and the rise of AI chatbots. The enhanced PageRank main path algorithm, developed in this study, demonstrates its effectiveness in identifying parallel research streams developing across different fields.

초록보기
초록

문헌간 유사도를 자질로 사용하는 분류기에서 미분류 문헌을 학습에 활용하여 분류 성능을 높이는 방안을 모색해보았다. 자동분류를 위해서 다량의 학습문헌을 수작업으로 확보하는 것은 많은 비용이 들기 때문에 미분류 문헌의 활용은 실용적인 면에서 중요하다. 미분류 문헌을 활용하는 준지도학습 알고리즘은 대부분 수작업으로 분류된 문헌을 학습데이터로 삼아서 미분류 문헌을 분류하는 첫 번째 단계와, 수작업으로 분류된 문헌과 자동으로 분류된 문헌을 모두 학습 데이터로 삼아서 분류기를 학습시키는 두 번째 단계로 구성된다. 이 논문에서는 문헌간 유사도 자질을 적용하는 상황을 고려하여 두 가지 준지도학습 알고리즘을 검토하였다. 이중에서 1단계 준지도학습 방식은 미분류 문헌을 문헌유사도 자질 생성에만 활용하므로 간단하며, 2단계 준지도학습 방식은 미분류 문헌을 문헌유사도 자질 생성과 함께 학습 예제로도 활용하는 알고리즘이다. 지지벡터기계와 나이브베이즈 분류기를 이용한 실험 결과, 두 가지 준지도학습 방식 모두 미분류 문헌을 활용하지 않는 지도학습 방식보다 높은 성능을 보이는 것으로 나타났다. 특히 실행효율을 고려한다면 제안된 1단계 준지도학습 방식이 미분류 문헌을 활용하여 분류 성능을 높일 수 있는 좋은 방안이라는 결론을 얻었다

Abstract

This paper studies the problem of classifying documents with labeled and unlabeled learning data, especially with regards to using document similarity features. The problem of using unlabeled data is practically important because in many information systems obtaining training labels is expensive, while large quantities of unlabeled documents are readily available. There are two steps in general semi-supervised learning algorithm. First, it trains a classifier using the available labeled documents, and classifies the unlabeled documents. Then, it trains a new classifier using all the training documents which were labeled either manually or automatically. We suggested two types of semi-supervised learning algorithm with regards to using document similarity features. The one is one step semi-supervised learning which is using unlabeled documents only to generate document similarity features. And the other is two step semi-supervised learning which is using unlabeled documents as learning examples as well as similarity features. Experimental results, obtained using support vector machines and naive Bayes classifier, show that we can get improved performance with small labeled and large unlabeled documents then the performance of supervised learning which uses labeled-only data. When considering the efficiency of a classifier system, the one step semi-supervised learning algorithm which is suggested in this study could be a good solution for improving classification performance with unlabeled documents.

정보관리학회지