바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: data science, 검색결과: 82
61
김선욱(경북대학교 사회과학대학 문헌정보학과) ; 이혜경(경북대학교 문헌정보학과) ; 이용구(경북대학교) 2023, Vol.40, No.2, pp.183-209 https://doi.org/10.3743/KOSIM.2023.40.2.183
초록보기
초록

이 연구의 목적은 ChatGPT가 도서의 표지, 표제지, 판권기 데이터를 활용하여 생성한 더블린코어의 품질 평가를 통하여 ChatGPT의 메타데이터의 생성 능력과 그 가능성을 확인하는 데 있다. 이를 위하여 90건의 도서의 표지, 표제지와 판권기 데이터를 수집하여 ChatGPT에 입력하고 더블린 코어를 생성하게 하였으며, 산출물에 대해 완전성과 정확성 척도로 성능을 파악하였다. 그 결과, 전체 데이터에 있어 완전성은 0.87, 정확성은 0.71로 준수한 수준이었다. 요소별로 성능을 보면 Title, Creator, Publisher, Date, Identifier, Right, Language 요소가 다른 요소에 비해 상대적으로 높은 성능을 보였다. Subject와 Description 요소는 완전성과 정확성에 대해 다소 낮은 성능을 보였으나, 이들 요소에서 ChatGPT의 장점으로 알려진 생성 능력을 확인할 수 있었다. 한편, DDC 주류인 사회과학과 기술과학 분야에서 Contributor 요소의 정확성이 다소 낮았는데, 이는 ChatGPT의 책임표시사항 추출 오류 및 데이터 자체에서 메타데이터 요소용 서지 기술 내용의 누락, ChatGPT가 지닌 영어 위주의 학습데이터 구성 등에 따른 것으로 판단하였다.

Abstract

The purpose of this study is to evaluate the Dublin Core metadata generated by ChatGPT using book covers, title pages, and colophons from a collection of books. To achieve this, we collected book covers, title pages, and colophons from 90 books and inputted them into ChatGPT to generate Dublin Core metadata. The performance was evaluated in terms of completeness and accuracy. The overall results showed a satisfactory level of completeness at 0.87 and accuracy at 0.71. Among the individual elements, Title, Creator, Publisher, Date, Identifier, Rights, and Language exhibited higher performance. Subject and Description elements showed relatively lower performance in terms of completeness and accuracy, but it confirmed the generation capability known as the inherent strength of ChatGPT. On the other hand, books in the sections of social sciences and technology of DDC showed slightly lower accuracy in the Contributor element. This was attributed to ChatGPT’s attribution extraction errors, omissions in the original bibliographic description contents for metadata, and the language composition of the training data used by ChatGPT.

초록보기
초록

이 연구에서는 특정 주제 분야의 핵심적이고 전역적인 연구 동향을 제공하는 연구지원 정보서비스 개발을 위해 SPLC(Search Path Link Count) 분석을 적용할 때, 데이터의 범위와 인용빈도 설정에 대하여 탐험적으로 살펴보고자 하였다. 이를 위하여 Web of Science에서 검색된 RGB LED 분야의 2,318개 논문과 20,109개 상위 인용논문으로 5개의 데이터셋을 구성하였다. 각 데이터셋에서 히스토리오그래프와 SPLC 네트워크를 인용빈도 임계치를 변화시키면서 28개 주요 연구 동향 네트워크를 추출하여, 인용문헌의 포함여부와 인용빈도 임계치 설정이 SPLC 네트워크에 미치는 영향을 살펴보았다. 그리고 특정 기관 소속 연구자들에게 SPLC 네트워크에 포함된 198개 주요 논문 리스트를 제공하고 피드백을 받음으로써, 전역적 연구 동향이 개인 연구자의 정보 요구에 부합하는지 살펴보았다. 분석 결과, 분석 대상에 상위 인용문헌 포함 여부와 인용빈도임계치에 따라 추출되는 SPLC 네트워크가 변화되었으나, 일정 인용빈도임계치값에서는 수렴하였다. 그리고 개인 연구자의 정보 요구는 SPLC를 통해 제공된 전역적 연구 동향과 출판년도의 차이는 있지만 대체적으로 일치하는 것으로 나타나, 인용문헌을 포함하여 인용빈도임계치를 변화시키는 SPLC 분석을 통해 개인 이용자가 원하는 전역적 연구 정보를 제공해 줄 수 있는 것으로 해석된다. 이를 일반화하기 위해서는 이 탐색적 연구에서 제안된 방법을 다양한 분야에 적용하는 후속 연구가 필요할 것이다.

Abstract

The purpose of this study is to examine the data coverage and citation threshold for analyzing SPLC(Search Path Link Count) as a main path of a historiograph of a certain topic in order to provide ‘core’ papers of global research trends to a researcher affiliated with a local R&D institution. 5 datasets were constructed by retrieving and collecting 2,318 articles on RGB LED on Web of Science published from 1990-2013 and 20,109 articles which cited these original 2,318. The SPLC analysis was performed on each dataset by increasing the threshold of citation counts, and the changes and resilience of the 28 extraced networks were compared. The results of user feedback on 198 unique core papers from 28 SPLC networks received from LED researchers affiliated with a Korean government-sponsored research institution were also analyzed. As a result, it is found that the nodes in each SPLC network in each dataset were differentiated by the citation counts, while the changes in the structure of SPLC networks were slight after the networks’ citation counts were set at 40. Additionally, the user feedback showed that personalized research interest generally matched to the global research trends identified by the SPLC analysis.

63
윤화묵(한국과학기술정보연구원) ; 정회경(배재대학교) ; 김창수(연세대학교) ; 유범종(한국과학기술정보연구원) 2002, Vol.19, No.4, pp.96-111 https://doi.org/10.3743/KOSIM.2002.19.4.096
초록보기
초록

현재 기관이나 조직 내에 수많은 양의 데이터가 축적되어 존재하고 있으나 대부분의 데이터는 각 기관이나 조직에 따라 정형화된 형태로 남아있는 실정이다. 정형화된 정보는 정보의 교환 및 공유에 어려움이 있다. 이러한 단점을 극복하고자 지식정보자원관리라는 새로운 개념이 도입되었으며, 축적된 데이터들을 공유 및 관리하기 위한 지식정보자원의 디지털화가 실행되고 있다. 특히 과학기술 또는 교육학술 분야에서는 지식정보자원의 교환 및 공유에 필요한 데이터를 구조적으로 처리하고자 XML을 도입하려는 움직임이 일고 있으며, 이들 분야의 전자문서 안에 사용되어지는 수많은 수학식의 표현이 이미지나 텍스트 등의 비구조적인 데이터로 처리됨에 따라 검색과 인덱싱 또는 재사용성 등의 제한사항이 발생하게 된다. 이를 극복하고자 MathML을 이용한 수학식의 처리에 관심이 집중되고, MathML을 구조적인 문서상에 쉽고 효율적으로 처리할 수 있는 솔루션이 요구되고 있는 실정이다. 이에 본 논문에서는 지식정보자원을 목적으로 하는 전자문서의 구조적인 처리를 용이하게 하고, MathML에 대한 전문적인 지식이 없어도 구조적인 문서상에 쉽게 MathML을 생성 및 표현할 수 있는 XML 문서 편집 시스템을 구현하였다.

Abstract

A lot of accumulated data of many quantity exist within a institution or an organization, but most data is remained in form of standardization as each institution or organization. There are difficulty in exchange and share of information. New concept of knowledge information resource management to overcome this disadvantage was introduced, and the digitization of knowledge information resources to share and manage accumulated data is been doing. Specially, in science technic or education scholarship it, the tendency that importing XML to process necessary data to exchange and share of knowledge information resources structurally, and limitation of back for search and indexing or reusability is happened according as expression of great many mathematics used inside electron document of these sphere is processed to nonstructural data of image or text and so on. There is interest converged in processing of mathematics that use MathML to overcome this, and we require the solution to be able to process MathML easily and efficiently on structural document. In this paper, designed and implemented of XML document editing system which easy structural process of electronic document for knowledge information resources, and create and express MathML easily on structural document without expert knowledge about MathML.

초록보기
초록

본 연구는 2004년에서 2014년까지 11년간의 KERIS 상호대차 트랜잭션 데이터를 대상으로 서비스 현황과 기간별 변화를 분석하였다. 연구 결과 발견한 주요 사실은 다음과 같다. 첫째, 4년제 대학도서관의 신청과 제공건수 사이에는 밀접한 상관관계가 있었으며, 타 관종의 경우 거의 관련이 없게 나타났다. 둘째, 상호대차 대상 자료는 주제별로 살펴보면 사회과학 분야 및 문학 분야가 상위를 차지하고 있었다. 언어별로는 영어 자료가 절반 가까이 차지하고 있었다. 셋째, 신청건수가 제공건수보다 많은 기관이 전체 중에서 약 60%를 차지하였으나, 4년제 대학도서관의 경우는 비교적 균형을 이루고 있었다. 넷째, 2012년을 기점으로 KERIS 상호대차 서비스는 모든 면에서 지속적으로 성장하고 있음을 보여주고 있다.

Abstract

This study aims to illustrate the current status and changes of interlibrary loan service in Korea. Transaction data of KERIS Interlibrary Loan (ILL) Service from 2004 to 2014 were analyzed and key findings include the following: 1) In case 4 year college libraries, there is a close correlation between requests and responses in the interlibrary loan, but there is none for other type of libraries. 2) Social science and literature were the most responded subject area of interlibrary loan materials. In the aspect of language, responses for English materials occupied almost half of all responses. 3) 60 percent of libraries, the number of outgoing requests exceeded the number of their responses to incoming requests. 4) After 2012, KERIS ILL service showed a steady progress in all aspects.

65
남영준(중앙대학교 문헌정보학과 교수) 2021, Vol.38, No.3, pp.311-334 https://doi.org/10.3743/KOSIM.2021.38.3.311
초록보기
초록

이 연구의 목적은 합리적인 장서관리정책 수립을 위한 이론적 근거와 계량화된 객관적 기준점 제시이다. 본 연구의 연구결과를 요약하면 다음과 같다. 스테디셀러는 정기간행물 형태의 학습서가 대부분이었다. 또한, 현대소설로서 스테디셀러는 특정 작가에 의존하는 현상을 확인할 수 있었다. 베스트셀러는 출판사와 저자의 영향을 받는 것으로 조사되었다. 특히 만화와 아동용 교재를 출판하는 출판사의 도서는 베스트셀러 선정에 상당부분 상관성을 갖고 있었다. 추천된 도서 한 권당 추천 도서의 대출 수 평균은 14,871권이었으며, 베스트셀러로 선정된 도서 한 권당 평균 대출 수는 53,531권이었다. 한편 대출데이터를 기준으로 약 80~82%의 도서가 전체 상위권 대출의 90%를 감당하고 있고, 약 27~29%의 도서가 전체 상위권 대출의 50%를 감당하고 있었다. 이는 일련의 파레토법칙이 공공도서관 대출패턴에서도 굳건히 적용될 수 있음을 보여주고 있다. 문학의 대출은 전체 대출에서 50.6%를 차지하였으며, 문학 중에서 한국문학작품이 전체 51.3%를 차지하였다. 자연과학은 다른 주제분야에 비해 상대적으로 작은 수의 문헌으로 더 많은 대출을 발생시키고 있었다.

Abstract

The purpose of this study is to present the theoretical basis and quantified objective standards for the establishment of collection management policy. The study results are summarized as follows. Most of the study books were in the form of periodicals as a steady seller. Most of the steady sellers were textbooks which published periodically. As a modern novel, a steady seller was able to confirm the phenomenon of dependence on a specific author. Bestsellers were investigated to be influenced by publishers and authors. Books of publishers that publish comics and children’s textbooks had a significant correlation with the selection of bestsellers. The average number of recommended books borrowed per recommended book was 14,871. The average number of loans per book selected as a bestseller was 53,531. Based on the loan data, about 80-82% of all top-tier loans were covered by 90%, and about 27-29% of all top-ranked loans were covered by 50%. This shows that the Pareto Principle can be firmly applied to public library lending patterns. Loans in the field of literature accounted for 50.6% of the total loans. Among literature, Korean literature accounted for 51.3% of the total. The natural sciences were generating more loans with a relatively small pool of literature compared to other subject fields.

66
이용구(계명대학교) ; 우윤희(계명대학교) 2015, Vol.32, No.2, pp.167-192 https://doi.org/10.3743/KOSIM.2015.32.2.167
초록보기
초록

이 연구의 목적은 아시아 지역의 여러 나라 중 대만을 대상으로 문헌정보학 분야의 특성을 연구하는데 있다. 이를 위해 대만 문헌정보학 분야의 주요 학술지 8개를 대상으로 연구 통계와 공저 네트워크를 분석하고, 이를 한국과 비교하였다. 그 결과 연구 통계 측면에서 우리나라와 유사하게 단독 저술이 가장 많으며, 공저 논문의 경우 저자가 2-3인이 가장 많았다. 중심성 분석에서는 대만 국립대 교수를 주축으로 주요 저자별로 공저의 범위와 강도가 높았으며, 이들과 공저한 저자들은 대학원생 또는 대학도서관 사서 등이 주류를 이루었다. 대만 문헌정보학 분야의 고유한 특징으로, 현장과 밀접히 관련된 연구가 주로 게재되는 학술지가 존재하며, 이러한 학술지를 중심으로 현장 사서들의 연구 참여가 활발히 진행되고 있음을 알 수 있다.

Abstract

The purpose of this research was to investigate the characteristics of library and information science (LIS) field in Asian countries, focusing on the case of Taiwan. In order to conduct this study, the obtained statistical data and co-authorship networks based on eight major LIS journals in Taiwan were analyzed and compared to the case of South Korea. In Taiwan like Korea, papers published by a single-author and 2 to 3 co-authors were the most common. The centrality analysis showed that leading professors in the national-level university in Taiwan have strong and distinctive ties in the network. Additional unique characteristics pertaining to collaboration in Taiwan include the existence of journals focused on practical aspects in the field of LIS and active research participation involving librarians who publish papers in these journals.

67
신유미(상명대학교 문헌정보학과) ; 박옥남(상명대학교) 2019, Vol.36, No.2, pp.105-131 https://doi.org/10.3743/KOSIM.2019.36.2.105
초록보기
초록

본 연구는 장서개발관리 분야의 최근 연구동향을 분석함으로써 핵심 연구주제를 파악하고 학문의 지적구조를 규명하고자 하였다. 2003년부터 2017년까지 15년간 문헌정보학 분야 4개 학회지에 등재된 논문 중 장서개발관리 분야의 키워드를 가진 연구논문을 선정하여 저자키워드를 추출하였다. 추출된 저자키워드를 가지고 NetMiner4 프로그램을 이용하여 키워드 네트워크를 구성한 뒤 빈도분석, 연결중심성 분석, 매개중심성 분석을 수행하였다. 분석은 시간의 흐름에 따른 연구 변화를 살펴보기 위하여 2003년부터 2017년까지 전 구간을 대상으로 한 분석과 5년 단위의 3구간으로 나누어 살펴보았다. 연구결과, ‘오픈액세스’, ‘기관 레포지터리’, ‘학술지’ 등의 장서개발관리 분야의 핵심키워드를 파악하고, ‘대학도서관’ 등의 계속 연구될 분야의 주제어를 파악하였다.

Abstract

The purpose of this study is to investigate the development direction of future scholarship by analyzing recent research trends in collection development and management field using keyword network analysis. Data was collected from four journals in library and information science field during period of 2003 to 2017. Related articles of Collection Development and Management field were retrieved, and author keywords were extracted from selected papers. Keyword network analysis using NetMiner4 program was performed based on frequency analysis, connection-centered analysis, and parametric analysis. The analysis covers all sections from 2003 to 2017 to look at the changes in research over time, and three sections on five-year basis. As a result, main keywords such as ‘open access’, ‘institutional repository’ and ‘academic journals’ were identified, and topics to be continuously researched were identified.

초록보기
초록

이 연구는 국내 연구자의 학술지 논문 발표 자료를 활용하여 학문분야간 학술지 공유도를 산출하고, 이로부터 국내 학문분야의 구조를 나타내는 네트워크를 생성하였다. 생성된 패스파인더 네트워크는 ‘생물학’분야를 핵심으로 하는 생명과학 분야가 중앙을 차지하고 있었으며, 인문학과 의약학, 공학에 속한 학문끼리는 학문간 연계가 매우 강하게 나타났다. 가중 네트워크로부터 각 학문분야의 중심성과 학제성을 파악하기 위해서 엔트로피 공식과 가중 네트워크 중심성 척도를 적용한 결과 전역 중심 학문, 지역 중심 학문, 전역 연계 학문, 기타 일반 학문의 네 가지 유형을 식별할 수 있었다. 가중 네트워크를 이진 네트워크로 변환한 패스파인더 네트워크에서는 다수의 약한 링크가 모인 데이트 허브가 드러나지 않았으나, 가중 네트워크에서의 중심성 지수인 삼각매개중심성의 측정 범위를 지역에서부터 전역까지 달리하며 측정한 결과로부터 ‘인지과학’분야와 같은 학제성이 높은 데이트 허브를 식별할 수 있었다.

Abstract

The main purposes of this study are to construct a Korean science network from journal contributions data of Korean researchers, and to analyze the structure and characteristics of the network. First of all, the association matrix of 140 scholarly domains are calculated based on the number of contributions in common journals, and then the Pathfinder network algorithm is applied to those matrix. The resulting network has several hubs such as ‘Biology’, ‘Korean Language & Linguistics’, ‘Physics’, etc. The entropy formula and several centrality measures for the weighted networks are adopted to identify the centralities and interdisciplinarity of each scholarly domain. In particular, the date hubs, which have several weak links, are successively distinguished by local and global triangle betweenness centrality measures.

69
김판준(신라대학교) ; 이재윤(경기대학교) 2007, Vol.24, No.4, pp.285-303 https://doi.org/10.3743/KOSIM.2007.24.4.285
초록보기
초록

본 연구는 연구 영역 분석을 위하여 통제어휘와 비통제어휘를 연계해서 사용하는 새로운 방법을 모색하기 위한 것이다. 동시출현단어분석은 크게 통제어휘와 비통제어휘를 사용하는 경우의 두 가지 유형으로 구분할 수 있는데, 통제어휘를 사용할 경우에는 자료 희귀성 및 색인자 효과가 단점이며, 비통제어휘를 사용할 경우에는 저자의 주관에 따른 단어 선택 및 단어의 중의성이 문제가 된다. 이 연구에서는 양자를 보완할 수 있는 방법으로, 통제어휘인 디스크립터를 비통제어휘인 단어와의 동시출현 정보로 표현하는 디스크립터 프로파일링을 제안하였다. 정보학 분야에 적용해본 결과, 디스크립터 프로파일링은 특정 영역의 최신 동향을 파악하는데 있어 통제어휘와 비통제어휘가 갖는 본질적인 문제점을 어느 정도 보완할 수 있는 것으로 나타났다.

Abstract

This study aims to explore a new technique making complementary linkage between controlled vocabularies and uncontrolled vocabularies for analyzing a research domain. Co-word analysis can be largely divided into two based on the types of vocabulary used: controlled and uncontrolled. In the case of using controlled vocabulary, data sparseness and indexer effect are inherent drawbacks. On the other case, word selection by the author's perspective and word ambiguity. To complement each other, we suggest a descriptor profiling that represents descriptors(controlled vocabulary) as the co-occurrence with words from the text(uncontrolled vocabulary). Applying the profiling to the domain of information science implies that this method can complement each other by reducing the inherent shortcoming of the controlled and uncontrolled vocabulary.

초록보기
초록

가치 있는 디지털 정보자원으로서 연구정보를 위한 보존 메타데이터 요소를 개발하였다. 특히 국가정책지식 생산의 주역이라고 할 수 있는 경제․인문사회 분야 정부출연연구기관의 연구정보를 장기적으로 보존하여 활용할 수 있는 기반으로서 보존 메타데이터 요소를 개발하였다. 다양한 부서와 기관에서 분산 관리되고 있는 연구정보의 상호운용성을 확보하기 위하여 OAIS 참조모형을 기반으로 유럽표준인 CERIF와 PREMIS 데이터 사전의 요소들을 비교 분석한 다음, 양자의 특성을 반영하여 상호보완적인 보존 메타데이터 요소를 개발하였다. 그 결과로서 개념적 차원이 아닌 실제 구현이 가능하고 시스템 간의 호환성이 전제된 연구정보 보존 메타데이터 요소들과 적용사례를 제시하였다.

Abstract

This study aimed at developing preservation metadata elements and its applications for research information which is considered as a valuable digital resource these days. Specifically, the developed preservation metadata intends to provide a basis for the research information of the government-funded research institutes in economic and social science fields which are major knowledge producers of national policy. To ensure the interoperability of the research information across various departments and organizations, this study compared the elements from the CERIF(European Standard) and those from the PREMIS Data Dictionary which is based on OAIS reference model (ISO 14721). Based on this comparative analysis, this study developed complementary preservation metadata elements based on the two standards’ characteristics. Consequently, this study suggested a new preservation metadata elements and its applications that are compatible between the two systems and can be implemented in practice.

정보관리학회지