바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 데이터 요소, 검색결과: 5
1
김선욱(경북대학교 사회과학대학 문헌정보학과) ; 이혜경(경북대학교 문헌정보학과) ; 이용구(경북대학교) 2023, Vol.40, No.2, pp.183-209 https://doi.org/10.3743/KOSIM.2023.40.2.183
초록보기
초록

이 연구의 목적은 ChatGPT가 도서의 표지, 표제지, 판권기 데이터를 활용하여 생성한 더블린코어의 품질 평가를 통하여 ChatGPT의 메타데이터의 생성 능력과 그 가능성을 확인하는 데 있다. 이를 위하여 90건의 도서의 표지, 표제지와 판권기 데이터를 수집하여 ChatGPT에 입력하고 더블린 코어를 생성하게 하였으며, 산출물에 대해 완전성과 정확성 척도로 성능을 파악하였다. 그 결과, 전체 데이터에 있어 완전성은 0.87, 정확성은 0.71로 준수한 수준이었다. 요소별로 성능을 보면 Title, Creator, Publisher, Date, Identifier, Right, Language 요소가 다른 요소에 비해 상대적으로 높은 성능을 보였다. Subject와 Description 요소는 완전성과 정확성에 대해 다소 낮은 성능을 보였으나, 이들 요소에서 ChatGPT의 장점으로 알려진 생성 능력을 확인할 수 있었다. 한편, DDC 주류인 사회과학과 기술과학 분야에서 Contributor 요소의 정확성이 다소 낮았는데, 이는 ChatGPT의 책임표시사항 추출 오류 및 데이터 자체에서 메타데이터 요소용 서지 기술 내용의 누락, ChatGPT가 지닌 영어 위주의 학습데이터 구성 등에 따른 것으로 판단하였다.

Abstract

The purpose of this study is to evaluate the Dublin Core metadata generated by ChatGPT using book covers, title pages, and colophons from a collection of books. To achieve this, we collected book covers, title pages, and colophons from 90 books and inputted them into ChatGPT to generate Dublin Core metadata. The performance was evaluated in terms of completeness and accuracy. The overall results showed a satisfactory level of completeness at 0.87 and accuracy at 0.71. Among the individual elements, Title, Creator, Publisher, Date, Identifier, Rights, and Language exhibited higher performance. Subject and Description elements showed relatively lower performance in terms of completeness and accuracy, but it confirmed the generation capability known as the inherent strength of ChatGPT. On the other hand, books in the sections of social sciences and technology of DDC showed slightly lower accuracy in the Contributor element. This was attributed to ChatGPT’s attribution extraction errors, omissions in the original bibliographic description contents for metadata, and the language composition of the training data used by ChatGPT.

2
배서영(이화여자대학교 일반대학원 문헌정보학과) ; 김지현(이화여자대학교 문헌정보학과 교수) 2023, Vol.40, No.3, pp.25-54 https://doi.org/10.3743/KOSIM.2023.40.3.025
초록보기
초록

오픈 데이터가 국제적인 흐름으로 주목받는 현시점에서 데이터 공유를 지원하는 한국의 국제 학술지 역할에 대한 논의가 이루어질 필요가 있다. 이에 본 연구에서는 국내 발간 국제 학술지의 편집인 설문 조사와 인터뷰를 바탕으로 데이터 공유 정책 도입에 영향을 미치는 요인을 확인하고 해당 학술지 편집인의 데이터 공유 정책 도입 및 구성요소에 대한 인식을 살펴보았다. 그 결과 정책을 도입하였거나 도입할 예정인 학술지에서는 데이터 공유가 국제적인 추세이며 연구발전에 기여할 수 있다는 점을 인식하였지만, 여전히 데이터 공유에 대한 인식 개선 노력이 필요함을 강조하였다. 이에 학술지 및 학술공동체 차원에서의 교육 활동이나 데이터 공유에 따른 보상을 통해 데이터 공유에 대한 인식을 개선할 필요가 있었다. 또한 중요도가 높으며, 필수 구성요소로 편집인의 절반 이상이 선택한 구성요소로 ‘데이터 가용성 표기’, ‘데이터 공유 수준’, ‘데이터 공유 방법’, ‘데이터 인용’이 있었다. 이들 학술지에서 데이터 공유를 반드시 의무화할 필요는 없지만 데이터 가용성 표기를 통해 데이터를 공유할 수 없는 상황에 대해 언급하는 것은 필요하다고 보았다. 국내 상황에 적합한 리포지터리 개발 및 실행을 책임질 기관의 역할 또한 강조되었다. 더불어 정책 도입에 영향을 주는 요인에 따라 정책 도입 비율의 차이를 확인한 결과, 영향력지수 사분위, 출판 유형, 주제 분야에서 유의한 차이가 나타났다. 영향력지수가 높은 학술지는 데이터 공유를 지원하는 자원을 보유할 가능성이 높고 오픈액세스 혹은 하이브리드 학술지는 오픈사이언스의 일환인 오픈 데이터에 관심을 가지는 경향이 있다고 볼 수 있었다. 의학 분야에서는 학술공동체 차원의 데이터 공유를 위한 적극적인 움직임이 데이터 공유 정책 도입을 촉진하였음을 알 수 있었다. 국내에서 학술지 데이터 공유 정책 도입 및 운영을 활성화하는 기초자료로서 본 연구가 활용될 수 있을 것이다.

Abstract

At a time when open data receives attention as an international trend, there is a need to discuss the role of international journals in Korea to support data sharing. Based on surveys and interviews of editors from the international journals, we identified factors affecting the policy adoption and examined the journal editors' perception on the adoption and components of the data sharing policy. As a result, scholarly journals that have adopted or are planning to adopt policies have recognized that data sharing is an international trend and can contribute to research development, but they stressed that efforts to improve the perception of data sharing were still necessary. Educational activities and compensation for sharing data were needed at scholarly journals’ and communities’ level. Also, components perceived important and selected by more than half of the editors as mandatory were ‘data availability statement’, ‘data sharing level’, ‘data sharing method’, and ‘data citation’. While scholarly journals do not always need to mandate data sharing, it was necessary to mention conditions where data cannot be shared through data availability statements. The role of the organization developing and operating a repository appropriate for situations in Korea was also emphasized. In addition, by identifying factors affecting the policy adoption, significant differences were found in Journal Impact Factor quartiles, publication type, and subject area. This finding indicated that journals with a high impact factor are likely to have resources to support data sharing, and open access or hybrid journals are likely to have interest in open data as a part of open science. In the medical research area, active movements for data sharing in academic communities have promoted the adoption of data sharing policies. This study would be used as basic data to facilitate the adopton and operation of scholarly journals’ data sharing policies in Korea.

3
김영범(전남대학교 대학원 기록관리학 석사) ; 장우권(전남대학교 문헌정보학과 교수) 2023, Vol.40, No.3, pp.99-118 https://doi.org/10.3743/KOSIM.2023.40.3.099
초록보기
초록

이 연구의 목적은 기록물의 맥락정보를 담고 있는 메타데이터를 활용하여 기록물 자동분류 과정에서의 성능요소를 파악하는데 있다. 연구를 위해 2022년 중앙행정기관 원문정보 약 97,064건을 수집하였다.수집한 데이터를 대상으로 다양한 분류 알고리즘과 데이터선정방법, 문헌표현기법을 적용하고 그 결과를 비교하여 기록물 자동 분류를 위한 최적의 성능요소를 파악하고자 하였다. 연구 결과 분류 알고리즘으로는 Random Forest가, 문헌표현기법으로는 TF 기법이 가장 높은 성능을 보였으며, 단위과제의 최소데이터 수량은 성능에 미치는 영향이 미미하였고 자질은 성능변화에 명확한 영향을 미친다는 것이 확인되었다.

Abstract

The objective of this study is to identify performance factors in the automatic classification of records by utilizing metadata that contains the contextual information of records. For this study, we collected 97,064 records of original textual information from Korean central administrative agencies in 2022. Various classification algorithms, data selection methods, and feature extraction techniques are applied and compared with the intent to discern the optimal performance-inducing technique. The study results demonstrated that among classification algorithms, Random Forest displayed higher performance, and among feature extraction techniques, the TF method proved to be the most effective. The minimum data quantity of unit tasks had a minimal influence on performance, and the addition of features positively affected performance, while their removal had a discernible negative impact.

4
한나은(한국과학기술정보연구원) 2023, Vol.40, No.1, pp.51-71 https://doi.org/10.3743/KOSIM.2023.40.1.051
초록보기
초록

본 연구는 공공데이터 품질관리 모델, 빅데이터 품질관리 모델, 그리고 연구데이터 관리를 위한 데이터 생애주기 모델을 분석하여 각 품질관리 모델에서 공통적으로 나타나는 구성 요인을 분석하였다. 품질관리 모델은 품질관리를 수행하는 객체인 대상 데이터의 특성에 따라 생애주기에 맞추어 혹은 PDCA 모델을 바탕으로 구축되고 제안되는데 공통적으로 계획, 수집 및 구축, 운영 및 활용, 보존 및 폐기의 구성요소가 포함된다. 이를 바탕으로 본 연구는 연구데이터를 대상으로 한 품질관리 프로세스 모델을 제안하였는데, 특히 연구데이터를 대상 데이터로 하여 서비스를 제공하는 연구데이터 서비스 플랫폼에서 데이터를 수집하여 서비스하는 일련의 과정에서 수행해야하는 품질관리에 대해 계획, 구축 및 운영, 활용단계로 나누어 논의하였다. 본 연구는 연구데이터 품질관리 수행 방안을 위한 지식 기반을 제공하는데 의의를 갖는다.

Abstract

This study analyzed the government data quality management model, big data quality management model, and data lifecycle model for research data management, and analyzed the components common to each data quality management model. Those data quality management models are designed and proposed according to the lifecycle or based on the PDCA model according to the characteristics of target data, which is the object that performs quality management. And commonly, the components of planning, collection and construction, operation and utilization, and preservation and disposal are included. Based on this, the study proposed a process model for research data quality management, in particular, the research data quality management to be performed in a series of processes from collecting to servicing on a research data platform that provides services using research data as target data was discussed in the stages of planning, construction and operation, and utilization. This study has significance in providing knowledge based for research data quality management implementation methods.

5
김아현(중앙대학교 일반대학원 문헌정보학과 석사과정) ; 이승민(중앙대학교 사회과학대학 문헌정보학과 교수) 2023, Vol.40, No.3, pp.55-76 https://doi.org/10.3743/KOSIM.2023.40.3.055
초록보기
초록

본 연구는 대학도서관의 주제가이드 개발 및 개선을 위한 고려사항을 도출하기 위해 대학도서관의 주 이용자인 대학생을 중심으로 학술정보 탐색행태를 분석하였다. 분석 결과, 대학생들은 자신의 주관적 정보탐색능력 수준을 높게 평가하고 있었으나, 구체적인 검색어의 설정을 어려워하는 것으로 나타났다. 학술정보 이용 목적은 구체적이며, 하나의 데이터베이스에서 모든 정보탐색행위를 수행하고자 하는 경향을 보이고 있다. 또한 정보자원 선택 시 신뢰성, 적합성, 최신성을 주로 고려하고 있으며, 대학도서관 및 주제가이드에 대한 인식은 전반적으로 낮게 나타났으나 이에 대한 신뢰성은 높은 것으로 분석되었다. 이를 기반으로 향후 대학도서관에서 주제가이드를 개발하거나 개선할 때는 구체적인 정보탐색 목적에 따른 정보원 분류, 정보자원의 유형별 구성, 정보자원 선택 기준 관련 설명 요소 기술, 종합 데이터베이스에 대한 안내, 주제 키워드 추천, 도서관 마케팅 및 내부 기관과의 긴밀한 협업 관계를 고려하는 것이 필요하다.

Abstract

This study analyzed academic information seeking behavior, focusing on university students, the main users of the university library, to derive considerations for the development and improvement of the subject guide of the university library. As a result of the analysis, university students highly evaluated their subjective information seeking ability, but it was found that it was difficult to set specific search terms. The purpose of using academic information is specific, and it has been shown that there is a tendency to perform all information search activities in one database. In addition, when selecting information resources, reliability, suitability, and recency are primarily taken into consideration. Awareness of university libraries and subject guides was generally low, but their reliability was found to be high. Based on this, it is necessary to consider the classification of information sources according to specific information seeking purposes, the composition of information resources, explanatory element technology related to information resource selection criteria, comprehensive database, topic keyword recommendation, library marketing, and close cooperation with internal institutions.

정보관리학회지