바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: Data Quality, 검색결과: 35
1
한나은(한국과학기술정보연구원) 2023, Vol.40, No.1, pp.51-71 https://doi.org/10.3743/KOSIM.2023.40.1.051
초록보기
초록

본 연구는 공공데이터 품질관리 모델, 빅데이터 품질관리 모델, 그리고 연구데이터 관리를 위한 데이터 생애주기 모델을 분석하여 각 품질관리 모델에서 공통적으로 나타나는 구성 요인을 분석하였다. 품질관리 모델은 품질관리를 수행하는 객체인 대상 데이터의 특성에 따라 생애주기에 맞추어 혹은 PDCA 모델을 바탕으로 구축되고 제안되는데 공통적으로 계획, 수집 및 구축, 운영 및 활용, 보존 및 폐기의 구성요소가 포함된다. 이를 바탕으로 본 연구는 연구데이터를 대상으로 한 품질관리 프로세스 모델을 제안하였는데, 특히 연구데이터를 대상 데이터로 하여 서비스를 제공하는 연구데이터 서비스 플랫폼에서 데이터를 수집하여 서비스하는 일련의 과정에서 수행해야하는 품질관리에 대해 계획, 구축 및 운영, 활용단계로 나누어 논의하였다. 본 연구는 연구데이터 품질관리 수행 방안을 위한 지식 기반을 제공하는데 의의를 갖는다.

Abstract

This study analyzed the government data quality management model, big data quality management model, and data lifecycle model for research data management, and analyzed the components common to each data quality management model. Those data quality management models are designed and proposed according to the lifecycle or based on the PDCA model according to the characteristics of target data, which is the object that performs quality management. And commonly, the components of planning, collection and construction, operation and utilization, and preservation and disposal are included. Based on this, the study proposed a process model for research data quality management, in particular, the research data quality management to be performed in a series of processes from collecting to servicing on a research data platform that provides services using research data as target data was discussed in the stages of planning, construction and operation, and utilization. This study has significance in providing knowledge based for research data quality management implementation methods.

초록보기
초록

공공데이터의 개방과 제공의 활성화와 함께, 공공도서관이 업무 중에 생산한 서지 데이터와 대출 이력과 같은 데이터가 도서관 공공데이터로 제공되고 있다. 본 논문은 도서관 공공데이터의 품질을 진단하고, 그 결과를 바탕으로 도서관 공공데이터의 품질을 높일 개선방안을 제안하고자 한다. 먼저, 문헌정보학 영역에서 공공데이터에 관해 이루어진 연구를 개괄한다. 그다음으로, 도서관 공공데이터 개방 플랫폼인 도서관 정보나루의 오픈 API를 통해 확보한 도서관 공공데이터의 완전성과 정확성을 진단한다. 마지막으로, 데이터 품질 진단 결과에 바탕을 개선방안을 도출한다. 완전성을 진단한 결과, 도서의 식별과 검색을 위 필수적인 서지 요소에서 다수의 공백이 확인되었다. 정확성을 진단한 결과, 값의 유형, 값의 범위, 제한조건을 따르지 않는 부정확한 서지 요소가 확인되었다. 본 연구는 데이터 품질 진단 분석 결과를 바탕으로, 도서관 정보나루의 데이터 수집 절차 개선, 데이터별 스키마 구축, 데이터 수집과 데이터 처리에 관한 안내 제공, 원자료 공개를 제언하였다.

Abstract

With the popularization of open government data, Library-related open government data is also open and utilized to the public. The purpose of this paper is to diagnose the quality of library-related open government data and propose improvement measures to enhance the quality based on the diagnosis result. As a result of diagnosing the completeness of the data, a number of blanks are identified in the bibliographic elements essential for identifying and searching a book. As a result of diagnosing the accuracy of the data, the bibliographic elements that are not compliant with the data schema have been identified. Based on the result of data quality diagnosis, this study suggested improving the data collection procedure, establishing data set schema, providing details on data collection and data processing, and publishing raw data.

초록보기
초록

오늘날 정보화 사회에서 경쟁하는 기업들에 있어서 데이터품질 저하는 기업경쟁력 하락과 새로운 비용창출이라는 부정적인 영향요인으로써 작용하고 있다. 이러한 데이터품질 저하의 문제를 해결하기 위해 데이터품질에 대한 많은 선행연구들이 진행되어 왔으며, 데이터품질의 측면 중 결과적이고 현상적인 품질개념인 데이터값의 품질과 데이터서비스의 품질에 대해 주로 연구되어 왔다. 이에 반해 본 연구에서는 원인적인 데이터품질 개념인 데이터의 구조적 품질을 메타데이터 관리의 관점에서 연구하였으며, 이를 통해 평가와 개선을 위한 관리의 관점이 적용된 데이터품질관리 성숙도모델을 제시하였다. 또한 본 연구에서 제시한 데이터품질관리 성숙도모델의 타당성 검증을 위해 데이터품질 관리단계가 성숙될수록 데이터품질수준이 높아지게 된다는 것을 실증적으로 검증하였다.

Abstract

In companies competing for today's information society. Data quality deterioration is causing a negative influence to generate company competitiveness fall and new cost. A lot of preceding study about data quality have been proceeded in order to solve a problem of these data quality deterioration. Among the sides of data quality, it has been studied mainly on quality of the data value and quality of data service that are the results quality concept. However, this study studied structural quality of the data which were cause quality concept in a viewpoint of metadata management and presented data quality management maturity model through this. Also empirically this study verified that data quality improved if the management level matured.

초록보기
초록

본 연구는 최근 열린 정부 데이터에 대한 다차원 척도, 모델 개발 연구가 시작되고 있으나, 도서관에서는 관련 연구가 부족하다는 점을 고려하여 도서관에 적용할 수 있는 오픈 데이터 품질측정 모델개발을 목적으로 하였다. 본 연구는 모델개발과 모델평가 두 단계로 수행하였다. 모델개발은 델파이 기법을 적용하였으며, 모델평가는 도서관 오픈 데이터 이용자를 대상으로 설문조사를 실시하여 모델의 타당도와 신뢰도를 측정하였다. 모델개발은 델파이 기법을 적용하여 총 4차례 수행하여 3개 차원, 18개 요인, 133개 측정요소로 구성된 모델을 도출하였다. 모델평가는 델파이 기법으로 완성한 모델을 도서관 오픈 데이터 이용자인 국내․외 사서, 개발자, 오픈 데이터 활동가를 대상으로 적합성 설문조사를 실시하여 모델의 타당도와 신뢰도를 검증하였다. 그 결과 당초 18개 요인, 133개 측정요소는 15개 요인, 54개 측정요소가 타당성을 확보한 것으로 나타났다. 신뢰도는 차원별, 측정요인별로 모두 기준치인 0.6 이상의 결과를 보여주고 있어 높은 신뢰도를 확보한 것으로 나타났다. 모델평가를 통한 이용자 타당도, 신뢰도 분석으로 전문가가 구성한 평가모델은 현장에서 즉시 활용될 수 있을 정도로 정제되었다.

Abstract

This study draws on the current momentum to diversify open government data research through multidimensional scaling and model development. It formulates a quality assessment model applicable to library open data, taking into consideration the paucity of such research in the field. The model was developed using the Delphi method and verified for validity and reliability on the basis of a survey administered to library open data users. The results of the fourth round exhibited an average of 4.00 for all measured elements and a minimum validity of .75, rendering the model appropriate for use in quality assessments of library open data. The convergence and stability results provided by the expert panel fell below .50, confirming that there was no need to conduct further surveys in order to establish the validity of the Delphi method. The model's reliability likewise garnered results of .60 and above in all three dimensions. This Model completed with the input of the Delphi panel was put through a verification process in which library open data users such as domestic and international librarians, developers, and open data activists reviewed the model for validity and reliability. The model scored low on validity on account of its failure to load all measure factors and elements pertaining to the three dimensions. Reliability results, on the other hand, were at 0.6 and above for all dimensions and measured elements.

5
박진호(주식회사 리스트 사업개발본부장) ; 고영만(성균관대학교 문과대학 문헌정보학과 교수) ; 김현수(성균관대학교 정보관리연구소 연구원) 2019, Vol.36, No.4, pp.129-159 https://doi.org/10.3743/kosim.pub.36.4.129001
초록보기
초록

본 연구의 목적은 연구데이터 서비스 자체의 유용성과 연구데이터에 대한 사용경험 기반의 유용성 측면에서 평가 모형을 개발하는 것이다. 다양한 사례에서 도출한 데이터 서비스의 유용성 평가 요소로부터 연구데이터에 내재된 평가척도인 검색성, 접근성, 상호운용성, 재활용성 4개와 각각의 측정지표 총 20개를 도출하였다. 그리고 Google Analytics, YouTube 광고료 책정 기준, 서울특별시, Altmetrics의 사례를 분석하여 연구데이터에 대한 이용자 경험 기반의 유용성 측정지표 12개를 도출하였다. 평가척도와 측정지표에 대한 타당성과 신뢰성 검정을 위해 연구데이터의 잠재적 이용자 164명을 대상으로 설문조사를 실시하였다. 평가척도의 타당성 검정을 위해 KMO Bartlett 분석을 하였으며, 측정지표의 성분분석을 위해 주성분 분석과 베리맥스 회전분석법을 사용하였다. 내재적 평가척도의 경우 4개 척도 모두 KMO Bartlett의 타당성 값을 충족시켰으며, 평가척도에 대한 측정지표의 성분분석 결과 모두 단일 성분으로 나타나 현재의 척도로 해당 지표에 대한 설명이 가능하였다. 그러나 이용자 경험 기반의 12개 측정지표의 성분분석 결과는 2개 성분으로 나누어지는 것으로 나타나 각각을 활용도와 참여도라는 개념의 2개 평가척도로 구분하였다. Cronbach’s alpha 계수에 의한 신뢰도 측정 결과 6개의 평가척도 모두 0.6 이상의 측정치를 충족시키는 것으로 나타났다.

Abstract

The Purpose of this study is to develop an evaluation model for usability of research data service from the angles of evaluating usefulness of research data service itself and research data use experience-based usability. First, the various cases of evaluating usability of data services are examined and 4 rating scales and 20 measuring indicators for research data service are derived as a result of comparative analysis. In order to verify validity and reliability of the rating scale and the measuring indicators, the study conducted a survey of 164 potential research data users. KMO Bartlett Analysis was performed for validity test, and Principle Component Analysis and Verimax Rotating Method were used for component analysis on measuring indicators. The result shows that the 4 intrinsic rating scales satisfy the validity criteria of KMO Barlett; A single component was determined from component analysis, which verifies the validity of measuring indicators of the current rating scale. However, the result of 12 user experience-based measuring indicators analysis identified 2 components that are each classified as rating scale of utilization level and that of participation level. Cronbach’s alpha of all 6 rating scales was 0.6 or more for the overall scale.

6
한나은(한국과학기술정보연구원) ; 서수정(한국과학기술정보연구원) ; 엄정호(한국과학기술정보연구원) 2023, Vol.40, No.3, pp.77-98 https://doi.org/10.3743/KOSIM.2023.40.3.077
초록보기
초록

본 연구는 지금까지 제안된 거대언어모델 가운데 LLaMA 및 LLaMA 기반 모델과 같이 연구데이터를 주요 사전학습데이터로 활용한 모델의 데이터 품질에 중점을 두어 현재의 평가 기준을 분석하고 연구데이터의 관점에서 품질 평가 기준을 제안하였다. 이를 위해 데이터 품질 평가 요인 중 유효성, 기능성, 신뢰성을 중심으로 품질 평가를 논의하였으며, 거대언어모델의 특성 및 한계점을 이해하기 위해 LLaMA, Alpaca, Vicuna, ChatGPT 모델을 비교하였다. 현재 광범위하게 활용되는 거대언어모델의 평가 기준을 분석하기 위해 Holistic Evaluation for Language Models를 중심으로 평가 기준을 살펴본 후 한계점을 논의하였다. 이를 바탕으로 본 연구는 연구데이터를 주요 사전학습데이터로 활용한 거대언어모델을 대상으로 한 품질 평가 기준을 제시하고 추후 개발 방향을 논의하였으며, 이는 거대언어모델의 발전 방향을 위한 지식 기반을 제공하는데 의의를 갖는다.

Abstract

Large Language Models (LLMs) are becoming the major trend in the natural language processing field. These models were built based on research data, but information such as types, limitations, and risks of using research data are unknown. This research would present how to analyze and evaluate the LLMs that were built with research data: LLaMA or LLaMA base models such as Alpaca of Stanford, Vicuna of the large model systems organization, and ChatGPT from OpenAI from the perspective of research data. This quality evaluation focuses on the validity, functionality, and reliability of Data Quality Management (DQM). Furthermore, we adopted the Holistic Evaluation of Language Models (HELM) to understand its evaluation criteria and then discussed its limitations. This study presents quality evaluation criteria for LLMs using research data and future development directions.

7
이세라(광주전남연구원) ; 김지현(전남대학교 문헌정보학과) 2019, Vol.36, No.1, pp.73-94 https://doi.org/10.3743/KOSIM.2019.36.1.073
초록보기
초록

이 연구는 지방연구원 소속 전문도서관의 서비스 품질 평가를 통하여 실제 이용자 만족에 영향을 주는 서비스 품질을 파악하고 전문도서관의 기능과 역할을 더욱 효율적으로 개선하기 위한 방향을 제시하고자 하였다. 이를 위해 지방연구원 소속 6개의 전문도서관 이용자 111명을 대상으로 LibQUAL+을 기반으로 수정된 설문조사와 심층인터뷰를 실시하였다. 연구결과, 인력품질이 공간품질과 정보품질 보다 전반적 만족도에 미치는 영향이 더 큰 것으로 확인되었고, 서비스 품질 하위변수 중에서는 인력품질의 서비스 태도, 공간품질의 공간 편의성, 정보품질의 정보 유용성이 이용자의 전반적 만족도에 영향을 미치는 것으로 나타났다. 인터뷰 결과로 자료부족, 디지털 자료의 비활성화, 도서관 공간개념의 환경, 타 기관과의 자료공유 비활성화, 인력부족 등의 문제점이 지적되었다. 이 연구는 이러한 분석 결과를 바탕으로 지방연구원 소속 전문도서관의 서비스 품질에 대한 개선방안을 제시하였다.

Abstract

The purpose of this study is to investigate the quality of service that affects satisfaction of special library users and to suggest ways to improve the function and role of special library. The data were collected by survey and interview method conducted with 111 library users in 6 local research institute using modified questionnaires based on LibQUAL+. The results revealed that human quality factor had more influence on library service satisfaction than space and information quality factor. Also, there were statistically significant influence between library service satisfaction and three sub service factors, such as service attitude, space convenience, and information usability. The interviewers indicated problems of special library service in lack of data, inactivation of digital data, space problem, data sharing problem, and lack of experts. Finally this study proposed several suggestions to improve service quality of special library of local autonomous entity research institution.

8
Yang, Kiduk(경북대학교) ; Lokman Meho(American University of Beirut, Lebanon) 2011, Vol.28, No.2, pp.79-96 https://doi.org/10.3743/KOSIM.2011.28.2.079
초록보기
초록

Abstract

Despite the widespread use, critics claim that citation analysis has serious limitations in evaluating the research performance of scholars. First, conventional citation analysis methods yield one-dimensional and sometimes misleading evaluation as a result of not taking into account differences in citation quality, not filtering out citation noise such as self-citations, and not considering non-numeric aspects of citations such as language, culture, and time. Second, the citation database coverage of today is disjoint and incomplete, which can result in conflicting quality assessment outcomes across different data sources. This paper discuss the findings from a citation analysis study that measured the impact of scholarly publications based on the data mined from Web of Science, Scopus, and Google Scholar, and briefly describes a work-in-progress prototype system called CiteSearch, which is designed to overcome the weaknesses of existing citation analysis methods with a robust citation-based quality assessment approach.

9
서선경(한국과학기술정보연구원) ; 최호남(한국과학기술정보연구원) ; 김병규(KISTI) ; 최선희(한국과학기술정보연구원) ; 김정환(한국과학기술정보연구원) 2016, Vol.33, No.2, pp.157-176 https://doi.org/10.3743/KOSIM.2016.33.2.157
초록보기
초록

Cited-by Linking 서비스는 CrossRef에서 제공하는 주요 서비스 중 하나로 해당 논문이 DOI를 통하여 얼마나 인용되었는지 누적하여 집계된 데이터이다. 이에 본 연구에서는 KISTI의 학술정보통합관리시스템에서 월단위로 구축․관리하는 Cited-by Linking 데이터를 분석하여 자연과학과 공학 분야의 인용 패턴을 규명하고자 하였다. 이를 위해서 전체 기탁된 21만 건 중 자연과학과 공학 분야 총 170,999건(315종)을 분석 대상으로 하고, 2016년 3월까지 누적된 Cited-by Linking 데이터를 수집하였다. 연구의 분석 결과, 첫째, 글로벌하게 인용될 가능성에서 사용 언어는 영향을 미치고 있으며, 둘째, SCIE 및 SCOPUS 등재 여부 역시 인용가능성에 상당 부분 기여하고 있음을 확인하였다. 셋째, 자연과학 분야는 거의 동일한 주제 분야에서 인용을 받고 있으며, 상대적으로 공학 분야는 타주제 분야에서 더 인용 받고 있음을 파악하였다. 이러한 연구의 결과는 자연과학과 공학 분야의 세부주제 분야별 인용 행태를 규명하고, 향후, 인용 행태에 관한 연구에서 유용하게 활용될 것으로 기대한다.

Abstract

Cited-by Linking Service is one of the CrossRef’s information services that allows you to discover how your publications are being cited and to incorporate that information into your online publication platform. This study tries to investigate citation patterns in the field of both Natural Science and Engineering using all of DOI assigned articles and Cited-by Linking data which are accumulated and managed by KISTI. The investigating approach is designed to verify the theory of 1) cognitive accessibility, 2) ‘perceived quality and significance’ and 3) ‘subject relativity’. For cognitive accessibility verification the fulltext language portion of Korean and English between “Cited DOI Source Data” and “NOT Cited DOI Source Data” was compared. For perceived quality and significance verification the availability of the “Cited DOI Source Data” and “NOT Cited DOI Source Data” from SCIE and SCOPUS was employed. For subject relativity DOI data were classified and analysed on the basis of OECD subject classification scheme. Findings are that global citability is closely related to the fulltext language of the articles and their quality and significance. And in the natural science field most of citations are from the same subject categories, while relatively more citations are from other subject categories in the engineering field.

10
선은택(중앙대학교 일반대학원 문헌정보학과 정보학전공 석사과정) ; 김학래(중앙대학교 문헌정보학과) 2023, Vol.40, No.4, pp.329-349 https://doi.org/10.3743/KOSIM.2023.40.4.329
초록보기
초록

정보통신 기술이 빠르게 발전하면서 데이터의 생산 속도가 급증하였고, 이는 빅데이터라는 개념으로 대표되고 있다. 단시간에 데이터 규모가 급격하게 증가한 빅데이터에 대해 품질과 신뢰성에 대한 논의도 진행되고 있다. 반면 스몰데이터는 품질이 우수한 최소한의 데이터로, 특정 문제 상황에 필요한 데이터를 의미한다. 문화예술 분야는 다양한 유형과 주제의 데이터가 존재하며 빅데이터 기술을 활용한 연구가 진행되고 있다. 하지만 문화예술기관의 기본정보가 정확하게 제공되고 활용되는지를 탐색한 연구는 부족하다. 기관의 기본정보는 대부분의 빅데이터 분석에서 사용하는 필수적인 근거일 수 있고, 기관을 식별하기 위한 출발점이 된다. 본 연구는 문화예술 기관의 기본정보를 다루는 데이터를 수집하여 공통 메타데이터를 정의하고, 공통 메타데이터를 중심으로 기관을 연계하는 지식그래프 형태로 스몰데이터를 구축하였다. 이는 통합적으로 문화예술기관의 유형과 특징을 탐색할 수 있는 방안이 될 수 있다.

Abstract

With the rapid development of information and communication technology, the speed of data production has increased rapidly, and this is represented by the concept of big data. Discussions on quality and reliability are also underway for big data whose data scale has rapidly increased in a short period of time. On the other hand, small data is minimal data of excellent quality and means data necessary for a specific problem situation. In the field of culture and arts, data of various types and topics exist, and research using big data technology is being conducted. However, research on whether basic information about culture and arts institutions is accurately provided and utilized is insufficient. The basic information of an institution can be an essential basis used in most big data analysis and becomes a starting point for identifying an institution. This study collected data dealing with the basic information of culture and arts institutions to define common metadata and constructed small data in the form of a knowledge graph linking institutions around common metadata. This can be a way to explore the types and characteristics of culture and arts institutions in an integrated way.

정보관리학회지