바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: metadata quality, 검색결과: 9
초록보기
초록

오늘날 정보화 사회에서 경쟁하는 기업들에 있어서 데이터품질 저하는 기업경쟁력 하락과 새로운 비용창출이라는 부정적인 영향요인으로써 작용하고 있다. 이러한 데이터품질 저하의 문제를 해결하기 위해 데이터품질에 대한 많은 선행연구들이 진행되어 왔으며, 데이터품질의 측면 중 결과적이고 현상적인 품질개념인 데이터값의 품질과 데이터서비스의 품질에 대해 주로 연구되어 왔다. 이에 반해 본 연구에서는 원인적인 데이터품질 개념인 데이터의 구조적 품질을 메타데이터 관리의 관점에서 연구하였으며, 이를 통해 평가와 개선을 위한 관리의 관점이 적용된 데이터품질관리 성숙도모델을 제시하였다. 또한 본 연구에서 제시한 데이터품질관리 성숙도모델의 타당성 검증을 위해 데이터품질 관리단계가 성숙될수록 데이터품질수준이 높아지게 된다는 것을 실증적으로 검증하였다.

Abstract

In companies competing for today's information society. Data quality deterioration is causing a negative influence to generate company competitiveness fall and new cost. A lot of preceding study about data quality have been proceeded in order to solve a problem of these data quality deterioration. Among the sides of data quality, it has been studied mainly on quality of the data value and quality of data service that are the results quality concept. However, this study studied structural quality of the data which were cause quality concept in a viewpoint of metadata management and presented data quality management maturity model through this. Also empirically this study verified that data quality improved if the management level matured.

2
김선욱(경북대학교 사회과학대학 문헌정보학과) ; 이혜경(경북대학교 문헌정보학과) ; 이용구(경북대학교) 2023, Vol.40, No.2, pp.183-209 https://doi.org/10.3743/KOSIM.2023.40.2.183
초록보기
초록

이 연구의 목적은 ChatGPT가 도서의 표지, 표제지, 판권기 데이터를 활용하여 생성한 더블린코어의 품질 평가를 통하여 ChatGPT의 메타데이터의 생성 능력과 그 가능성을 확인하는 데 있다. 이를 위하여 90건의 도서의 표지, 표제지와 판권기 데이터를 수집하여 ChatGPT에 입력하고 더블린 코어를 생성하게 하였으며, 산출물에 대해 완전성과 정확성 척도로 성능을 파악하였다. 그 결과, 전체 데이터에 있어 완전성은 0.87, 정확성은 0.71로 준수한 수준이었다. 요소별로 성능을 보면 Title, Creator, Publisher, Date, Identifier, Right, Language 요소가 다른 요소에 비해 상대적으로 높은 성능을 보였다. Subject와 Description 요소는 완전성과 정확성에 대해 다소 낮은 성능을 보였으나, 이들 요소에서 ChatGPT의 장점으로 알려진 생성 능력을 확인할 수 있었다. 한편, DDC 주류인 사회과학과 기술과학 분야에서 Contributor 요소의 정확성이 다소 낮았는데, 이는 ChatGPT의 책임표시사항 추출 오류 및 데이터 자체에서 메타데이터 요소용 서지 기술 내용의 누락, ChatGPT가 지닌 영어 위주의 학습데이터 구성 등에 따른 것으로 판단하였다.

Abstract

The purpose of this study is to evaluate the Dublin Core metadata generated by ChatGPT using book covers, title pages, and colophons from a collection of books. To achieve this, we collected book covers, title pages, and colophons from 90 books and inputted them into ChatGPT to generate Dublin Core metadata. The performance was evaluated in terms of completeness and accuracy. The overall results showed a satisfactory level of completeness at 0.87 and accuracy at 0.71. Among the individual elements, Title, Creator, Publisher, Date, Identifier, Rights, and Language exhibited higher performance. Subject and Description elements showed relatively lower performance in terms of completeness and accuracy, but it confirmed the generation capability known as the inherent strength of ChatGPT. On the other hand, books in the sections of social sciences and technology of DDC showed slightly lower accuracy in the Contributor element. This was attributed to ChatGPT’s attribution extraction errors, omissions in the original bibliographic description contents for metadata, and the language composition of the training data used by ChatGPT.

3
이용구(계명대학교) ; 김병규(한국과학기술정보연구원) 2011, Vol.28, No.1, pp.309-326 https://doi.org/10.3743/KOSIM.2011.28.1.309
초록보기
초록

기존 메타데이터의 품질 측정 방법은 오류가 발생한 레코드를 단순히 계수하여 그 비율로 품질을 측정하였다. 이러한 한계를 극복하기 위해 메타데이터 요소별로 상대적 중요 정도를 나타내는 가중치를 적용함으로서, 메타데이터 품질을 체계적으로 계량화 하는 측정 방법을 제시하고자 하였다. 구체적인 가중치 부여 방법으로 엔트로피, 이용자 과업, 그리고 이용 통계를 활용하였다. 또한 이들을 결합하여 통합 가중치를 제시하고 실제 서비스 되고 있는 학술지 기사 메타데이터에 적용하였다. 실험 결과, 엔트로피 가중치 방법은 데이터 자체의 특성을 잘 반영하며, 이용자 과업을 적용한 방법은 이용자의 정보요구를 해결하는 필요한 메타데이터 요소를 제시하며, 통합 가중치는 특정 메타데이터 요소의 오류에 영향을 받지 않으면서 균형 잡힌 측정값을 제시하여 계량화 방법에 적합한 것으로 나타났다.

Abstract

Most metadata quality measurement employ simple techniques by counting error records. This study presents a new quantitative measurement of metadata quality using advanced weighting schemes in order to overcome the limitations of exiting measurement techniques. Entropy, user tasks, and usage statistics were used to calculate the weights. Integrated weights were presented by combining these weights and were applied to actual journal article metadata. Entropy weights were found to reflect the characteristics of the data itself. User tasks presented the required metadata elements to solve user's information need. Integrated weights showed balanced measures without being affected by the influence of error elements, This finding indicates the new method being suitable for quantitative measurement of metadata quality.

초록보기
초록

이 연구는 통합 목록/메타데이터 시스템으로 전 세계에 광범위한 서비스가 제공되고 있는 OCLC의 Connexion 시스템에 관한 유저빌러티를 실험한 연구이다. 유저빌러티 실험은 상업적인 성공을 달성하기 위한 기업들의 노력의 하나로써 시작되었으며 문헌정보학에는 특정한 정보 검색 시스템이 자신의 이용자들에게 좀 더 나은 서비스를 제공하기 위해 시스템 인터페이스를 개선시키고자하는 노력의 일환으로 도입되어 사용되어 왔다. Connexion 서비스는 기본적으로 MARC 기준을 바탕으로 인코딩 되어 메타데이터 서비스를 통합하여 제공하는 대표적인 통합 목록/메타데이터 서비스로 알려져 있다. 실험 전반을 통해서 이용자의 실험과정이 녹화 분석 되었으며, 6개 영역 17 가지 사항의 유저빌러티 문제점들이 파악되었다. 또한 마지막으로 17 가지 사항들에 대한 각각의 개선책들이 조심스럽게 제안되었다.

Abstract

The goal of this study was to examine the relationships between usability and the searching experience, and to uncover where an integrated cataloging and metadata system lay the usability problems of its primary users, catalogers. This study showed that the most important aspect of usability in Connexion lay in the experience of information retrieval system. Also, it showed there are seventeen usability problems to be improved in Connexion. Needless to say, it is most important to note that usability is not an exclusive goal of such an integrated cataloging and metadata system. Other goals such as quality of catalogs, and the reliability of its cataloging and metadata system are equally its concern. This study also suggested more testing on diverse cataloging systems and specific user groups, especially catalogers.

초록보기
초록

본 연구에서는 셀프 아카이빙(self-archiving)을 기본으로 메타데이터가 구축되는 기관 리포지터리의 인명 검색 문제점을 해결하고자, 인명 접근점제어 데이터를 구축하였다. 이를 위해 기존 도서관의 전거데이터를 활용하면서도 전거형을 인정하지 않고, 정보원에 기재된 형식을 모두 접근점으로 사용하는 그룹화 방법을 사용하고, 동명이인 처리를 위해 저작자의 주제분야와 저작정보를 확장해서 사용하는 새로운 방법을 토대로 인명 접근점제어 데이터를 구축하고 시스템에 적용하여 검색의 기능이 향상되었다. 향후 기관 리포지터리 외에 도서관이 총괄하는 모든 메타데이터의 검색 기능 향상을 위해서도 활용할 수 있을 것이다.

Abstract

This study developed a name access point control system for better performance of information retrieval from institutional repositories, which are equipped with author- generated metadata processes for self-archiving. In developing name access point control data for the system, the primary data were created from the existing authority. However, unlike the existing authority data, the primary data did not use any authority forms. Instead, the data utilized all the forms provided by the resources as access points. Specifically, field of activity(subject) and title information on authorship were used to distinguish between persons who have the same name. The result showed that the system improved the performance of the information retrieval. The system has been also expected to be utilized over other metadata provided by libraries, in addition to the institutional repositories, in order to provide better quality information.

6
선은택(중앙대학교 일반대학원 문헌정보학과 정보학전공 석사과정) ; 김학래(중앙대학교 문헌정보학과) 2023, Vol.40, No.4, pp.329-349 https://doi.org/10.3743/KOSIM.2023.40.4.329
초록보기
초록

정보통신 기술이 빠르게 발전하면서 데이터의 생산 속도가 급증하였고, 이는 빅데이터라는 개념으로 대표되고 있다. 단시간에 데이터 규모가 급격하게 증가한 빅데이터에 대해 품질과 신뢰성에 대한 논의도 진행되고 있다. 반면 스몰데이터는 품질이 우수한 최소한의 데이터로, 특정 문제 상황에 필요한 데이터를 의미한다. 문화예술 분야는 다양한 유형과 주제의 데이터가 존재하며 빅데이터 기술을 활용한 연구가 진행되고 있다. 하지만 문화예술기관의 기본정보가 정확하게 제공되고 활용되는지를 탐색한 연구는 부족하다. 기관의 기본정보는 대부분의 빅데이터 분석에서 사용하는 필수적인 근거일 수 있고, 기관을 식별하기 위한 출발점이 된다. 본 연구는 문화예술 기관의 기본정보를 다루는 데이터를 수집하여 공통 메타데이터를 정의하고, 공통 메타데이터를 중심으로 기관을 연계하는 지식그래프 형태로 스몰데이터를 구축하였다. 이는 통합적으로 문화예술기관의 유형과 특징을 탐색할 수 있는 방안이 될 수 있다.

Abstract

With the rapid development of information and communication technology, the speed of data production has increased rapidly, and this is represented by the concept of big data. Discussions on quality and reliability are also underway for big data whose data scale has rapidly increased in a short period of time. On the other hand, small data is minimal data of excellent quality and means data necessary for a specific problem situation. In the field of culture and arts, data of various types and topics exist, and research using big data technology is being conducted. However, research on whether basic information about culture and arts institutions is accurately provided and utilized is insufficient. The basic information of an institution can be an essential basis used in most big data analysis and becomes a starting point for identifying an institution. This study collected data dealing with the basic information of culture and arts institutions to define common metadata and constructed small data in the form of a knowledge graph linking institutions around common metadata. This can be a way to explore the types and characteristics of culture and arts institutions in an integrated way.

7
박상규(중앙대학교) ; 김성희(중앙대학교) ; 이찬규(중앙대학교) ; 이준호(숭실대학교) ; 윤경현(중앙대학교) 2007, Vol.24, No.4, pp.255-265 https://doi.org/10.3743/KOSIM.2007.24.4.255
초록보기
초록

본 연구에서는 12개의 표본 비디오 집단과 14명의 피조사자들을 이용하여 영상 초록 및 전체 클립 보기를 통한 색인어 및 요약문 추출의 정확도를 측정해 보았다. 측정 결과 첫째, 비디오 유형에 따라 정확도가 차이가 있는 것으로 나타났으며 이는 이미지에 주로 의존하여 정보를 표출하는 비디오의 경우 텍스트 초록만으로 의미 파악을 하기에는 한계가 있으며 텍스트 초록이 영상 초록과 함께 사용되었을 때 시너지 효과를 낼 수 있음을 보여주고 있다. 둘째, 영상 초록의 색인어 및 요약문 정확도가 전체 클립의 정확도 보다 떨어지지만 절반치에 근접한 것으로 나타나 영상 초록이 비디오 의미 추출에 효율적으로 활용될 수 있음을 확인하였다. 또한 영상 초록의 색인어 정확도(0.45)가 요약문 정확도(0.40) 보다 더 높게 나타나 영상 초록을 통해서 색인어 추출 작업을 더 효율적으로 할 수 있음을 확인할 수 있었다. 이러한 실험 결과에 기초하여 영상 초록이 색인어 또는 요약문 추출 작업에 활용될 수 있을 뿐만 아니라, 디지털 도서관 환경에서 텍스트 초록과 같은 다른 메타데이터 요소들과 함께 사용된다면 이용자의 적합성 판정을 좀 더 용이하게 할 것이며, 더 나아가 영상 질의의 매칭 자료로도 이용될 수 있음을 제안하였다. 끝으로 영상 초록의 품질을 높이기 위한 키프레임 추출 알고리즘 및 키프레임 배열 모형 설계 등 후속 연구에 대해서 제언하였다.

Abstract

This study is designed to assess whether storyboard surrogates are useful enough to be utilized for indexing sources as well as for metadata elements using 12 sample videos and 14 participants. Study shows that first, the match rates of index terms and summaries are significantly different according to video types, which means storyboard surrogates are especially useful for the type of videos of conveying their meanings mainly through images. Second, participants could assign subject keywords and summaries to digital video, sacrificing a little loss of full video clips' match rates. Moreover, the match rate of index terms (0.45) is higher than that of summaries (0.40). This means storyboard surrogates could be more useful for indexing videos rather than summarizing them. The study suggests that 1)storyboard surrogates can be used as sources for indexing and abstracting digital videos; 2) using storyboard surrogates along with other metadata elements (e.g., text-based abstracts) can be more useful for users' relevance judgement; and 3)storyboard surrogates can be utilized as match sources of image-based queries. Finally, in order to improve storyboard surrogates quality, this study proposes future studies: constructing key frame extraction algorithms and designing key frame arrangement models.

초록보기
초록

본 연구에서는 12개의 표본 비디오 집단과 14명의 피조사자들을 이용하여 영상 초록 및 전체 클립 보기를 통한 색인어 및 요약문 추출의 정확도를 측정해 보았다. 측정 결과 첫째, 비디오 유형에 따라 정확도가 차이가 있는 것으로 나타났으며 이는 이미지에 주로 의존하여 정보를 표출하는 비디오의 경우 텍스트 초록만으로 의미 파악을 하기에는 한계가 있으며 텍스트 초록이 영상 초록과 함께 사용되었을 때 시너지 효과를 낼 수 있음을 보여주고 있다. 둘째, 영상 초록의 색인어 및 요약문 정확도가 전체 클립의 정확도 보다 떨어지지만 절반치에 근접한 것으로 나타나 영상 초록이 비디오 의미 추출에 효율적으로 활용될 수 있음을 확인하였다. 또한 영상 초록의 색인어 정확도(0.45)가 요약문 정확도(0.40) 보다 더 높게 나타나 영상 초록을 통해서 색인어 추출 작업을 더 효율적으로 할 수 있음을 확인할 수 있었다. 이러한 실험 결과에 기초하여 영상 초록이 색인어 또는 요약문 추출 작업에 활용될 수 있을 뿐만 아니라, 디지털 도서관 환경에서 텍스트 초록과 같은 다른 메타데이터 요소들과 함께 사용된다면 이용자의 적합성 판정을 좀 더 용이하게 할 것이며, 더 나아가 영상 질의의 매칭 자료로도 이용될 수 있음을 제안하였다. 끝으로 영상 초록의 품질을 높이기 위한 키프레임 추출 알고리즘 및 키프레임 배열 모형 설계 등 후속 연구에 대해서 제언하였다.

Abstract

This study is designed to assess whether storyboard surrogates are useful enough to be utilized for indexing sources as well as for metadata elements using 12 sample videos and 14 participants. Study shows that first, the match rates of index terms and summaries are significantly different according to video types, which means storyboard surrogates are especially useful for the type of videos of conveying their meanings mainly through images. Second, participants could assign subject keywords and summaries to digital video, sacrificing a little loss of full video clips' match rates. Moreover, the match rate of index terms (0.45) is higher than that of summaries (0.40). This means storyboard surrogates could be more useful for indexing videos rather than summarizing them. The study suggests that 1)storyboard surrogates can be used as sources for indexing and abstracting digital videos; 2) using storyboard surrogates along with other metadata elements (e.g., text-based abstracts) can be more useful for users' relevance judgement; and 3)storyboard surrogates can be utilized as match sources of image-based queries. Finally, in order to improve storyboard surrogates quality, this study proposes future studies: constructing key frame extraction algorithms and designing key frame arrangement models.

9
이은미(이화여자대학교) ; 김명(이화여자대학교) ; 임진희(명지대학교) 2012, Vol.29, No.3, pp.257-285 https://doi.org/10.3743/KOSIM.2012.29.3.257
초록보기
초록

전자의무기록시스템(EMR)이 도입되고 의무기록 이해당사자들의 요구가 변화함에 따라 우리나라 병원의 의무기록 생산 및 관리 환경이 급변하고 있다. 그동안 정보관리의 차원에서만 다루던 의무기록을 기록관리의 관점에서 살펴봄으로써 병원 의무기록관리에 의미있는 시사점을 도출할 수 있을 것이다. 이 연구에서는 기록관리의 기본 원칙을 다루고 있는 KS X ISO 15489 표준을 병원의 의무기록관리에 적용하여 현황을 분석하고 개선과제를 도출하고자 하였다. 이를 위해 첫째, 표준에서 제시하고 있는 기록관리과정 별로 의무기록관리에 적용할 기준원칙을 작성하였는데, 획득, 등록, 분류, 저장, 접근, 추적, 처분 등 기록관리 7단계에서 총 22개의 기준원칙을 선정하였다. 둘째, 서울 소재 의과대학 부속병원인 Y병원을 대상으로 의무기록관리 현황을 평가하였다. Y병원 의무기록관리팀 부서장을 면담하여 각 기준원칙별로 준수, 부분 준수, 미흡, 미준수의 4가지 수준으로 현황을 평가하였다. 셋째, 기준원칙을 충실히 준수하지 못하고 있는 접근, 추전, 처분 단계부분을 중심으로 의무기록관리의 개선방안을 제시하였다. 이 연구를 시작으로 하여 향후 기록관리 메타데이터표준, 기록경영시스템표준, 기록관리시스템표준 등도 병원의 의무기록관리에 적용함으로서 유용한 시사점을 얻을 수 있을 것으로 기대한다.

Abstract

As the electronic medical records systems (EMRs) are introduced into the hospitals in Korea and the needs of chief stakehoders of medical records are changed, the environments related to creating and managing medical records has been changed dynamically. At this moment it might be meaningful to examine medical records based on records management principles rather than information management principles. The purpose of this paper is to apply the KS X ISO 1549 standards, which covers the principles of records management, to hospital medical records management and assess the current quality of medical records management, and define a few tasks of improvement for hospitals. To achieve this goal, this study has performed following activities: Firstly, principles that could be applied to medical records management were prepared for each record management steps described in the standards, such as capture, registration, classification, storage, access, trace and disposition, and 22 principles were selected from those 7 steps of the record management. Secondly, the Y hospital, which is affiliated with a medical school in Seoul, was chosen to evaluate the current situation regarding medical records management. The department head of the medical records management team in Y hospital was interviewed and the present status was evaluated according to each principle. Thirdly, tasks for improvement were suggested, in such stages as access, trace and disposition. With this study as a cornerstone, useful implications are expected to be gathered from future studies that apply standards for metadata of records, management systems for records, and record management systems to medical record management in hospitals.

정보관리학회지