바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: data paper, 검색결과: 6
1
안세진(김포시 행정과) ; 황현호(㈜악어디지털) ; 임진희(이화여자대학교 정책과학과) 2022, Vol.39, No.3, pp.165-193 https://doi.org/10.3743/KOSIM.2022.39.3.165
초록보기
초록

현대 업무환경 변화의 중심은 디지털 기술이라고 할 수 있다. 특히 업무관리시스템 및 문서생산시스템에서 생산한 기록으로 업무를 증명하는 일반적인 공공기관에서 기록관리체계는 업무환경 그 자체이기도 하다. 김포시는 제4차 산업혁명기술 시대에 선제적으로 대응하고 업무환경 혁신을 이루기 위해 한국지능정보사회진흥원(NIA)의 2021년 공공부문 클라우드 선도 프로젝트 사업에 지원하였고 선도 기관으로 확정되어 3억 3천의 지원을 받아 공공 클라우드 기반의 AI-OCR을 통한 기록물 검색 및 활용기능 강화 프로젝트를 진행하였다. 이를 통해 규격화된 색인 값에 의존한 검색과 이미지 열람에 그치던 비전자기록의 한계를 넘어 데이터화 하였고 AI-OCR이라는 신기술 적용으로 98%의 인식률을 구현하였다. 공공기관에 디지털 기술을 사용하여 업무 효율화, 생산성 향상, 개발비용 절감, 내․외부 이용자들의 기록관리 서비스 수준의 제고를 이루었기에 신기술과 기록물관리의 결합 사례연구를 통해 기록관리 분야 본연의 전문성을 높이는 방향과 업무환경 혁신 구현 사례를 공유하고자 한다.

Abstract

It can be said that digital technology is at the center of the change in the modern work environment. In particular, in general public institutions that prove their work with records produced by business management systems and document production systems, the record management system is also the work environment itself. Gimpo City applied for the 2021 public cloud leading project of the National Information Society Agency (NIA) to proactively respond to the 4th industrial revolution technology era and implemented a public cloud-based AI-OCR technology enhancement project with 330 million won in support of 330 million won. Through this, it was converted into data beyond the limitations of non-electronic records limited to search and image viewing that depend on standardized index values. In addition, a 98% recognition rate was realized by applying a new technology called AI-OCR. Since digital technology has been used to improve work efficiency, productivity, development cost, and record management service levels of internal and external users, we would like to share the direction of enhancing expertise in the record management and implementation of work environment innovation.

2
변우영(명지대학교 기록정보관리학과) ; 임진희(명지대학교 기록정보과학전문대학원) 2022, Vol.39, No.1, pp.195-217 https://doi.org/10.3743/KOSIM.2022.39.1.195
초록보기
초록

SIARD_KR은 스위스 연방 기록보존소에서 개발한 관계형 데이터베이스 컨텐츠의 장기보존에 이용하는 기술인 SIARD를 우리나라의 실정에 맞게 일부 수정한 행정정보 데이터세트 보존 도구이다. 기존의 선행연구는 SIARD가 얼마나 관계형 데이터베이스안에 들어있는 모든 데이터를 손실 없이 잘 추출할 수 있는지에 초점이 맞춰져 있다. 하지만 데이터베이스에 들어있는 데이터 전부가 의미 있는 정보, 즉 행정정보 데이터세트는 아니다. 따라서 이 논문은 SIARD_KR이 행정정보 데이터세트의 특성을 반영하고 있는가에 대한 문제의식에서 시작한다. SIARD_KR이 단순히 DB에 저장된 데이터를 추출하는 도구가 아니고 의미 있는 정보만을 식별하여 추출할 수 있을지, 본래의 시스템에서 유리되어도 의미 있는 정보를 유지할 수 있을지 확인하려 한다. 본 논문은 SIARD_KR의 구조를 분석하고, 예상되는 문제점을 도출하여 그에 대한 개선방안을 제시하는 것을 목적으로 한다.

Abstract

SIARD_KR is an administrative information dataset preservation tool. It is a partially modified version of SIARD, technology used for long-term preservation of relational databases developed by the Swiss Federal Archives, to suit Korea’s situation better. Previous studies have focused on how SIARD is able to effectively extract all data contained in the relational database without loss. However, not all data contained in the database is meaningful information, that is, an administrative information dataset. This paper began, therefore, with the awareness of the problem of whether SIARD_KR reflects the characteristics of the administrative information dataset. SIARD_KR is not only a tool for extracting data stored in the DB. We want to see if it is capable of identifying and extracting only meaningful information, and maintaining meaningful information, even if it is separated from the original system. The purpose of this paper is to analyze the structure of SIARD_KR, identify expected problems, and suggest improvement measures for them.

초록보기
초록

국내 학술연구의 동향을 구체적으로 파악하여 연구개발 활동의 체계적인 지원 및 평가는 물론 현재와 미래의 연구 방향을 설정할 수 있는 기초 데이터로서, 개별 학술지 논문에 표준화된 주제 범주(통제키워드)를 부여할 수 있는 효율적인 방안을 모색하였다. 이를 위해 한국연구재단 「학술연구분야분류표」 상의 분류 범주를 국내 학술지 논문에 자동 할당하는 과정에서, 자질선정 기법을 중심으로 자동분류의 성능에 영향을 미치는 주요 요소들에 대한 다각적인 실험을 수행하였다. 그 결과, 실제 환경의 불균형 데이터세트(imbalanced dataset)인 국내 학술지 논문의 자동분류에서는 보다 단순한 분류기와 자질선정 기법, 그리고 비교적 소규모의 학습집합을 사용하여 상당히 좋은 수준의 성능을 기대할 수 있는 것으로 나타났다.

Abstract

As basic data that can systematically support and evaluate R&D activities as well as set current and future research directions by grasping specific trends in domestic academic research, I sought efficient ways to assign standardized subject categories (control keywords) to individual journal papers. To this end, I conducted various experiments on major factors affecting the performance of automatic classification, focusing on feature selection techniques, for the purpose of automatically allocating the classification categories on the National Research Foundation of Korea’s Academic Research Classification Scheme to domestic journal papers. As a result, the automatic classification of domestic journal papers, which are imbalanced datasets of the real environment, showed that a fairly good level of performance can be expected using more simple classifiers, feature selection techniques, and relatively small training sets.

4
김인후(중앙대학교 문헌정보학과 대학원) ; 김성희(중앙대학교 문헌정보학과) 2022, Vol.39, No.3, pp.293-310 https://doi.org/10.3743/KOSIM.2022.39.3.293
초록보기
초록

본 연구에서는 한국어 데이터로 학습된 BERT 모델을 기반으로 문헌정보학 분야의 문서를 자동으로 분류하여 성능을 분석하였다. 이를 위해 문헌정보학 분야의 7개 학술지의 5,357개 논문의 초록 데이터를 학습된 데이터의 크기에 따라서 자동분류의 성능에 어떠한 차이가 있는지를 분석, 평가하였다. 성능 평가척도는 정확률(Precision), 재현율(Recall), F 척도를 사용하였다. 평가결과 데이터의 양이 많고 품질이 높은 주제 분야들은 F 척도가 90% 이상으로 높은 수준의 성능을 보였다. 반면에 데이터 품질이 낮고 내용적으로 다른 주제 분야들과 유사도가 높고 주제적으로 확실히 구별되는 자질이 적을 경우 유의미한 높은 수준의 성능 평가가 도출되지 못하였다. 이러한 연구는 미래 학술 문헌에서 지속적으로 활용할 수 있는 사전학습모델의 활용 가능성을 제시하기 위한 기초자료로 활용될 수 있을 것으로 기대한다.

Abstract

In this study, we analyzed the performance of the BERT-based document classification model by automatically classifying documents in the field of library and information science based on the KoBERT. For this purpose, abstract data of 5,357 papers in 7 journals in the field of library and information science were analyzed and evaluated for any difference in the performance of automatic classification according to the size of the learned data. As performance evaluation scales, precision, recall, and F scale were used. As a result of the evaluation, subject areas with large amounts of data and high quality showed a high level of performance with an F scale of 90% or more. On the other hand, if the data quality was low, the similarity with other subject areas was high, and there were few features that were clearly distinguished thematically, a meaningful high-level performance evaluation could not be derived. This study is expected to be used as basic data to suggest the possibility of using a pre-trained learning model to automatically classify the academic documents.

5
정재민(한국과학기술정보연구원 오픈액세스센터 AccessON개발팀) ; 김완종(한국과학기술정보연구원 오픈액세스센터 AccessON개발팀) 2022, Vol.39, No.4, pp.75-97 https://doi.org/10.3743/KOSIM.2022.39.4.075
초록보기
초록

전통적인 학술 커뮤니케이션 체제의 문제점을 해결하기 위한 대안으로 오픈액세스 패러다임에 대한 국제적 관심과 확산이 지속되고 있다. 하지만 데이터 기반의 정량적인 방법을 통해 오픈액세스 분야의 글로벌한 동향이나 성장 추세를 파악하려는 노력은 아직까지 부족한 실정이다. 본 연구는 오픈액세스 분야의 학술논문 데이터에 토픽 모델링을 적용하여 세부 연구토픽을 식별하고, 성장곡선을 적합하여 각 연구토픽의 성숙도와 예상 잔여수명을 계산한다. 본 연구는 오픈 사이언스의 세 가지 핵심요소인 오픈액세스, 오픈데이터, 오픈협업과 관련된 14개 토픽들을 식별하였으며, 오픈액세스 분야가 앞으로 약 65년간 꾸준히 성장할 것으로 예상하였다. 본 연구의 분석 결과는 연구자들과 정책 의사결정자들이 오픈액세스 분야의 동향과 성장 추세를 이해하는 데 도움을 줄 수 있을 것으로 기대된다.

Abstract

To solve the problems of the traditional scholarly communication system, global interest in the open access paradigm continues. Nevertheless, there is still a lack of research to understand global research and growth trends in the field of open access through data-based quantitative methods. This study aims to identify which sub-fields exist in open access and analyze how long each research field will grow in the future. To this end, topic modeling and growth curve analysis were applied to global academic papers in the field of open access. This study identified 14 research topics related to open access, open data, and open collaboration, which are three key elements of open science, and foresaw that the field of open access will grow over the next 65 years. The results of this study are expected to support researchers and policymakers in understanding global research trends of open access.

6
김성훈(성균관대학교) ; 도슬기(성균관대학교 문헌정보학과) ; 한상은(카이스트 디지털인문사회과학센터) ; 김재훈(한국과학기술정보연구원) ; 임석종(한국과학기술정보연구원) ; 박진호(한성대학교) 2022, Vol.39, No.4, pp.269-306 https://doi.org/10.3743/KOSIM.2022.39.4.269
초록보기
초록

본 연구는 성숙도 모델 개념을 활용하여 디지털 전환 성과를 측정할 수 있는 지표 개발을 시도하였다. 디지털 전환을 위해서는 단순한 서비스 개선이 아니라 조직, 업무 변화까지를 고려할 필요가 있다. 여기서는 우리나라의 대표적인 과학기술정보서비스 기관인 KISTI의 디지털 전환 측정을 위한 모델 개발을 목표로 하였다. KSITI는 이미 디지털 전환을 위한 BPR 작업을 수행한 바 있으며, 성숙도 모델 개념을 차용하였다. 단, BPR에서는 해당 결과를 측정할 수 있는 방법은 존재하지 않는다. 본 논문에서는 성숙모 모델을 기반으로 디지털 전환을 측정할 수 있는 지표를 개발하였다. 지표개발은 모델 개발과 평가 두 가지 방법으로 수행하였다. 모델 구성을 위한 사례는 기존 KISTI에서 수행한 관련 연구, 다양한 국내․외 사례를 통해 이루어졌다. 검증 전 모델은 대분류를 기준으로 기술(37개), 데이터(45개), 전략(18개), 조직(인력)(36개), (사회적)영향력(14개)이었다. 검증 후에 최종 모델은 기술(20개/17개 지표 탈락), 데이터(36개/9개 지표 탈락), 전략(18개/유지), 조직(인력)(30개/6개 지표 탈락), (사회적)영향력(13개/1개 지표 탈락)으로 구성되었다.

Abstract

This study aimed to develop indicators that can measure the digital transformation performance of science and technology information construction and sharing systems by utilizing the Digital Curation Maturity Models. For digital transformation, it is necessary to consider not only simple service improvement but also organizational and business changes. In this study, we aimed to develop a model for measuring the digital transformation of KISTI, Korea’s representative science and technology information service organization. KISTI has already carried out BPR work for digital transformation and borrowed the concept of a maturity model. However, in BPR, there is no method to measure the result. Therefore, in this paper, we developed an index to measure digital transformation based on the maturity model. Indicator development was carried out in two ways: model development and evaluation. Cases for model construction were made through a comprehensive review of existing KISTI and various domestic and foreign cases. The models before verification were technology (37), data (45), strategy (18), organization (36), and (social)influence (14) based on the major categories. After verification using confirmatory factor analysis, the model is classified as technology (20 / 17 indicators dropped), data (36 / 9 indicators dropped), strategy (18 / maintenance), organization(30 / 6 indicators dropped), and (social) influence (13 indicators / 1 indicator dropped).

정보관리학회지