바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 데이터모델, 검색결과: 39
11
오삼균(성균관대학교 문헌정보학과) ; 한상은(성균관대학교 문헌정보학과) ; 손태익(성균관대학교 학술정보관) ; 김성훈(성균관대학교 문헌정보학과) 2018, Vol.35, No.3, pp.165-187 https://doi.org/10.3743/KOSIM.2018.35.3.165
초록보기
초록

전거데이터 공동구축을 목표로 하는 많은 국내 연구가 시행되었음에도 불구하고 국가전거구축의 협업 환경은 표준 전거의 제정, 표준 전거 구축원칙의 제정, 기존 전거구축 기관의 업무 개편, 공동구축 업무의 핵심기관 선정 등과 같은 전제 조건의 미비로 인해 그 실질적 조성이 막혀 있다. 국가전거를 공동으로 구축하고 원활하게 활용하기 위해서는 기존 전거구축기관의 업무에 지장을 초래하지 않는 현실적 협업 방안과 지속적 추진력을 보유한 국가기관의 참여와 아울러 다수 기관의 데이터 병합을 가능케 하는 표준식별체계가 요구된다. 본 연구의 목적은 국가전거의 공동 구축을 위한 여건 조성에 있어서 필수사항이 무엇인가를 문헌조사로 밝히고, 시맨틱웹 기반으로 구축되어 상호운용성이 우수한 VIVO 온톨로지 모델의 활용을 통해 구현 가능한 국가전거 구축모델을 제시하는 것이다.

Abstract

Despite repeated efforts to develop a methodological foundation for assembling collaborative authority data in South Korea, issues such as the establishment of a standard authority model and standard authority construction as well as the reconfiguration of existing entities in authority building have prevented such research from generating a cooperative push for nation-wide authority data and progressing toward concrete implementation. The formulation of a collaborative and well-utilized collection of national authority data accordingly calls for 1) a practical approach to supporting both established authority data contributors and newly organized avenues of mutual participation in authority building, 2) committed involvement on the part of national institutions capable of providing the project with sustained assistance, and 3) a standard identification system which allows multiple organizations to merge their data. This study addresses the challenges of the current environment by taking stock of the key components necessary for the creation of collaborative authority data and using a Semantic Web-based interoperable VIVO ontology model to propose a viable national authority data framework.

초록보기
초록

본 연구는 공공도서관에서 어린이를 대상으로 진행하는 독서프로그램의 성과를 측정하기 위한 프레임워크 개발을 목적으로 한다. 프레임워크 개발을 위한 이론적 토대로 성과 평가에 기반 한 로직모델을 적용하였다. 로직모델의 요소로 제안된 6개 요소 중에서 가정과 외부적 요인을 제외한 투입, 활동, 산출, 성과 요인을 중심으로 프로그램 평가 프레임워크를 개발하였다. 연구결과로, 서울 시내 한 공공도서관에서 연구기간 동안 진행된 4개의 프로그램에 대한 평가 프레임워크와 성과측정을 위한 지표를 제안하였다. 프로그램별로 다양한 성과지표의 개발이 가능하지만 본 연구에서는 도서관 데이터를 기반으로 측정 가능한 지표를 중심으로 제안하였다. 본 연구 결과가 사례 연구로 진행되었지만 대상 프로그램이 공공도서관에서 일반적으로 진행하는 프로그램이라는 점에서 타 도서관의 어린이 대상 프로그램의 평가 프레임워크로 활용될 수 있을 것으로 기대된다.

Abstract

The purpose of this study is to develop frameworks for evaluating reading programs for children provided by a public library. Logic Model based on outcome evaluations was applied for the framework development. While the logic model is generally composed of six factors, the frameworks developed in this study has four factors including input, activity, output, and outcome. Additionally, this study suggests outcome indicators which were driven from library data. Even though the evaluation frameworks were developed from specific programs operated by a public library, those might be able to be used to evaluate other libraries’ programs for children since the target programs are commonly provided by public libraries.

13
고영수(연세대학교 문헌정보학과 석사과정) ; 이수빈(연세대학교 문헌정보학과 박사과정) ; 차민정(연세대학교 소셜오믹스 연구센터) ; 김성덕(연세대학교 문헌정보학과 석사과정) ; 이주희(연세대학교 문헌정보학과 석사과정) ; 한지영(연세대학교 문헌정보학과 석사과정) ; 송민(연세대학교 문헌정보학과) 2022, Vol.39, No.2, pp.111-129 https://doi.org/10.3743/KOSIM.2022.39.2.111
초록보기
초록

불면증은 최근 5년 새 환자가 20% 이상 증가하고 있는 현대 사회의 만성적인 질병이다. 수면이 부족할 경우 나타나는 개인 및 사회적 문제가 심각하고 불면증의 유발 요인이 복합적으로 작용하고 있어서 진단 및 치료가 중요한 질환이다. 본 연구는 자유롭게 의견을 표출하는 소셜 미디어 ‘Reddit’의 불면증 커뮤니티인 ‘insomnia’를 대상으로 5,699개의 데이터를 수집하였고 이를 국제수면장애분류 ICSD-3 기준과 정신의학과 전문의의 자문을 받은 가이드라인을 바탕으로 불면증 경향 문헌과 비경향 문헌으로 태깅하여 불면증 말뭉치를 구축하였다. 구축된 불면증 말뭉치를 학습데이터로 하여 5개의 딥러닝 언어모델(BERT, RoBERTa, ALBERT, ELECTRA, XLNet)을 훈련시켰고 성능 평가 결과 RoBERTa가 정확도, 정밀도, 재현율, F1점수에서 가장 높은 성능을 보였다. 불면증 소셜 데이터를 심층적으로 분석하기 위해 기존에 많이 사용되었던 LDA의 약점을 보완하며 새롭게 등장한 BERTopic 방법을 사용하여 토픽 모델링을 진행하였다. 계층적 클러스터링 분석 결과 8개의 주제군(‘부정적 감정’, ‘조언 및 도움과 감사’, ‘불면증 관련 질병’, ‘수면제’, ‘운동 및 식습관’, ‘신체적 특징’, ‘활동적 특징’, ‘환경적 특징’)을 확인할 수 있었다. 이용자들은 불면증 커뮤니티에서 부정 감정을 표현하고 도움과 조언을 구하는 모습을 보였다. 또한, 불면증과 관련된 질병들을 언급하고 수면제 사용에 대한 담론을 나누며 운동 및 식습관에 관한 관심을 표현하고 있었다. 발견된 불면증 관련 특징으로는 호흡, 임신, 심장 등의 신체적 특징과 좀비, 수면 경련, 그로기상태 등의 활동적 특징, 햇빛, 담요, 온도, 낮잠 등의 환경적 특징이 확인되었다.

Abstract

Insomnia is a chronic disease in modern society, with the number of new patients increasing by more than 20% in the last 5 years. Insomnia is a serious disease that requires diagnosis and treatment because the individual and social problems that occur when there is a lack of sleep are serious and the triggers of insomnia are complex. This study collected 5,699 data from ‘insomnia’, a community on ‘Reddit’, a social media that freely expresses opinions. Based on the International Classification of Sleep Disorders ICSD-3 standard and the guidelines with the help of experts, the insomnia corpus was constructed by tagging them as insomnia tendency documents and non-insomnia tendency documents. Five deep learning language models (BERT, RoBERTa, ALBERT, ELECTRA, XLNet) were trained using the constructed insomnia corpus as training data. As a result of performance evaluation, RoBERTa showed the highest performance with an accuracy of 81.33%. In order to in-depth analysis of insomnia social data, topic modeling was performed using the newly emerged BERTopic method by supplementing the weaknesses of LDA, which is widely used in the past. As a result of the analysis, 8 subject groups (‘Negative emotions’, ‘Advice and help and gratitude’, ‘Insomnia-related diseases’, ‘Sleeping pills’, ‘Exercise and eating habits’, ‘Physical characteristics’, ‘Activity characteristics’, ‘Environmental characteristics’) could be confirmed. Users expressed negative emotions and sought help and advice from the Reddit insomnia community. In addition, they mentioned diseases related to insomnia, shared discourse on the use of sleeping pills, and expressed interest in exercise and eating habits. As insomnia-related characteristics, we found physical characteristics such as breathing, pregnancy, and heart, active characteristics such as zombies, hypnic jerk, and groggy, and environmental characteristics such as sunlight, blankets, temperature, and naps.

14
이유진((주) 아이네크) ; 양성권(서울대학교 치과대학 의생명 지식공학연구실) ; 송민아(서울대학교 치과대학 의생명 지식공학연구실) ; 김홍기(서울대학교) 2009, Vol.26, No.1, pp.215-230 https://doi.org/10.3743/KOSIM.2009.26.1.215
초록보기
초록

MARC, DC, MODS, MarcOnt 등의 서지 메타데이터 모델과 소셜 시맨틱 디지털도서관 사례인 JeromeDL의 메타데이터 모델 및 서지적 개념모델인 FRBR모델 등의 분석을 통해 국내 디지털도서관의 서지메타데이터에 적용 가능한 온톨로지 모델을 제안하고자 한다. 이는 디지털도서관의 다양한 자원형식과 특성을 고려하고, 기존의 서지메타데이터들을 내포시켜 발전시킴으로써 서지자원에 대한 범용성과 상호운용성이 높은 서지 온톨로지를 구축하여 의미적인 검색과 서비스를 확보하고자 하였다.

Abstract

We propose semantic model that is possible to apply for the bibliographic metadata of domestic digital library by analysing bibliographic metadata models like MARC, DC, MODS, JeromeDL's metadata model MarcOnt as the representative case of semantic digital library and FRBR model as the conceptual model.

15
김성훈(성균관대학교) ; 도슬기(성균관대학교 문헌정보학과) ; 한상은(카이스트 디지털인문사회과학센터) ; 김재훈(한국과학기술정보연구원) ; 임석종(한국과학기술정보연구원) ; 박진호(한성대학교) 2022, Vol.39, No.4, pp.269-306 https://doi.org/10.3743/KOSIM.2022.39.4.269
초록보기
초록

본 연구는 성숙도 모델 개념을 활용하여 디지털 전환 성과를 측정할 수 있는 지표 개발을 시도하였다. 디지털 전환을 위해서는 단순한 서비스 개선이 아니라 조직, 업무 변화까지를 고려할 필요가 있다. 여기서는 우리나라의 대표적인 과학기술정보서비스 기관인 KISTI의 디지털 전환 측정을 위한 모델 개발을 목표로 하였다. KSITI는 이미 디지털 전환을 위한 BPR 작업을 수행한 바 있으며, 성숙도 모델 개념을 차용하였다. 단, BPR에서는 해당 결과를 측정할 수 있는 방법은 존재하지 않는다. 본 논문에서는 성숙모 모델을 기반으로 디지털 전환을 측정할 수 있는 지표를 개발하였다. 지표개발은 모델 개발과 평가 두 가지 방법으로 수행하였다. 모델 구성을 위한 사례는 기존 KISTI에서 수행한 관련 연구, 다양한 국내․외 사례를 통해 이루어졌다. 검증 전 모델은 대분류를 기준으로 기술(37개), 데이터(45개), 전략(18개), 조직(인력)(36개), (사회적)영향력(14개)이었다. 검증 후에 최종 모델은 기술(20개/17개 지표 탈락), 데이터(36개/9개 지표 탈락), 전략(18개/유지), 조직(인력)(30개/6개 지표 탈락), (사회적)영향력(13개/1개 지표 탈락)으로 구성되었다.

Abstract

This study aimed to develop indicators that can measure the digital transformation performance of science and technology information construction and sharing systems by utilizing the Digital Curation Maturity Models. For digital transformation, it is necessary to consider not only simple service improvement but also organizational and business changes. In this study, we aimed to develop a model for measuring the digital transformation of KISTI, Korea’s representative science and technology information service organization. KISTI has already carried out BPR work for digital transformation and borrowed the concept of a maturity model. However, in BPR, there is no method to measure the result. Therefore, in this paper, we developed an index to measure digital transformation based on the maturity model. Indicator development was carried out in two ways: model development and evaluation. Cases for model construction were made through a comprehensive review of existing KISTI and various domestic and foreign cases. The models before verification were technology (37), data (45), strategy (18), organization (36), and (social)influence (14) based on the major categories. After verification using confirmatory factor analysis, the model is classified as technology (20 / 17 indicators dropped), data (36 / 9 indicators dropped), strategy (18 / maintenance), organization(30 / 6 indicators dropped), and (social) influence (13 indicators / 1 indicator dropped).

16
김인후(중앙대학교 문헌정보학과 대학원) ; 김성희(중앙대학교 문헌정보학과) 2022, Vol.39, No.3, pp.293-310 https://doi.org/10.3743/KOSIM.2022.39.3.293
초록보기
초록

본 연구에서는 한국어 데이터로 학습된 BERT 모델을 기반으로 문헌정보학 분야의 문서를 자동으로 분류하여 성능을 분석하였다. 이를 위해 문헌정보학 분야의 7개 학술지의 5,357개 논문의 초록 데이터를 학습된 데이터의 크기에 따라서 자동분류의 성능에 어떠한 차이가 있는지를 분석, 평가하였다. 성능 평가척도는 정확률(Precision), 재현율(Recall), F 척도를 사용하였다. 평가결과 데이터의 양이 많고 품질이 높은 주제 분야들은 F 척도가 90% 이상으로 높은 수준의 성능을 보였다. 반면에 데이터 품질이 낮고 내용적으로 다른 주제 분야들과 유사도가 높고 주제적으로 확실히 구별되는 자질이 적을 경우 유의미한 높은 수준의 성능 평가가 도출되지 못하였다. 이러한 연구는 미래 학술 문헌에서 지속적으로 활용할 수 있는 사전학습모델의 활용 가능성을 제시하기 위한 기초자료로 활용될 수 있을 것으로 기대한다.

Abstract

In this study, we analyzed the performance of the BERT-based document classification model by automatically classifying documents in the field of library and information science based on the KoBERT. For this purpose, abstract data of 5,357 papers in 7 journals in the field of library and information science were analyzed and evaluated for any difference in the performance of automatic classification according to the size of the learned data. As performance evaluation scales, precision, recall, and F scale were used. As a result of the evaluation, subject areas with large amounts of data and high quality showed a high level of performance with an F scale of 90% or more. On the other hand, if the data quality was low, the similarity with other subject areas was high, and there were few features that were clearly distinguished thematically, a meaningful high-level performance evaluation could not be derived. This study is expected to be used as basic data to suggest the possibility of using a pre-trained learning model to automatically classify the academic documents.

17
명순희(용인송담대학) ; 김인철(경기대학교) 2002, Vol.19, No.4, pp.35-51 https://doi.org/10.3743/KOSIM.2002.19.4.035
초록보기
초록

본 논문에서는 다중 모델 기계학습 기법을 이용하여 자동 문서 분류의 성능과 신뢰도를 향상시킬 수 있는 연구와 실험 결과를 기술하였다. 기존의 다중 모델 기계 학습법들이 훈련 데이터 또는 학습 알고리즘의 편향에 의한 오류를 극복하고자 한 것인데 비해 본 논문에서 제안한 메타 학습을 이용한 하이브리드 다중 모델 방식은 이 두 가지의 오류 원인을 동시에 해소하고자 하였다. 다양한 문서 집합에 대한 실험 결과. 본 논문에서 제안한 하이브리드 다중 모델 학습법이 전반적으로 기존의 일반 다중모델 학습법들에 비해 높은 성능을 보였으며, 다중 모델의 결합 방식으로서 메타 학습이 투표 방식에 비해 효율적인 것으로 나타났다.

Abstract

Inductive learning and classification techniques have been employed in various research and applications that organize textual data to solve the problem of information access. In this study, we develop hybrid model combination methods which incorporate the concepts and techniques for multiple modeling algorithms to improve the accuracy of text classification, and conduct experiments to evaluate the performances of proposed schemes. Boosted stacking, one of the extended stacking schemes proposed in this study yields higher accuracy relative to the conventional model combination methods and single classifiers.

초록보기
초록

저널을 중심으로 한 학술커뮤니케이션의 문제는 저작권 문제라고 할 수 있다. 영리적 기관이 논문의 저작권을 배타적으로 양도받아, 원문데이터베이스를 구축할 경우 가격상승으로 인한 이용의 제한과 보존의 문제가 발생한다. 본 연구는 이러한 문제를 해결할 수 있는 방안으로 정보공유적 학술커뮤니케이션에 대한 개념적 모델을 제시하였다. 이 모델은 저자가 저작권을 가지되, 학술적이고 비영리적인 이용일 경우 해당 저작물을 자유롭게 이용할 수 있다는 공유적 라이센스를 채택하도록 하는 것이다. 따라서 도서관이 학술논문의 원문데이터베이스를 구축하고 자유롭게 이용시킬 수 있으며, 학술정보의 보존문제도 해결할 수 있을 것이다.

Abstract

The ownership of scholarly communication, i.e. copyright is very important to solve the problem of access to many academic journals in network environment. The purpose of this article is to give a conceptual model for the open access based scholarly communication. The main point of this model is for the authors of research paper to retain copyright on their works and to license the work whenever it is reproduced or redistributed for non-profit use with academic purpose. And library have to construct full text journal databases under this open access license.

초록보기
초록

본 연구는 시계열 특성을 갖는 데이터의 패턴 유사도 비교를 통해 유사 추세를 보이는 키워드를 자동 분류하기 위한 효과적인 방법을 제안하는 것을 목표로 한다. 이를 위해 대량의 웹 뉴스 기사를 수집하고 키워드를 추출한 후 120개 구간을 갖는 시계열 데이터를 생성하였다. 제안한 모델의 성능 평가를 위한 테스트 셋을 구축하기 위해, 440개의 주요 키워드를 8종의 추세 유형에 따라 수작업으로 범주를 부여하였다. 본 연구에서는 시계열 분석에 널리 활용되는 동적 시간 와핑(DTW) 기법을 기반으로, 추세의 경향성을 잘 보여주는 이동 평균(MA) 기법을 DTW에 추가 적용한 응용 모델인 MA-DTW를 제안하였다, 자동 분류 성능 평가를 위해 k-최근접 이웃(kNN) 알고리즘을 적용한 결과, ED와 DTW가 각각 마이크로 평균 F1 기준 48.2%와 66.6%의 최고 점수를 보인 데 비해, 제안 모델은 최고 74.3%의 식별 성능을 보여주었다. 종합 성능 평가를 통해 측정된 모든 지표에서, 제안 모델이 기존의 ED와 DTW에 비해 우수한 성능을 보임을 확인하였다.

Abstract

This study aims to suggest an effective method for the automatic classification of keywords with similar patterns by calculating pattern similarity of temporal data. For this, large scale news on the Web were collected and time series data composed of 120 time segments were built. To make training data set for the performance test of the proposed model, 440 representative keywords were manually classified according to 8 types of trend. This study introduces a Dynamic Time Warping(DTW) method which have been commonly used in the field of time series analytics, and proposes an application model, MA-DTW based on a Moving Average(MA) method which gives a good explanation on a tendency of trend curve. As a result of the automatic classification by a k-Nearest Neighbor(kNN) algorithm, Euclidean Distance(ED) and DTW showed 48.2% and 66.6% of maximum micro-averaged F1 score respectively, whereas the proposed model represented 74.3% of the best micro-averaged F1 score. In all respect of the comprehensive experiments, the suggested model outperformed the methods of ED and DTW.

20
이현실(원광대학교) ; 한성국(원광대학교) 2006, Vol.23, No.3, pp.23-48 https://doi.org/10.3743/KOSIM.2006.23.3.023
초록보기
초록

기록 관리 메타데이터 스키마는 기록물 자체에 내재한 정보 요소뿐만 아니라, 기록 업무에 따른 기록물의 생명 주기 관리 등에 필요한 관리 요소를 표현할 수 있는 강고한 구조를 가져야 한다. 이를 위해서 메타데이터 스키마에서는 기록 도메인의 정보 모델과, 기록 관리 업무 및 응용에서 요구되는 의미 상세화와 데이터 요소 특수화 등을 지원하는 메타데이터 프레임워크가 요구된다. 본 연구에서는 메타데이터 스키마의 주요 원리와 특성을 분석하여, 기록 관리 메타데이터 스키마를 체계적이고 효과적으로 개발하기 위한 접근 방식을 제시한다. 이를 위해 ISO 15489와 23081에 제시된 기록 관리 지침과 메타데이터 운용에 근거한 기록 관리 정보 모델을 개발하고 핵심 데이터 요소를 제시하였으며, 기록 관리 프레임워크를 구현하는 방법을 보였다.

Abstract

Record management metadata schema should have robust structure to represent not only elements innate in records itself but also management elements for the life cycle of records according to business activities. To realize these requirement, Information model for record domain is needed and also Metadata framework supporting semantic refinement and data element specialization required in record management business or applications are required. This study analyse main principles and characteristics of metadata scheme, and then suggested a novel method to develope schema systematically and effectively. This study propose information model and set of core data elements of records management based on ISO 15489 and 230381, and show how to implement the record management framework.

정보관리학회지