바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 연구데이터, 검색결과: 316
초록보기
초록

본 연구의 목적은 1) 소설 속 지명 데이터베이스(DB)를 구축하고, 2) 확장 가능한 지명 DB를 위해 자동으로 지명을 추출하여 데이터베이스를 갱신하며, 3) 데이터베이스 내의 소설지명과 용례를 검색하고 시각화하는 파일럿시스템을 구현하는 데 있다. 특히, 학습자료(training)에 해당하는 말뭉치(corpus)를 확보하기 어려운, 소설지명과 같이 현재 잘 쓰이지 않는 개체명을 자동으로 추출하는 것은 매우 어려운 문제이다. 효과적인 지명 정보 추출용 학습자료 말뭉치 확보 문제를 해결하기 위해 본 논문에서는 이미 수작업으로 구축된 웹 지식(어휘사전)을 활용하여 학습에 필요한 충분한 양의 학습말뭉치를 확보하는 방안을 적용하였다. 이렇게 확보된 학습용 코퍼스와 학습된 자동추출 모듈을 가지고, 새로운 지명 용례를 찾아 추가하는 지명 데이터베이스 확장 도구를 만들었으며, 소설지명을 지도 위에 시각화하는 시스템을 설계하였다. 또한, 시범시스템을 구현함으로써 실험적으로 그 타당성을 입증하였다. 끝으로, 현재 시스템의 보완점을 제시하였다.

Abstract

This study aimed to design a semi-automatic web-based pilot system 1) to build a Korean novel geo-name, 2) to update the database using automatic geo-name extraction for a scalable database, and 3) to retrieve/visualize the usage of an old geo-name on the map. In particular, the problem of extracting novel geo-names, which are currently obsolete, is difficult to solve because obtaining a corpus used for training dataset is burden. To build a corpus for training data, an admin tool, HTML crawler and parser in Python, crawled geo-names and usages from a vocabulary dictionary for Korean New Novel enough to train a named entity tagger for extracting even novel geo-names not shown up in a training corpus. By means of a training corpus and an automatic extraction tool, the geo-name database was made scalable. In addition, the system can visualize the geo-name on the map. The work of study also designed, implemented the prototype and empirically verified the validity of the pilot system. Lastly, items to be improved have also been addressed.

102
김태승(경기대학교) ; 이동규(대림대학) 2005, Vol.22, No.4, pp.79-95 https://doi.org/10.3743/KOSIM.2005.22.4.079
초록보기
초록

본 연구는 2년제 전문대학 학생들을 대상으로 웹기반 온라인목록의 이용특성을 조사 연구한 것이다. 연구방법으로 이용자들의 특성을 분석하기 위하여 질문지법과 면접조사법을 통해 데이터를 수집하였으며, 수집된 데이터의 처리는 통계처리 프로그램인 SPSSWIN 10.1을 사용하여 분석하였다. 연구결과 이용행태, 검색결과 만족도, 웹 온라인목록의 선호도, 검색어 선정, 문헌정보학 전공자와 비전공자 간의 탐색성과 차이, 웹 온라인목록의 이용자교육의 필요성 등에 관한 결과를 얻었다. 이러한 분석결과를 근거로 하여 웹 온라인목록 이용 중에 발생하는 문제점과 어려움을 느끼는 기능들에 대해 개선방안을 제시하여 이용자들로 하여금 웹 온라인목록 이용의 효율성을 돕고자 하였다.

Abstract

The aims of this study is to analyse the user's behavior, satisfaction, difficulties and selection of retrieval keywords for the use of Web-based OPAC in the College students. The methods of the questionnaire and the interview was applied to get the data and processed by using SPSSWIN 10.1. Several research results was proved the hypothesis such as differences between major subject of students in their fields. Furthermore, based on the result of this analysis, another purpose is to come up with the improvements of functions prompting difficulties and answers to problems found in the Web OPAC, helping them to use the Web OPAC efficiently.

103
고영만(성균관대학교) ; 서태설(한국과학기술정보연구원) ; 임태훈(한국데이타베이스진흥센터) 2007, Vol.24, No.4, pp.223-238 https://doi.org/10.3743/KOSIM.2007.24.4.223
초록보기
초록

본 연구에서는 다양한 메타데이터간의 의미적 호환성을 유지하거나 개선하기 위한 기존의 방법론을 분석하고 크로스워크를 이용한 메타데이터간의 의미 호환 가능성과 한계에 대해서 검토한 후 메타데이터간의 의미 호환을 극대화하기 위한 의미적 메타데이터 매핑 프로세스를 제시하였다. 이 프로세스는 대상 메타데이터 스킴 확인, 공통 데이터요소개념(DEC) 발견, 데이터요소개념에 따른 속성 그룹화, 매핑 테이블 작성 등의 네 단계로 구성된다. 국내에서 개발된 단체표준 수준의 두 인력정보 메타데이터를 대상으로 본 연구에서 제안된 프로세스를 적용하여 매핑 테이블 작성 과정을 보였다.

Abstract

This paper contains an analysis of the methods that have been used to achieve or improve interoperability among metadata and discuss the possibilities and limits of semantic interoperability among metadata using crosswalk. After that a semantic metadata mapping process which is able to maximize the interoperability among metadata is suggested. The methodology consists of four steps such as identifying metadata schema, finding common data element concepts(DECs), grouping attributes by the DECs, and mapping into a table. An experimental application of the process was performed onto two human resource information metadata standards developed in Korea.

초록보기
초록

본 연구에서는 셀프 아카이빙(self-archiving)을 기본으로 메타데이터가 구축되는 기관 리포지터리의 인명 검색 문제점을 해결하고자, 인명 접근점제어 데이터를 구축하였다. 이를 위해 기존 도서관의 전거데이터를 활용하면서도 전거형을 인정하지 않고, 정보원에 기재된 형식을 모두 접근점으로 사용하는 그룹화 방법을 사용하고, 동명이인 처리를 위해 저작자의 주제분야와 저작정보를 확장해서 사용하는 새로운 방법을 토대로 인명 접근점제어 데이터를 구축하고 시스템에 적용하여 검색의 기능이 향상되었다. 향후 기관 리포지터리 외에 도서관이 총괄하는 모든 메타데이터의 검색 기능 향상을 위해서도 활용할 수 있을 것이다.

Abstract

This study developed a name access point control system for better performance of information retrieval from institutional repositories, which are equipped with author- generated metadata processes for self-archiving. In developing name access point control data for the system, the primary data were created from the existing authority. However, unlike the existing authority data, the primary data did not use any authority forms. Instead, the data utilized all the forms provided by the resources as access points. Specifically, field of activity(subject) and title information on authorship were used to distinguish between persons who have the same name. The result showed that the system improved the performance of the information retrieval. The system has been also expected to be utilized over other metadata provided by libraries, in addition to the institutional repositories, in order to provide better quality information.

105
황상규(홍익대학교 컴퓨터공학과) ; 변영태(홍익대학교) 2009, Vol.26, No.4, pp.319-336 https://doi.org/10.3743/KOSIM.2009.26.4.319
초록보기
초록

시멘틱 웹은 현재의 월드와이드웹의 진화된 모습으로 컴퓨터와 인간이 서로 협업할 수 있도록 컴퓨터가 이해할 수 있는 지식데이터베이스인 온톨로지 기술을 활용한다. 그러나, 온톨로지를 활용하여 정보의 의미를 이해하고 처리 가능하도록 데이터의 표현형식이 표준화 되더라도, 각기 다른 개발자가 서로 다른 개념하에 구축한 온톨로지를 기반으로 작성된 데이터는 상호 불일치 문제를 유발할 수 있다. 따라서, 서로 다른 개념 하에 구축된 온톨로지 간에는 상호 서로 다른 온톨로지 간 정렬작업이 필요하다. 서로 다른 온톨로지 개념노드 간 자동화 처리된 의미정렬 시 인간전문가가 참으로 판단한 사실을 거짓으로 잘못 판단하는 문제상황(false negative)에 의해 정렬오류문제가 발생하게 되는데, 본 연구에서는 서로 다른 온톨로지 개념노드 간 의미정렬과정에서 발생하는 false negative 오류를 최소화 할 수 있는 알고리즘을 새롭게 개발, 제시하였다.

Abstract

Semantic web technology is the evolution of current World Wide Web including a machine-understandable knowledge database, ontology, it may be enable machine and people to work together. However, problems arise when we try to communicate with different data, which are annotated by different ontologies created by different people with different concepts. Thus, to communicate between ontologies, it needs to align between heterogeneous ontologies. When it is aligned between concept nodes of heterogeneous ontologies, one of main problems is a misalignment situation caused by false negative of automatic ontology mapping. So, in this paper, we present a new method to minimize the false negative error in the process of aligning concept nodes of different ontology.

106
정도헌(덕성여자대학교) ; 주황수(덕성여자대학교) 2018, Vol.35, No.3, pp.77-100 https://doi.org/10.3743/KOSIM.2018.35.3.077
초록보기
초록

본 연구는 텍스트 마이닝 기법을 활용하여 대량의 데이터로부터 학제 간 융합 기술을 발굴하는 일련의 과정을 제시하는 것을 목표로 한다. 바이오공학 기술(BT) 분야와 정보통신 기술(ICT) 분야 간의 융합 연구를 위해 (1) BT 분야의 기술용어 목록을 작성하여 대량의 학술논문 메타데이터를 수집한 후 (2) 패스파인더 네트워크 척도 알고리즘을 이용해 유망 기술의 지식 구조를 생성하고 (3) 토픽 모델링 기법을 사용하여 BT분야 중심의 내용 분석을 수행하였다. 다음 단계인 BT-ICT 융합 기술 아이템 도출을 위해, (4) BT-ICT 관련 정보를 얻기 위해 BT 기술용어 목록을 상위 개념으로 확장한 후 (5) OpenAPI 서비스를 이용하여 두 분야가 관련된 학술 정보의 메타데이터를 자동 수집하여 (6) BT-ICT 토픽 모델의 내용 분석을 실시하였다. 연구를 통해 첫째, 융합 기술의 발굴을 위해서는 기술 용어 목록의 작성이 중요한 지식 베이스가 된다는 점과 둘째, 대량의 수집 문헌을 분석하기 위해서는 데이터의 차원을 줄여 분석을 용이하게 해주는 텍스트 마이닝 기법이 필요하다는 점을 확인하였다. 본 연구에서 제안한 데이터 처리 및 분석 과정이 학제 간 융합 연구의 가능성이 있는 기술 요소들을 발굴하는 데 효과적이었음을 확인할 수 있었다.

Abstract

The objectives of this study is to present a discovering process of interdisciplinary convergence technology using text mining of big data. For the convergence research of biotechnology(BT) and information communications technology (ICT), the following processes were performed. (1) Collecting sufficient meta data of research articles based on BT terminology list. (2) Generating intellectual structure of emerging technologies by using a Pathfinder network scaling algorithm. (3) Analyzing contents with topic modeling. Next three steps were also used to derive items of BT-ICT convergence technology. (4) Expanding BT terminology list into superior concepts of technology to obtain ICT-related information from BT. (5) Automatically collecting meta data of research articles of two fields by using OpenAPI service. (6) Analyzing contents of BT-ICT topic models. Our study proclaims the following findings. Firstly, terminology list can be an important knowledge base for discovering convergence technologies. Secondly, the analysis of a large quantity of literature requires text mining that facilitates the analysis by reducing the dimension of the data. The methodology we suggest here to process and analyze data is efficient to discover technologies with high possibility of interdisciplinary convergence.

초록보기
초록

지적구조 분석을 위해 가중 네트워크를 시각화해야 하는 경우에 패스파인더 네트워크와 같은 링크 삭감 알고리즘이 널리 사용되고 있다. 이 연구에서는 네트워크 시각화를 위한 링크 삭감 알고리즘의 적합도를 측정하기 위한 지표로 NetRSQ를 제안하였다. NetRSQ는 개체간 연관성 데이터와 생성된 네트워크에서의 경로 길이 사이의 순위 상관도에 기반하여 네트워크의 적합도를 측정한다. NetRSQ의 타당성을 확인하기 위해서 몇 가지 네트워크 생성 방식에 대해 정성적으로 평가를 했었던 선행 연구의 데이터를 대상으로 시험적으로 NetRSQ를 측정해보았다. 그 결과 품질이 좋게 평가된 네트워크일수록 NetRSQ가 높게 측정됨을 확인하였다. 40가지 계량서지적 데이터에 대해서 4가지 링크 삭감 알고리즘을 적용한 결과에 대해서 NetRSQ로 품질을 측정하는 실험을 수행한 결과, 특정 알고리즘의 네트워크 표현 결과가 항상 좋은 품질을 보이는 것은 아니며, 반대로 항상 나쁜 품질을 보이는 것도 아님을 알 수 있었다. 따라서 이 연구에서 제안한 NetRSQ는 생성된 계량서지적 네트워크의 품질을 측정하여 최적의 기법을 선택하는 근거로 활용될 수 있을 것이다.

Abstract

Link reduction algorithms such as pathfinder network are the widely used methods to overcome problems with the visualization of weighted networks for knowledge domain analysis. This study proposed NetRSQ, an indicator to measure the goodness of fit of a link reduction algorithm for the network visualization. NetRSQ is developed to calculate the fitness of a network based on the rank correlation between the path length and the degree of association between entities. The validity of NetRSQ was investigated with data from previous research which qualitatively evaluated several network generation algorithms. As the primary test result, the higher degree of NetRSQ appeared in the network with better intellectual structures in the quality evaluation of networks built by various methods. The performance of 4 link reduction algorithms was tested in 40 datasets from various domains and compared with NetRSQ. The test shows that there is no specific link reduction algorithm that performs better over others in all cases. Therefore, the NetRSQ can be a useful tool as a basis of reliability to select the most fitting algorithm for the network visualization of intellectual structures.

108
김영범(전남대학교 대학원 기록관리학 석사) ; 장우권(전남대학교 문헌정보학과 교수) 2023, Vol.40, No.3, pp.99-118 https://doi.org/10.3743/KOSIM.2023.40.3.099
초록보기
초록

이 연구의 목적은 기록물의 맥락정보를 담고 있는 메타데이터를 활용하여 기록물 자동분류 과정에서의 성능요소를 파악하는데 있다. 연구를 위해 2022년 중앙행정기관 원문정보 약 97,064건을 수집하였다.수집한 데이터를 대상으로 다양한 분류 알고리즘과 데이터선정방법, 문헌표현기법을 적용하고 그 결과를 비교하여 기록물 자동 분류를 위한 최적의 성능요소를 파악하고자 하였다. 연구 결과 분류 알고리즘으로는 Random Forest가, 문헌표현기법으로는 TF 기법이 가장 높은 성능을 보였으며, 단위과제의 최소데이터 수량은 성능에 미치는 영향이 미미하였고 자질은 성능변화에 명확한 영향을 미친다는 것이 확인되었다.

Abstract

The objective of this study is to identify performance factors in the automatic classification of records by utilizing metadata that contains the contextual information of records. For this study, we collected 97,064 records of original textual information from Korean central administrative agencies in 2022. Various classification algorithms, data selection methods, and feature extraction techniques are applied and compared with the intent to discern the optimal performance-inducing technique. The study results demonstrated that among classification algorithms, Random Forest displayed higher performance, and among feature extraction techniques, the TF method proved to be the most effective. The minimum data quantity of unit tasks had a minimal influence on performance, and the addition of features positively affected performance, while their removal had a discernible negative impact.

109
오지은(광진정보도서관) ; 정동열(이화여자대학교) 2015, Vol.32, No.1, pp.43-62 https://doi.org/10.3743/KOSIM.2015.32.1.043
초록보기
초록

본 연구는 국내 공공도서관에서 장서개발정책 수립 시에 활용할 수 있는 다양한 장서평가 지표를 제시할 목적으로 수행되었다. 이러한 탐색적 연구를 위하여 공공도서관의 실제 데이터를 개별 장서평가 지표에 적용하는 사례연구를 통해서 그 활용 가능성을 확인하고자 하였다. 장서평가 지표 분석을 위하여 서울시 광진구립도서관의 최근 10년간 장서대출 데이터가 이용되었다. 주요 장서평가 지표로는 연도별 구입도서의 장서회전율과 이용계수, 연도별 사서 추천도서 장서회전율과 이용계수, 연도별 비대출도서 비율, 대출자 거주지별 도서관 이용도 등이 분석되었다.

Abstract

This study was implemented to suggest various indicators of collection evaluation for collection development policy in public libraries. For the sake of the exploratory research, this study tried to show the usability of indicators of collection evaluation through actual data of a case study. Also to analyze indicators of collection evaluation, this study used the ten years circulation records of the Gwangjin District Public Library in Seoul. Majors indicators of collection evaluation were the rate of use and use factor of purchasing books by annual, the rate of use and use factor of librarian’s recommended books by annual, the rate of non circulating books by annual, and the rate of use by residence annually.

110
오삼균(성균관대학교) ; 채진석(인천대학교) 2004, Vol.21, No.4, pp.109-131 https://doi.org/10.3743/KOSIM.2004.21.4.109
초록보기
초록

연구는 서울대학교 디지털도서관 프로젝트의 지원으로 추진되었음.****성균관대학교 문헌정보학과 부교수(samoh@skku.ac.kr)****인천대학교 컴퓨터공학과 부교수(jschae@incheon.ac.kr) 논문접수일자 : 2004년 11월 13일 게재확정일자 : 2004년 12월 19일攀攀정보자원의 전달 매체와 형태가 다양화됨에 따라서 이에 대한 관리방법 또한 다양화되어 왔다. 도서관 환경에서는 정보자원를 위한 관리방법으로서 AACR, KCR 등의 목록규칙이 정립되었으며 이러한 목록규칙에 근거한 정보자원관리를 자동화하고자 하는 노력의 결과로서 MARC가 개발되었다. 하지만, MARC 레코드는 서지 레코드가 지니고 있는 의미적 관계의 표현을 지원하지 못하는 구조적 경직성으로 인해 다양하고 상이한 기술적 특성을 지니는 정보자원들을 적절히 기술하는데 제약이 따른다. 즉, MARC의 기본 설계 목적이 몇몇 정보유형에는 비교적 적합하더라도 새로운 형태의 정보유형의 다양성을 지원하는데 어려움이 있다. 또한 MARC를 활용한 정보자원 관리 방식에서는 정보자원 간 연결 관계의 표현을 지원하지 못한다. 즉, MARC의 데이터 모델은 자원기술의 대상을 단일의 객체로 파악하는 단층 데이터 모델이기 때문에 여러 객체들 간의 연결 관계를 설정할 수 있는 다층 데이터 모델을 이용한 정보자원 기술이 필요한 경우는 적절치 못하다. 본 연구에서는 다층 데이터 모델을 지원하는 IFLA FRBR 기본 모델을 기초로 하여 전자도서관에서 사용되는 고서, 고문서, 음악 자료, 학술회의 및 세미나 자료의 관리에 있어서 이용자의 정보요구를 최대한 수용할 수 있는 최적의 메타데이터 모델과 이에 대한 XML 스키마 기반의 표현 체계를 제시하고자 한다.

Abstract

As there are diverse delivery media and forms of information resources, their management schemes are diverse as well. In library community, cataloguing rules for describing information resources such as AACR and KCR have been developed. The efforts to automate management of information resources based on these rules resulted in the development of MARC. However, MARC records are restricted in describing the information resources and MARC has various and distinct characteristics of the structural rigidity, which does not support the representation of extended semantic structures that exist among bibliographic entities. Therefore, since the data model for MARC is single-layer data model, it is not appropriate for describing information resources represented by multi-layer data model which can be used to set up the relationships among various objects in digital libraries. In this paper, we propose an a metadata model for digital libraries based on the IFLA FRBR basic model which supports multi-layer data model and a representation scheme based on XML Schema to manage the metadata about old books, old documents, resource related to music, conferences and seminars.

정보관리학회지