바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 데이터논문, 검색결과: 89
초록보기
초록

본 연구의 목적은 객체-관계형 데이터베이스 접근에 의한 XML 문헌의 검색 성능을 평가하는 것이다. 본 논문에서는 INEX(Initiative for the Evaluation of XML retrieval)에서의 XML 문헌의 색인 및 검색 방법에 대하여, 그리고 실험 방법론들에 대하여 기술하고 있다. 대부분의 전통적인 정보검색 성능평가 실험에서와 같이 본 연구에서 사용된 테스트 콜렉션(test collection)은 문헌(즉, XML 문헌), 토픽, ad hoc 검색, 적합성 판단, 평가로 이루어졌다. 그리고 ORDBMS 기술들을 기반으로 개발된 전용 XML 데이터베이스의 일종인 EXIMATM Supply을 사용하여 INEX에서 제공한 대규모 XML 문헌들을 저장하고 검색하였다. 본 논문에서는 실험에서 사용한 시스템에 대한 개략적인 기능들과 색인 및 검색 과정 그리고 INEX 2002에서의 성능평가 결과에 대하여, 앞으로 개선되어야 할 기능에 대하여 논하고 있다.

Abstract

The purpose of this study is to evaluate the performance of XML retrieval based on ORDBMSs(Object-Relational Database Management Systems) approach. This paper describes indexing and retrieval methods for XML documents and the methodologies of experiments at INEX(Initiative for the Evaluation of XML retrieval). Like any other traditional information retrieval experiment, the test collection was consists of documents, topics/queries, task, relevance assessments and evaluation. EXIMATM Supply, a kind of native XML DB based on ORDBMS technologies, is used for this experiment. Although this approach has many benefits, for example, no delay in storing and searching XML documents, but it showed relatively disappointed retrieval performance at INEX 2002. This result may caused since the given topics had to be decomposed and modified to be processed by the XPath processor, and during this modification the original meaning of topics can be changed inevitably and some important information may pass over.

32
이보람(이화여자대학교) ; 정은경(이화여자대학교) 2016, Vol.33, No.3, pp.133-154 https://doi.org/10.3743/KOSIM.2016.33.3.133
초록보기
초록

현대사회의 다양하고 복잡한 문제들을 해결하기 위해 학문영역을 넘나드는 학제적 연구가 등장하게 되었다. 본 연구에서는 최근 다양한 영역에서 주목 받고 있는 빅데이터 분야를 대상으로 학제성을 규명하고 학제적 구조를 파악하고자 하였다. 이를 위해 빅데이터를 다룬 학술지 총 1,083종의 데이터를 수집하였다. 이 중 420종(38.8%)의 학술지에 둘 이상의 Web of Science SC범주가 부여되었고, 239종(22.1%)에 부여된 SC범주는 상이한 학문영역에 속하여 빅데이터 분야의 비교적 높은 학제성을 확인할 수 있었다. 이와 함께 논문 게재 상위 56종의 학술지를 대상으로 서지결합분석 네트워크를 생성한 결과 총 10개의 군집이 나타났다. 10개 군집 중 7개 군집이 컴퓨터공학 분야에 해당하여 대부분의 연구가 빅데이터의 저장, 처리, 분석 등 기술적인 부분에 집중되어 있었다. 이외에도 군집분석을 통해 과학기술, 공학, 커뮤니케이션, 법학, 지리학, 생명공학 등 다양한 분야에서 빅데이터의 분석과 활용에 관한 연구가 이루어지고 있음을 확인할 수 있었다. 마지막으로 네트워크에서 매개중심성, 최근접중심성, 삼각매개중심성을 측정한 결과 컴퓨터공학 분야의 학술지들이 네트워크에 미치는 영향력이 크고 주제적 연관성이 강한 것으로 나타났다.

Abstract

Interdisciplinary approach has been recognized as one of key strategies to address various and complex research problems in modern science. The purpose of this study is to investigate the interdisciplinary characteristics and structure of the field of big data. Among the 1,083 journals related to the field of big data, multiple Subject Categories (SC) from the Web of Science were assigned to 420 journals (38.8%) and 239 journals (22.1%) were assigned with the SCs from different fields. These results show that the field of big data indicates the characteristics of interdisciplinarity. In addition, through bibliographic coupling network analysis of top 56 journals, 10 clusters in the network were recognized. Among the 10 clusters, 7 clusters were from computer science field focusing on technical aspects such as storing, processing and analyzing the data. The results of cluster analysis also identified multiple research works of analyzing and utilizing big data in various fields such as science & technology, engineering, communication, law, geography, bio-engineering and etc. Finally, with measuring three types of centrality (betweenness centrality, nearest centrality, triangle betweenness centrality) of journals, computer science journals appeared to have strong impact and subjective relations to other fields in the network.

33
이소현(부산대학교 도서관) ; 구본진(부산대학교) 2022, Vol.39, No.2, pp.275-298 https://doi.org/10.3743/KOSIM.2022.39.2.275
초록보기
초록

본 연구는 잊힐 권리와 관련한 뉴스 기사와 학술지 게재 논문을 대상으로 텍스트마이닝 분석을 활용해 각 문서 내에 나타난 논점과 특성을 살펴보았다. 분석을 위해 ‘잊힐 권리’와 ‘잊혀질 권리’ 키워드를 검색어로 하여 2010년부터 2020년까지의 데이터를 수집하였다. 수집된 데이터를 대상으로 키워드 분석과 토픽모델링 분석을 수행한 결과, 지난 10년간 뉴스 기사와 학술지 논문에서 다루어진 쟁점은 크게 다르지 않으며, 접근 방법 또한 유사한 것으로 나타났다. 다만 뉴스 기사와 학술지 논문 간 비교를 통해 이들 간 공통적으로 나타나는 쟁점과 부분적인 쟁점의 차이가 있음을 확인하였다. 따라서 본 연구에서 도출된 쟁점을 중심으로 기록관리학 분야에서도 적극적인 논의가 이루어져야 할 필요가 있으며, 공통적인 쟁점들을 우선적으로 고려하되, 쟁점 상 이견이 존재하는 경우, 이를 다각적으로 논의하는 것이 필요하다고 볼 수 있다. 본 연구는 국내 기록관리학계에서 잊힐 권리와 관련된 논의가 이루어지고 있지 않은 현재의 상황에서 기록관리학 분야에서 잊힐 권리의 의미와 향후 발생할 수 있는 이슈를 도출해볼 수 있었다는데 의의가 있으며, 본 연구의 결과를 중심으로 기록관리학 분야에서 잊힐 권리에 대한 다양한 논의가 이루어지기를 기대한다.

Abstract

This study examined the issues and characteristics that appeared in news and journal articles related to the ‘right to be forgotten’ using text mining analysis. Data for analysis were collected from 2010 to 2020 with the keyword ‘right to be forgotten’. Keyword analysis and topic modeling analysis were performed on the collected data. As a result, in the last 10 years the issues about ‘right to be forgotten’ are not much different in news and journal articles and the approaches also are similar. However, it confirmed common issues and the partial difference between news and journal articles through comparison. Therefore in Archives and Records Management Studies, it is necessary to discuss derived in this study. In particular common issues are considered first but if there are differences in issues, it is needed to discuss them in various ways. This study is meaningful to understand the meaning and to draw issues that may arise in the future of the ‘right to be forgotten’. The results of this study will contribute to be variously discussed on the ‘right to be forgotten’ in Archives and Records Management Studies.

초록보기
초록

본 연구의 목적은 1) 소설 속 지명 데이터베이스(DB)를 구축하고, 2) 확장 가능한 지명 DB를 위해 자동으로 지명을 추출하여 데이터베이스를 갱신하며, 3) 데이터베이스 내의 소설지명과 용례를 검색하고 시각화하는 파일럿시스템을 구현하는 데 있다. 특히, 학습자료(training)에 해당하는 말뭉치(corpus)를 확보하기 어려운, 소설지명과 같이 현재 잘 쓰이지 않는 개체명을 자동으로 추출하는 것은 매우 어려운 문제이다. 효과적인 지명 정보 추출용 학습자료 말뭉치 확보 문제를 해결하기 위해 본 논문에서는 이미 수작업으로 구축된 웹 지식(어휘사전)을 활용하여 학습에 필요한 충분한 양의 학습말뭉치를 확보하는 방안을 적용하였다. 이렇게 확보된 학습용 코퍼스와 학습된 자동추출 모듈을 가지고, 새로운 지명 용례를 찾아 추가하는 지명 데이터베이스 확장 도구를 만들었으며, 소설지명을 지도 위에 시각화하는 시스템을 설계하였다. 또한, 시범시스템을 구현함으로써 실험적으로 그 타당성을 입증하였다. 끝으로, 현재 시스템의 보완점을 제시하였다.

Abstract

This study aimed to design a semi-automatic web-based pilot system 1) to build a Korean novel geo-name, 2) to update the database using automatic geo-name extraction for a scalable database, and 3) to retrieve/visualize the usage of an old geo-name on the map. In particular, the problem of extracting novel geo-names, which are currently obsolete, is difficult to solve because obtaining a corpus used for training dataset is burden. To build a corpus for training data, an admin tool, HTML crawler and parser in Python, crawled geo-names and usages from a vocabulary dictionary for Korean New Novel enough to train a named entity tagger for extracting even novel geo-names not shown up in a training corpus. By means of a training corpus and an automatic extraction tool, the geo-name database was made scalable. In addition, the system can visualize the geo-name on the map. The work of study also designed, implemented the prototype and empirically verified the validity of the pilot system. Lastly, items to be improved have also been addressed.

35
송민선(성균관대학교 정보관리연구소) ; 고영만(성균관대학교) ; 이승준(성균관대학교 정보관리연구소) 2016, Vol.33, No.3, pp.155-176 https://doi.org/10.3743/KOSIM.2016.33.3.155
초록보기
초록

본 연구는 한국학 연구 논문 텍스트의 의미 구조를 기반으로 하는 메타데이터를 적용한 학술정보시스템을 구축하여 기존 유사 시스템과의 비교를 통해, 텍스트 구조 기반 메타데이터의 활용 가능성을 확인해 보고자 하는 것을 목적으로 한다. 이를 위해 한국학술지인용색인(Korea Citation Index, KCI)에서 일정 기준을 충족하는 한국학 분야 연구 논문 데이터를 대상으로 의미 구조 메타데이터 항목을 적용한 시범적 검색 시스템(Korean Studies Metadata Database, KMD)을 구축하였으며, 동일한 검색 키워드를 적용하여 기존의 KCI 시스템과 비교했을 때 어떤 특징과 차이점을 갖는지 비교해 보았다. 연구 결과, KMD 시스템이 KCI에 비해 이용자의 검색 의도에 맞는 결과를 보다 효율적으로 보여주는 것으로 확인되었다. 즉 검색하고자 하는 키워드의 조합이나 조건식이 기존 시스템과 동일하더라도 검색 결과를 통해 최종적으로 연구 진행과 관련해 찾고자 하는 연구 목적, 연구의 대상 데이터나 시공간적 배경 등에 따른 검색 결과를 다양하게 보여줄 수 있는 것으로 나타났다.

Abstract

This study aims to develope a scholarly metadata information system based on conceptual elements of text structure of Korean studies research articles and to identify the applicability of text structure based metadata as compared with the existing similar system. For the study, we constructed a database(Korean Studies Metadata Database, KMD) with text structure based on metadata of Korean Studies journal articles selected from the Korea Citation Index(KCI). Then we verified differences between KCI system and KMD system through search results using same keywords. As a result, KMD system shows the search results which meet the users’ intention of searching more efficiently in comparison with the KCI system. In other words, even if keyword combinations and conditional expressions of searching execution are same, KMD system can directly present the content of research purposes, research data, and spatial-temporal contexts of research et cetera as search results through the search procedure.

36
장연미(명지대학교 문헌정보학과 석사) ; 이재윤(명지대학교 문헌정보학과 교수) 2024, Vol.41, No.1, pp.313-338 https://doi.org/10.3743/KOSIM.2024.41.1.313
초록보기
초록

이 연구에서는 국내 문헌정보학 학술지 논문의 사사표기 유형을 파악하고, 유형에 따라 학술지 논문의 계량서지적 특성에 차이가 있는지를 알아보고자 하였다. 분석을 위해서 국내 문헌정보학 분야 대표 학술지 4종에 2013년부터 2021년까지 9년간 게재된 논문 2,143편의 사사표기와 참고문헌, 인용횟수를 데이터로 확보하였다. 전체 논문 중에서 61.2%인 1,311편에 실린 사사표기 1,433건의 내용을 분석하여 유형을 나눈 다음, 각 유형에 해당하는 논문의 계량서지적 특성을 살펴보았다. 사사표기 유형은 크게 ‘윤리(중복게재회피)’와 ‘감사’ 유형으로 양분되었으며, 각각 9가지와 10가지로 세분할 수 있었다. 계량서지적 특성으로 참고문헌 수, 참고문헌의 최신성, 인용도를 살펴본 결과 모든 특성이 사사표기 유형별로 차이가 있는 것으로 나타났다.

Abstract

In this study, we aimed to identify the types of acknowledgments in Korean LIS journal articles and to find out whether there are differences in the bibliometric characteristics of journal articles based on the types of acknowledgments. For the analysis, the acknowledgments, references, and citation counts of 2,143 articles published in four representative journals in the field of library and information science in Korea for nine years from 2013 to 2021 were obtained as data. We analyzed the contents of 1,433 acknowledgments in 1,311 articles (61.2% of all articles) to divide them into types and then examined the bibliometric characteristics of each type of article. The acknowledgment types were broadly divided into the ‘ethics’ type (avoiding duplicate publication) and ‘thanks’ type, which were further subdivided into 9 and 10 types, respectively. We examined the number of references, recency of references, and citations as bibliometric characteristics, and found that all of these characteristics differed between the types of acknowledgements.

37
정재민(한국과학기술정보연구원 오픈액세스센터 AccessON개발팀) ; 김완종(한국과학기술정보연구원 오픈액세스센터 AccessON개발팀) 2022, Vol.39, No.4, pp.75-97 https://doi.org/10.3743/KOSIM.2022.39.4.075
초록보기
초록

전통적인 학술 커뮤니케이션 체제의 문제점을 해결하기 위한 대안으로 오픈액세스 패러다임에 대한 국제적 관심과 확산이 지속되고 있다. 하지만 데이터 기반의 정량적인 방법을 통해 오픈액세스 분야의 글로벌한 동향이나 성장 추세를 파악하려는 노력은 아직까지 부족한 실정이다. 본 연구는 오픈액세스 분야의 학술논문 데이터에 토픽 모델링을 적용하여 세부 연구토픽을 식별하고, 성장곡선을 적합하여 각 연구토픽의 성숙도와 예상 잔여수명을 계산한다. 본 연구는 오픈 사이언스의 세 가지 핵심요소인 오픈액세스, 오픈데이터, 오픈협업과 관련된 14개 토픽들을 식별하였으며, 오픈액세스 분야가 앞으로 약 65년간 꾸준히 성장할 것으로 예상하였다. 본 연구의 분석 결과는 연구자들과 정책 의사결정자들이 오픈액세스 분야의 동향과 성장 추세를 이해하는 데 도움을 줄 수 있을 것으로 기대된다.

Abstract

To solve the problems of the traditional scholarly communication system, global interest in the open access paradigm continues. Nevertheless, there is still a lack of research to understand global research and growth trends in the field of open access through data-based quantitative methods. This study aims to identify which sub-fields exist in open access and analyze how long each research field will grow in the future. To this end, topic modeling and growth curve analysis were applied to global academic papers in the field of open access. This study identified 14 research topics related to open access, open data, and open collaboration, which are three key elements of open science, and foresaw that the field of open access will grow over the next 65 years. The results of this study are expected to support researchers and policymakers in understanding global research trends of open access.

38
윤화묵(한국과학기술정보연구원) ; 정회경(배재대학교) ; 김창수(연세대학교) ; 유범종(한국과학기술정보연구원) 2002, Vol.19, No.4, pp.96-111 https://doi.org/10.3743/KOSIM.2002.19.4.096
초록보기
초록

현재 기관이나 조직 내에 수많은 양의 데이터가 축적되어 존재하고 있으나 대부분의 데이터는 각 기관이나 조직에 따라 정형화된 형태로 남아있는 실정이다. 정형화된 정보는 정보의 교환 및 공유에 어려움이 있다. 이러한 단점을 극복하고자 지식정보자원관리라는 새로운 개념이 도입되었으며, 축적된 데이터들을 공유 및 관리하기 위한 지식정보자원의 디지털화가 실행되고 있다. 특히 과학기술 또는 교육학술 분야에서는 지식정보자원의 교환 및 공유에 필요한 데이터를 구조적으로 처리하고자 XML을 도입하려는 움직임이 일고 있으며, 이들 분야의 전자문서 안에 사용되어지는 수많은 수학식의 표현이 이미지나 텍스트 등의 비구조적인 데이터로 처리됨에 따라 검색과 인덱싱 또는 재사용성 등의 제한사항이 발생하게 된다. 이를 극복하고자 MathML을 이용한 수학식의 처리에 관심이 집중되고, MathML을 구조적인 문서상에 쉽고 효율적으로 처리할 수 있는 솔루션이 요구되고 있는 실정이다. 이에 본 논문에서는 지식정보자원을 목적으로 하는 전자문서의 구조적인 처리를 용이하게 하고, MathML에 대한 전문적인 지식이 없어도 구조적인 문서상에 쉽게 MathML을 생성 및 표현할 수 있는 XML 문서 편집 시스템을 구현하였다.

Abstract

A lot of accumulated data of many quantity exist within a institution or an organization, but most data is remained in form of standardization as each institution or organization. There are difficulty in exchange and share of information. New concept of knowledge information resource management to overcome this disadvantage was introduced, and the digitization of knowledge information resources to share and manage accumulated data is been doing. Specially, in science technic or education scholarship it, the tendency that importing XML to process necessary data to exchange and share of knowledge information resources structurally, and limitation of back for search and indexing or reusability is happened according as expression of great many mathematics used inside electron document of these sphere is processed to nonstructural data of image or text and so on. There is interest converged in processing of mathematics that use MathML to overcome this, and we require the solution to be able to process MathML easily and efficiently on structural document. In this paper, designed and implemented of XML document editing system which easy structural process of electronic document for knowledge information resources, and create and express MathML easily on structural document without expert knowledge about MathML.

39
김나연(이화여자대학교 일반대학원 문헌정보학과 석사) ; 정은경(이화여자대학교 문헌정보학과 교수) 2020, Vol.37, No.4, pp.1-26 https://doi.org/10.3743/KOSIM.2020.37.4.001
초록보기
초록

오늘날 점차 데이터 집약적으로 변모하는 학문 환경 속에서 데이터는 연구부산물이 아닌 연구성과물로써 학술 커뮤니케이션의 기반으로 자리 잡아가고 있다. 그러나 데이터 공급의 확대나 접근가능성의 확보만으로는 실제적인 데이터 재이용을 담보하는 데 한계가 있다. 이를 극복하기 위해서는 학술연구자의 데이터 재이용 행위와 데이터요구를 심층적으로 파악할 필요성이 있다. 따라서 본 연구는 연구자의 주요 데이터 재이용 행위와 데이터요구를 규명하고자 하였다. 이를 위해 한국사회과학자료원(KOSSDA)의 최근 3개년 데이터 재이용문헌 중 KCI 등재 논문의 저자를 연구대상으로 선정하고, 인터뷰를 수락한 연구자 12명과의 심층면담을 수행하였다. 심층면담 분석결과, 데이터를 재이용하는 요인은 개인적, 경제적, 기술적, 사회적 측면 모두에서 나타났으며, 데이터 재이용 목적에 따라 데이터 그 자체를 이용하거나 데이터가 지닌 맥락정보를 활용하였다. 웹 기반의 정보원으로부터 데이터를 주로 습득하였으나 비공식적인 커뮤니케이션을 통해 파악하는 경우도 있었다. 한편 데이터 재이용 시에 발생하는 학술연구자의 데이터요구를 살펴보면 생산 단위는 기관을, 언어는 영어를, 국가로는 미국을 선호하였다. 또한 조사원 기입식 대인면접 조사 방식으로 수집된 양적 데이터를 우선시하였다. 메타데이터와 식별정보를 충분히 포함한 원자료 수준의 데이터를 긍정적으로 인식하였으나, 접근 및 이용이 통제된 데이터는 데이터가 지닌 가치에 대한 확신을 갖기 어려워 부정적으로 받아들였다. 그러나 데이터의 규모나 최신성과 관련된 선호는 뚜렷하게 나타나지 않았는데 이는 선택 가능한 유사 데이터가 부재하였기 때문이었다.

Abstract

In today’s increasingly data-intensive academic environment, data is becoming the foundation of academic communication as a research outcome rather than a research by-product. However, there is a limit to guaranteeing actual data reuse only by expanding the data supply or securing accessibility. In order to overcome this, it is necessary to understand the data reuse behavior and data needs in-depth. Therefore, this study attempted to identify the major data reuse behavior and data needs among researchers. To this end, the authors of KCI papers among the data reuse documents of the Korea Social Science Data Archive (KOSSDA) for the past 3 years were targeted. An in-depth interview was conducted with 12 researchers who accepted the interview. As a result, factors considered when reusing data were personal, economic, technical, and social aspects, and it was found that the data itself was used or contextual information of the data was used depending on the purpose of data reuse. The path to acquiring data is a web-based source of information, and a path through informal communication can also be found. In terms of the data needs, it was found that they prefer English, the United States, and institutional producers. Also they have a clear preference for quantitative data from an interviewer-filled interpersonal interview survey method, rich metadata along with raw data, and data that contains identification information. However, due to the lack of confidence in the value, it is negative for the use of data with controlled access and use, and it is difficult to confirm a clear preference because there is no similar data available for selection in terms of size and freshness.

초록보기
초록

본 연구는 문헌정보학 측면에서 국외 독서 및 독서교육 연구의 동향을 분석하고 향후의 연구과제를 제시하였다. 이를 위해 첫째, 문헌정보학 분야 국외 데이터베이스(LISTA)의 통제 키워드와 DDC 23판을 검토하여 독서 및 독서교육 관련 주요 연구 영역을 설정하였다. 둘째, 문헌정보학 분야 국외 데이터베이스(LISTA)에서 검색한 지난 100년(1914년~2014년) 동안의 독서 및 독서교육 관련 학술논문(2,115편)을 대상으로 지적구조 분석을 적용하여 연구동향을 분석하였다. 셋째, 이러한 연구동향 분석의 결과에 기초하여 독서 및 독서교육 분야의 향후 연구과제를 제시하였다.

Abstract

This study aims to analyse the research areas and trends of reading (reading instruction) abroad in the respect of LIS, and suggest future research tasks. First, I reviewed the controlled keywords in SU field of LISTA database and the entries of DDC 23, and identified the research areas of reading and reading instruction in overseas. Second, I analysed the research trends of this field by applying a intellectual structure analysis on 2,115 research articles (1914~2014) retrieved from a representative database in the areas of Library and Information Science (LISTA). Third, Based on the results of these analysis, I suggested the future research tasks of this field in the domain of library and information science.

정보관리학회지