바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 정보추출, 검색결과: 59
초록보기
초록

본 연구는 특정 영역 소규모 업무(Small Unit Operation) 수행을 지원하는 태스크 온톨로지 모형 개발에 관한 것이다. 기존 정보관리에서 효과적으로 진화된 지식시스템을 구축하기 위해서는 사전 작업인 온톨로지 개발이 필요하다. 대표적 SUO의 하나인 시민단체를 대상으로 선정하여 시민단체의 조직특성, 기대역할과 부진한 기능, 그리고 업무과정에서 발생되는 정보관리나 활용실태 등을 조사하였다. 그러나 온톨로지 구현의 기초 자료로 삼을 수 있는 시민운동이나 단체들에 대한 분류체계나 시소러스 등이 없는 상황에서 단체 특성 및 관련 업무 그리고 출판물 등의 생산정보나 사이트구성, 활동주제 및 내역 등의 기존 데이터만으로는 지식획득은 부족하다. 따라서 본 연구에서 채택된 모형 개발 방법론은 해당 분야 실무자 및 전문가와의 심도 높은 면담과 관찰이며 이를 통해 현장실무의 업무처리 과정에서 발생하는 지식을 추출하고 정보의 흐름 구조를 파악하여 그를 기반으로 시민단체의 역할 수행을 지원하는 태스크 온톨로지 모형을 구현하였다.

Abstract

This paper presents a model of Task-Ontology for small unit operations(SUO) such as non-government organizations. Despite the rapid development and extension of NGOs in domestic area, most has insufficient structural domain resources in existence and underestimates the importance of information management. To improve the citizen's participation and to activate the conjoint actions among the NGOs, which are critical to its social role-playing in global society, the modeling Task-Ontology is ultimately intended to implement the knowledge management system of NGO. In the perspective of ontology competency, not only the analysis of resources in vary, but also in-depth interviews with the NGO's practicing personnels and subject experts, and also the intensive observations of task-processing are required for the knowledge acquisition.

32
남은경(연세대학교) ; 박지홍(연세대학교) 2014, Vol.31, No.4, pp.201-227 https://doi.org/10.3743/KOSIM.2014.31.4.201
초록보기
초록

사회 전반적으로 협업의 중요성과 필요성이 강조되고 있으며, 연구자들의 협업 역시 증가하고 있다. 연구자의 협업에는 학자로서의 특성이 반영된다는 점에서 특이성을 가진다. 본 연구는 연구자 협업 패턴에 영향을 미치는 요인을 알아보기 위해 가설을 설정하고 이를 검증하였다. 영향 요인은 연구자들의 협업 행태 및 동기에 대한 선행연구를 토대로 추출하였으며, 계량정보학 분야 연구자들을 대상으로 네트워크 분석과 설문 분석의 두 가지 방법을 활용하여 가설을 검증하였다. 설문은 네트워크 분석에 포함된 연구자를 대상으로 한 웹 설문으로 진행하였다. 본 연구 결과는 연구자 인식 분석을 통한 개인적 선택 요인과 관계 계량정보학 분석을 통한 집단적 결과 요인을 분석했다는 점에서 의의가 있으며, 연구자 협업을 장려하는 정책 및 디지털 협업서비스 기획 등에 활용될 수 있을 것이라 기대된다.

Abstract

The collaboration is becoming ever more widespread in scientific research. Unlike collaboration in other areas such as in a company, research collaboration has an unique feature that it is reflected by scholars’ characteristics. Based on previous studies on research collaboration, five major factors are identified. We propose five hypotheses from them and examine these by using both in-person questionnaire survey and relational bibliometric analysis. The survey analysis informs individual choice factors and the bibliometric analysis informs collective consequence factors. The results of this study may have implications for science policies and digital collaboration services.

초록보기
초록

본 연구의 목적은 인용문헌에 나타난 웹 자원의 접근성과 그 변화추이를 분석하여 인용문헌에 수록된 웹 정보원의 가치와 유용성을 평가하는데 그 목적이 있다. 이를 위하여 정보관리학회지에 수록된 웹 자원 1,377건을 추출하여 국내, 국외별 웹 자원의 접근성과 도메인과 파일유형의 웹 자원 접근성 및 접근성 변화추이를 분석하였다. 그 결과 국내 웹 자원은 접근성비율이 40%, 국외 웹 자원은 50%, 도메인 유형은 58%, 파일 유형은 44%로 각각 조사되었다. 또한 인용시간 경과에 따른 웹 자원의 접근성은 감소하는 경향을 보였으며, 인용된지 1년 정도가 되면 웹 자원의 23%정도가 접근할 수 없는 것으로 밝혀져 웹 자원의 유용성은 매우 낮은 것으로 평가되었다.

Abstract

The purpose of this study is to analyze the accessibility of web resources contained in the references section of journal articles. I was identified a total of 1,377 web citations for a major journal in information science over a ten year period. The results show that the accessible ratio of domestic web resources was at 40% and the ratio of foreign web resources about 50%. The accessible ratio of domain type web resources was shown 58% while the same ratio for file type web resources was 45%. This low accessibility of we resources in references poses threat to the overall value of journal articles.

34
김용(전북대학교) ; 김늘봄(정읍시립도서관) ; 이태영(전북대학교) 2008, Vol.25, No.4, pp.87-113 https://doi.org/10.3743/KOSIM.2008.25.4.087
초록보기
초록

본 연구는 호주 이메일메타데이터표준 및 한국기록관리메타데이터 표준에 기반하여 국제표준을 준용하는 이메일기록에 대한 표준화된 메타데이터요소를 개발하는데 있다. 이러한 목표를 달성하기 위하여 본 연구에서는 기록관리 및 기록물 메타데이터와 관련된 국제표준인 ISO 15489와 ISO 23081을 분석 및 조사하였다. 두 번째로, 국내 공공기관에서 생산된 이메일기록에 대한 특징을 추출하기 위하여 사례연구를 수행하였다. 또한, 호주의 이메일 메타데이터표준에 대한 상대평가 연구를 수행하였다. 위의 과정을 통하여 추출된 결과와 함께, 본 연구에서는 이메일기록에 대한 관리를 위한 필수 및 선택적 메타데이터요소를 제안하였다. 또한 제안된 이메일 메타데이터요소에 적용 가능한 XML DTD를 개발하였다. 한편, 제안된 이메일 메타데이터요소는 한국의 지방자치단체의 행정정보시스템에서 생산된 실제 이메일기록에 적용하였다.

Abstract

The purpose of this paper is to develop standardized metadata elements of e-mail records with respect to international standards based on analyzing the Australian Government Email Metadata Standard(AGEMS) elements and Korean Records Management Metadata Standard including e-mail records. To achieve the goal, we investigated and analyzed ISO15489 and ISO 23081 which are the international standard related to records and metadata of records. Second, a case study related to the features of e-mail records produced in public institutions in Korea was performed. Third, we made a comparative study of Australian Government Email Metadata Standard(AGEMS). With the results, we proposed mandatory and optional metadata elements for managing e-mail records. Also, the DTD of proposed metadata elements were developed. The proposed metadata elements of e-mail was applied to e-mails which were produced from a administrative information system of a local government in Korea.

초록보기
초록

이 연구는 최근 접근 및 활용이 높아지고 있는 목차에 대해 품사 측면과 주제 측면에서 가지는 기술 통계와 비교 분석을 수행하였다. 이를 위해 대학 도서관의 수서 목록에서 사회과학분야 도서를 추출하고 해당하는 도서에 대해 종합목록으로부터 DDC 분류기호를, 인터넷 서점으로부터 목차 정보를 추출하였다. 서명과 목차를 대상으로 형태소 분석하여 명사 중심의 어휘에 대해 기술통계와 빈도 분석을 실시하였다. 그 결과 형태소 측면에서 서명과 목차는 명사가 대략 절반가량 차지하며, 서명과 비교하여 목차는 50배 정도 더 많은 명사를 가지며, 목차에 출현한 명사 중에 목차만이 고유하게 가지는 비율이 95.2%에 달하는 것으로 파악되었다. 또한 목차는 사회과학 학문분야에 따라 길이가 차이가 나는 것으로 나타났다.

Abstract

Recently, the table of contents (TOC) has been becoming increasingly accessible and utilized. The study conducted descriptive statistics and comparative analysis of the table of contents in terms of parts of speech and subject in text. For this purpose, this study chose the books of the social sciences field from acquisition lists of an academic library, obtained Dewey class numbers of target books from KERIS union catalog, and extracted TOC data from online bookstore. Morphological analysis was performed on each book titles and TOCs, and descriptive statistics and frequency analysis were carried out. As a result, nouns made up roughly half of the morphemes of titles or the TOCs. TOCs had about 50 times more nouns than titles. The percentage of unique nouns that appeared only in the table of contents is estimated to be 95.2% of the TOC’s total nouns. The table of contents also showed a differences in its lengths depending on the field of social science.

초록보기
초록

본 연구는 2014년부터 2018년까지 최근 5년간 미국에서 발표된 도서관학 및 정보과학 분야 학위논문의 연구 동향을 파악하기 위해 PQDT Global 데이터베이스에 수록된 1,016편의 박사학위 논문을 수집하여 각 논문의 관련 학문 분야를 나타내는 분야명들을 추출하고 네트워크 분석을 통해 분야명 간의 관계와 네트워크 전반에 걸쳐 다른 분야들과 관계가 있는 전역중심성이 높은 분야명을 파악하는 것과 동시에 군집분석을 통해 연관성 높은 분야명들이 어떠한 군집을 형성하는지, 각 군집 안에서 지역중심성이 높은 분야명들은 어떤 것들인지 살펴보았다. 103개 핵심 분야명 키워드를 이용한 네트워크 분석 결과 최근 5년간 미국의 도서관학 및 정보과학 분야 박사학위 논문의 관련 학문분야로는 컴퓨터 관련 분야, 교육 관련 분야, 커뮤니케이션 관련 분야 외에도 다양한 이용자 집단에 관한 연구와 정보시스템 관련 분야 등을 포함하여 26개의 군집을 형성하는 것으로 나타났다. 26개 군집들 중 정보과학을 중심으로 하는 군집에는 컴퓨터 관련 학문 분야명들이 다수 포함되었고, 도서관학을 중심으로 하는 군집에는 대부분 교육 관련 분야명들이 포함되었으며, 그 외에도 이용자 연구와 관련하여 특정 이용자 그룹과 관련된 젠더연구 분야나 정보시스템과 관련하여 경영학, 지리학, 의공학 등 다양한 학문 분야와 연관되어 있음을 알 수 있다.

Abstract

The study examines the research trends of doctoral dissertations in Library Science and Information Science published in the U.S. for the last 5 years. Data collected from PQDT Global includes 1,016 doctoral dissertations containing “Library Science” or “Information Science” as subject headings, and keywords extracted from those dissertations were used for a network analysis, which helps identifying the intellectual structure of the dissertations. Also, the analysis using 103 subject heading keywords resulted in various centrality measures, including triangle betweenness centrality and nearest neighbor centrality, as well as 26 clusters of associated subject headings. The most frequently studied subjects include computer-related subjects, education-related subjects, and communication-related subjects, and a cluster with information science as the most central subject contains most of the computer-related keywords, while a cluster with library science as the most central subject contains many of the education-related keywords. Other related subjects include various user groups for user studies, and subjects related to information systems such as management, economics, geography, and biomedical engineering.

초록보기
초록

정보통신기술의 발달로 학술 정보의 양이 기하급수적으로 증가하였고 방대한 양의 텍스트 데이터를 처리하기 위한 자동화된 텍스트 처리의 필요성이 대두되었다. 생의학 문헌에서 생물학적 의미와 치료 효과 등에 대한 정보를 발견해내는 바이오 텍스트 마이닝은 문헌 내의 각 개념들 간의 유의미한 연관성을 발견하여 의학 영역에서 상당한 시간과 비용을 줄여준다. 문헌 기반 발견 연구로 새로운 생의학적 가설들이 발견되었지만 기존의 연구들은 반자동화된 기법으로 전문가의 개입이 필수적이며 원인과 결과의 한가지의 관계만을 밝히는 제한점이 있다. 따라서 본 연구에서는 중간 개념인 B를 다수준으로 확장하여 다양한 관계성을 동시출현 개체와 동사 추출을 통해 확인한다. 그래프 기반의 경로 추론을 통해 각 노드 사이의 관계성을 체계적으로 분석하여 규명할 수 있었으며 새로운 방법론적 시도를 통해 기존에 밝혀지지 않았던 새로운 가설 제시의 가능성을 기대할 수 있다.

Abstract

Due to the recent development of Information and Communication Technologies (ICT), the amount of research publications has increased exponentially. In response to this rapid growth, the demand of automated text processing methods has risen to deal with massive amount of text data. Biomedical text mining discovering hidden biological meanings and treatments from biomedical literatures becomes a pivotal methodology and it helps medical disciplines reduce the time and cost. Many researchers have conducted literature-based discovery studies to generate new hypotheses. However, existing approaches either require intensive manual process of during the procedures or a semi-automatic procedure to find and select biomedical entities. In addition, they had limitations of showing one dimension that is, the cause-and-effect relationship between two concepts. Thus, this study proposed a novel approach to discover various relationships among source and target concepts and their intermediate concepts by expanding intermediate concepts to multi-levels. This study provided distinct perspectives for literature-based discovery by not only discovering the meaningful relationship among concepts in biomedical literature through graph-based path interference but also being able to generate feasible new hypotheses.

초록보기
초록

본 연구는 공공도서관에서 운영하는 프로그램의 성과를 로직모델을 기반으로 개발된 평가 프레임워크를 적용하여 측정하고자 하였다. 성과 측정을 위해 서울 소재 한 공공도서관에서 운영하는 여러 프로그램 중 어린이 독서 프로그램을 선정하였다. 성과 측정 과정은 어린이 독서 프로그램의 계획, 진행, 평가 등의 업무 과정 일체를 분석하여 로직 모델을 구현하였으며 이에 의거하여 예상되는 성과를 측정하였다. 데이터는 KOLAS를 통해 회원정보, 서지정보, 대출정보 등을 수집하였고, 프로그램 운영 현황에 대한 데이터는 프로그램 진행 후 작성된 보고서에서 추출하였다. 측정 결과 어린이 독서 프로그램에 참여한 회원들의 대출빈도가 상승하였고, 프로그램의 주제에 따라 대출 장서의 주제가 변화하는 것을 볼 수 있었다. 본 연구를 통해 독서 프로그램이 갖는 효과와 의미를 확인할 수 있었으며, 성과평가가 도서관에서 운영하는 타 프로그램 및 도서관 업무 등의 효과성을 측정하는데 유용한 도구가 될 수 있음을 보여주었다.

Abstract

The purpose of this study is to measure the outcomes of a program provided by a public library using the evaluation framework based on Logic Model. A reading program for children which was operated by a public library in Seoul was selected. The outcome evaluation was started with the analysis of the reading program process including planning, operation, and evaluation. Based on the analysis, a logic model framework for outcome evaluation was developed. For evaluation, user, bibliography, and circulation data were collected from the library KOLAS system. Additionally, the participant information were extracted from the final report drafted after the program. The research results show that the number of circulation of program participants was increased after the program. In addition, the range of reading topic was expanded. These findings indicate that the reading program is an effective program for promoting children’s reading habit and that outcome evaluation might be a valid tool to measure the effectiveness of public library programs.

초록보기
초록

본 논문은 C대학도서관의 학술정보시스템(LAS)에 구축되어 있는 장서와 대출기록 및 고객관련 데이터를 수집하여 이를 분석하고 그 결과를 고객관계관리(CRM)에 적용할 수 있는 방안을 제시하였다. 수집된 자료는 C 대학도서관에서 소장하고 있는 대출이 가능한 단행본 총 269,387책의서지데이타와고객 12,281명의 데이터, 이용자 대출기록 39,269건이었다. 대출기록 분석 데이터에서 관계변수로 이용자 신분, 대출빈도, 대출책수와 대출횟수, 출판년도를 추출하여 데이터 마이닝 기법으로 분석하고, 상관계수로 검증하였다.

Abstract

The books and circulation-related data in the Library Automation System(LAS) of C-academic library were collected and analyzed, and also the method which may be applied to the Customer Relationship Management (CRM) based on the results was suggested in this paper. Collected data were 269,387 bibliographic data of books, 12,281 patron data, and 39,269 circulation records. User identity, circulation frequencies, total number of circulated books, and publication year as relation factor from the analyzed data of circulation records were extracted. They were also analyzed, and verified by correlation coefficient.

40
김용환(연세대학교) ; 정영미(연세대학교) 2012, Vol.29, No.2, pp.155-171 https://doi.org/10.3743/KOSIM.2012.29.2.155
초록보기
초록

텍스트 범주화에 있어서 일반적인 문제는 문헌을 표현하는 핵심적인 용어라도 학습문헌 집합에 나타나지 않으면 이 용어는 분류자질로 선정되지 않는다는 것과 형태가 다른 동의어들은 서로 다른 자질로 사용된다는 점이다. 이 연구에서는 위키피디아를 활용하여 문헌에 나타나는 동의어들을 하나의 분류자질로 변환하고, 학습문헌 집합에 출현하지 않은 입력문헌의 용어를 가장 유사한 학습문헌의 용어로 대체함으로써 범주화 성능을 향상시키고자 하였다. 분류자질 선정 실험에서는 (1) 비학습용어 추출 시 범주 정보의 사용여부, (2) 용어의 유사도 측정 방법(위키피디아 문서의 제목과 본문, 카테고리 정보, 링크 정보), (3) 유사도 척도(단순 공기빈도, 정규화된 공기빈도) 등 세 가지 조건을 결합하여 실험을 수행하였다. 비학습용어를 유사도 임계치 이상의 최고 유사도를 갖는 학습용어로 대체하여 kNN 분류기로 분류할 경우 모든 조건 결합에서 범주화 성능이 0.35%~1.85% 향상되었다. 실험 결과 범주화 성능이 크게 향상되지는 못하였지만 위키피디아를 활용하여 분류자질을 선정하는 방법이 효과적인 것으로 확인되었다.

Abstract

In text categorization, core terms of an input document are hardly selected as classification features if they do not occur in a training document set. Besides, synonymous terms with the same concept are usually treated as different features. This study aims to improve text categorization performance by integrating synonyms into a single feature and by replacing input terms not in the training document set with the most similar term occurring in training documents using Wikipedia. For the selection of classification features, experiments were performed in various settings composed of three different conditions: the use of category information of non-training terms, the part of Wikipedia used for measuring term-term similarity, and the type of similarity measures. The categorization performance of a kNN classifier was improved by 0.35~1.85% in F1 value in all the experimental settings when non-learning terms were replaced by the learning term with the highest similarity above the threshold value. Although the improvement ratio is not as high as expected, several semantic as well as structural devices of Wikipedia could be used for selecting more effective classification features.

정보관리학회지