바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 검색, 검색결과: 12
11
최윤수(한국과학기술정보연구원) ; 정창후(한국과학기술정보연구원) ; 조현양(경기대학교) 2011, Vol.28, No.1, pp.89-104 https://doi.org/10.3743/KOSIM.2011.28.1.089
초록보기
초록

대용량 문서에서 정보를 추출하는 작업은 정보검색 분야뿐 아니라 질의응답과 요약 분야에서 매우 유용하다. 정보추출은 비정형 데이터로부터 정형화된 정보를 자동으로 추출하는 작업으로서 개체명 인식, 전문용어 인식, 대용어 참조해소, 관계 추출 작업 등으로 구성된다. 이들 각각의 기술들은 지금까지 독립적으로 연구되어왔기 때문에, 구조적으로 상이한 입출력 방식을 가지며, 하부모듈인 언어처리 엔진들은 특성에 따라 개발 환경이 매우 다양하여 통합 활용이 어렵다. 과학기술문헌의 경우 개체명과 전문용어가 혼재되어 있는 형태로 구성된 문서가 많으므로, 기존의 연구결과를 이용하여 접근한다면 결과물 통합과정의 불편함과 처리속도에 많은 제약이 따른다. 본 연구에서는 과학기술문헌을 분석하여 개체명과 전문용어를 통합 추출할 수 있는 기반 프레임워크를 개발한다. 이를 위하여, 문장자동분리, 품사태깅, 기저구인식 등과 같은 기반 언어 분석 모듈은 물론 이를 활용한 개체명 인식기, 전문용어 인식기를 개발하고 이들을 하나의 플랫폼으로 통합한 과학기술 핵심개체 인식 체계를 제안한다.

Abstract

Large-scaled information extraction plays an important role in advanced information retrieval as well as question answering and summarization. Information extraction can be defined as a process of converting unstructured documents into formalized, tabular information, which consists of named-entity recognition, terminology extraction, coreference resolution and relation extraction. Since all the elementary technologies have been studied independently so far, it is not trivial to integrate all the necessary processes of information extraction due to the diversity of their input/output formation approaches and operating environments. As a result, it is difficult to handle scientific documents to extract both named-entities and technical terms at once. In order to extract these entities automatically from scientific documents at once, we developed a framework for scientific core entity extraction which embraces all the pivotal language processors, named-entity recognizer and terminology extractor.

12
이미화(이화여자대학교) 2011, Vol.28, No.3, pp.103-121 https://doi.org/10.3743/KOSIM.2011.28.3.103
초록보기
초록

본 연구는 RDA 자원유형을 KCR4에 적용하기 위한 방안을 모색하기 위한 것이다. KCR4의 GMD는 내용과 용기의 용어가 혼합되어 적합한 용어를 선정하기 어렵고, FRBR 개념모형 구현도 용이하지 않다. SMD도 이용자의 요구에 맞는 최신의 용어가 포함되지 않아 변경이 필요한 실정이다. 기 개발된 RDA 자원유형은 AACR2 GMD의 한계를 극복하기 위해 다양한 용어의 측면을 고려하였고, 앞으로 목록분야에 많은 영향을 줄 수 있다. 따라서 국내 목록환경에 RDA 자원유형의 적용가능성이 모색되어야 할 것이다. 이를 위해 사례조사, 설문조사를 실시하였으며, 사례조사는 국내 대학도서관 한 개 기관을 대상으로 GMD 기술의 전수조사를 실시하여 용어의 변경 및 사서 및 이용자가 원하는 용어의 방향을 파악하였다. 설문조사에서는 국내 대학도서관 사서를 대상으로 자원유형 기술의 현황과 문제점 및 RDA 자원유형 이해정도를 파악하였다. 조사결과 자원유형 용어는 검색과 기술을 위해 구체적이고 이용자가 이해하기 쉬운 용어로 변경이 필요하였다. RDA 적용 테스트에서는 자원유형에 따라 정답률에 차이가 있었다. 조사를 바탕으로 RDA 내용유형에 컴퓨터게임을, 용기유형에 DVD, CD-ROM, Blu-Ray, 컴퓨터파일을 추가하여 KCR4의 자원유형을 제안하였다. 기술방식과 화면출력에서도 RDA의 방식을 제안하였다. 본 연구는 RDA 자원유형의 국내 적용가능성을 모색하여, KCR4 자원유형 개정의 기반을 마련하였다.

Abstract

This study is to seek to apply resource types of RDA to KCR4. It is difficult to choose appropriate term and to embody FRBR model because GMD of KCR4 is the mixture of content-based vocabularies and carrier-based vocabularies. SMD is to need to reflect the current technological terms. Resource type of RDA was already developed to overcome limitation of AACR2's GMD, and would affect the world cataloging environment, therefore it is need to apply resource type of RDA to Korean cataloging rule. For this study, case study and survey were used. In case study, it was to scan all GMD term for one university library to build by programming and to grape librarian and users’ potential need. In the survey by cataloging librarian, it was to figure out the current description of resource type in university library and to test RDA resource type. As a result, it was needed to revise the vocabulary to the obvious and user-understandable list. Also it was different in correction rate in RDA testing by resource type. Based on the case study and the survey, RDA resource type was applied to KCR4 resource list by adding term such as computer game in content type, and by inserting terms such as DVD, CD-ROM, Blu-Ray, computer file in carrier type. It also applied RDA description method and display means to KCR4. This study would apply RDA resource type to KCR4 and contribute to revise KCR4 resource type.

정보관리학회지