바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 개체명 인식, 검색결과: 6
1
최윤수(한국과학기술정보연구원) ; 정창후(한국과학기술정보연구원) ; 조현양(경기대학교) 2011, Vol.28, No.1, pp.89-104 https://doi.org/10.3743/KOSIM.2011.28.1.089
초록보기
초록

대용량 문서에서 정보를 추출하는 작업은 정보검색 분야뿐 아니라 질의응답과 요약 분야에서 매우 유용하다. 정보추출은 비정형 데이터로부터 정형화된 정보를 자동으로 추출하는 작업으로서 개체명 인식, 전문용어 인식, 대용어 참조해소, 관계 추출 작업 등으로 구성된다. 이들 각각의 기술들은 지금까지 독립적으로 연구되어왔기 때문에, 구조적으로 상이한 입출력 방식을 가지며, 하부모듈인 언어처리 엔진들은 특성에 따라 개발 환경이 매우 다양하여 통합 활용이 어렵다. 과학기술문헌의 경우 개체명과 전문용어가 혼재되어 있는 형태로 구성된 문서가 많으므로, 기존의 연구결과를 이용하여 접근한다면 결과물 통합과정의 불편함과 처리속도에 많은 제약이 따른다. 본 연구에서는 과학기술문헌을 분석하여 개체명과 전문용어를 통합 추출할 수 있는 기반 프레임워크를 개발한다. 이를 위하여, 문장자동분리, 품사태깅, 기저구인식 등과 같은 기반 언어 분석 모듈은 물론 이를 활용한 개체명 인식기, 전문용어 인식기를 개발하고 이들을 하나의 플랫폼으로 통합한 과학기술 핵심개체 인식 체계를 제안한다.

Abstract

Large-scaled information extraction plays an important role in advanced information retrieval as well as question answering and summarization. Information extraction can be defined as a process of converting unstructured documents into formalized, tabular information, which consists of named-entity recognition, terminology extraction, coreference resolution and relation extraction. Since all the elementary technologies have been studied independently so far, it is not trivial to integrate all the necessary processes of information extraction due to the diversity of their input/output formation approaches and operating environments. As a result, it is difficult to handle scientific documents to extract both named-entities and technical terms at once. In order to extract these entities automatically from scientific documents at once, we developed a framework for scientific core entity extraction which embraces all the pivotal language processors, named-entity recognizer and terminology extractor.

2
한유경(정보통신정책연구원) ; 최원석(정보통신정책연구원) ; 이민철(카카오엔터프라이즈) 2023, Vol.40, No.2, pp.115-135 https://doi.org/10.3743/KOSIM.2023.40.2.115
초록보기
초록

본 연구는 단행본, 학술지, 보고서 등 다양한 종류의 발간물로 구성된 연구보고서의 참고문헌 데이터베이스를 효율적으로 구축하기 위한 것으로 딥러닝 언어 모델을 이용하여 참고문헌의 자동추출 성능을 비교 분석하고자 한다. 연구보고서는 학술지와는 다르게 기관마다 양식이 상이하여 참고문헌 자동추출에 어려움이 있다. 본 연구에서는 참고문헌 자동추출에 널리 사용되는 연구인 메타데이터 추출과 더불어 참고문헌과 참고문헌이 아닌 문구가 섞여 있는 환경에서 참고문헌만을 분리해내는 원문 분리 연구를 통해 이 문제를 해결하였다. 자동 추출 모델을 구축하기 위해 특정 연구기관의 연구보고서 내 참고문헌셋, 학술지 유형의 참고문헌셋, 학술지 참고문헌과 비참고문헌 문구를 병합한 데이터셋을 구성했고, 딥러닝 언어 모델인 RoBERTa+CRF와 ChatGPT를 학습시켜 메타데이터 추출과 자료유형 구분 및 원문 분리 성능을 측정하였다. 그 결과 F1-score 기준 메타데이터 추출 최대 95.41%, 자료유형 구분 및 원문 분리 최대 98.91% 성능을 달성하는 등 유의미한 결과를 얻었다. 이를 통해 비참고문헌 문구가 포함된 연구보고서의 참고문헌 추출에 대한 딥러닝 언어 모델과 데이터셋 유형별 참고문헌 구축 방향을 제안하였다.

Abstract

The purpose of this study is to assess the effectiveness of using deep learning language models to extract references automatically and create a reference database for research reports in an efficient manner. Unlike academic journals, research reports present difficulties in automatically extracting references due to variations in formatting across institutions. In this study, we addressed this issue by introducing the task of separating references from non-reference phrases, in addition to the commonly used metadata extraction task for reference extraction. The study employed datasets that included various types of references, such as those from research reports of a particular institution, academic journals, and a combination of academic journal references and non-reference texts. Two deep learning language models, namely RoBERTa+CRF and ChatGPT, were compared to evaluate their performance in automatic extraction. They were used to extract metadata, categorize data types, and separate original text. The research findings showed that the deep learning language models were highly effective, achieving maximum F1-scores of 95.41% for metadata extraction and 98.91% for categorization of data types and separation of the original text. These results provide valuable insights into the use of deep learning language models and different types of datasets for constructing reference databases for research reports including both reference and non-reference texts.

초록보기
초록

본 연구의 목적은 1) 소설 속 지명 데이터베이스(DB)를 구축하고, 2) 확장 가능한 지명 DB를 위해 자동으로 지명을 추출하여 데이터베이스를 갱신하며, 3) 데이터베이스 내의 소설지명과 용례를 검색하고 시각화하는 파일럿시스템을 구현하는 데 있다. 특히, 학습자료(training)에 해당하는 말뭉치(corpus)를 확보하기 어려운, 소설지명과 같이 현재 잘 쓰이지 않는 개체명을 자동으로 추출하는 것은 매우 어려운 문제이다. 효과적인 지명 정보 추출용 학습자료 말뭉치 확보 문제를 해결하기 위해 본 논문에서는 이미 수작업으로 구축된 웹 지식(어휘사전)을 활용하여 학습에 필요한 충분한 양의 학습말뭉치를 확보하는 방안을 적용하였다. 이렇게 확보된 학습용 코퍼스와 학습된 자동추출 모듈을 가지고, 새로운 지명 용례를 찾아 추가하는 지명 데이터베이스 확장 도구를 만들었으며, 소설지명을 지도 위에 시각화하는 시스템을 설계하였다. 또한, 시범시스템을 구현함으로써 실험적으로 그 타당성을 입증하였다. 끝으로, 현재 시스템의 보완점을 제시하였다.

Abstract

This study aimed to design a semi-automatic web-based pilot system 1) to build a Korean novel geo-name, 2) to update the database using automatic geo-name extraction for a scalable database, and 3) to retrieve/visualize the usage of an old geo-name on the map. In particular, the problem of extracting novel geo-names, which are currently obsolete, is difficult to solve because obtaining a corpus used for training dataset is burden. To build a corpus for training data, an admin tool, HTML crawler and parser in Python, crawled geo-names and usages from a vocabulary dictionary for Korean New Novel enough to train a named entity tagger for extracting even novel geo-names not shown up in a training corpus. By means of a training corpus and an automatic extraction tool, the geo-name database was made scalable. In addition, the system can visualize the geo-name on the map. The work of study also designed, implemented the prototype and empirically verified the validity of the pilot system. Lastly, items to be improved have also been addressed.

4
이용정(성균관대학교 문헌정보학과) ; 이다정(성균관대학교 문헌정보학과) ; 이창호(성균관대학교 문헌정보학과) ; 윤소현(성균관대학교 문헌정보학과) 2019, Vol.36, No.1, pp.247-267 https://doi.org/10.3743/KOSIM.2019.36.1.247
초록보기
초록

공공도서관에서 제공하는 향토정보서비스는 낮은 이용률을 나타내고 있으며, 대부분 열람 및 대출형태의 제한적인 서비스를 제공한다. 본 연구는 이러한 문제점을 해결하고 이용자의 정보 요구를 반영하는 새로운 향토정보서비스를 제안하고자, 모바일 어플리케이션 (이하 앱)인 LibPass (Library와 Pass의 합성어)를 개발하였다. LibPass는 향토자원의 특성들이 LibPass의 콘텐츠로 구성되어 이용자가 모바일 앱을 통해 지역의 문화관광자원에 대한 정보탐색을 한 곳에서 간편하게 할 수 있도록 설계되었다. 즉, 관광자원에 대한 소개는 물론이고, 그 이용을 위한 숙박시설, 체험프로그램, 그리고 특화도서관에 대한 정보를 제공함으로써, 향토자원에 대한 효율적인 정보서비스를 도모하고자 했다. 무엇보다도 이 서비스는 국립중앙도서관에서 발행하는 카드로 일원화되어 제공되므로 전국 어디서나 사용이 편리하고, 공공기관의 다양한 콘텐츠를 활용하여 신뢰성과 최신성을 확보하였다. 선행연구를 바탕으로 모바일 관광정보서비스의 품질 평가 요인들을 도출하였으며, 또한 기존의 관광정보서비스 앱을 분석하여 LibPass 앱의 개체들을 구성하고 논리적 개체 관계 모델을 기반으로 프로토타입을 개발하였다. 이 모델은 도서관의 향토정보서비스 이용률을 증가시키고, 더 나아가 이용자 친화적인 앱을 통해 도서관에 대한 긍정적인 인식을 높이는 데 기여할 수 있다.

Abstract

There has been low use of local information services that public libraries provide, and most of those services are limited only through in-house reading or checkout. Motivated by these issues, the study has developed a mobile application (app, hereafter) entitled as LibPass (a combination of Library and Pass) to propose new local information services that reflect the information needs of users. Regarding the design of LibPass, contents of LibPass are composed of the characteristics of local resources so that users can easily search for information about local culture and tour resources through mobile app. That is, it aims to provide efficient information services on local resources by providing information on accommodations, outdoor programs, and specialized libraries, as well as introducing tour resources. Above all, the services are provided with a single card issued by the National Library of Korea and is convenient to use anywhere in the country. It not only secures reliability and currency by utilizing various contents developed by public institutions, but also provides functions to facilitate specialized services for the local information of libraries. Based on the previous research, the present study derives the factors of quality evaluation of mobile tour information services; it constructs objects of LibPass application by analyzing existing applications and develops the prototype based on logical entity relationship model. This model can contribute to the increased use of local information services and, promotes the public’s positive perception of the libraries through user-friendly applications.

초록보기
초록

본고는 정보산업 분야 전체를 포괄하는 연계식별자로서 ISNI의 중요성을 인식하여 ISNI의 개념 및 전거제어에서 이의 활용가능성을 모색하고자 하였다. ISNI는 창작, 생산, 관리, 내용 배포의 흐름에서 정보매체 내용산업 전체와 관련된 개인(Party)의 대중개체(Public Identities) 식별을 위한 연계식별자로 전세계 망라적 이름 전거제어를 위해 필요하다. 우선 ISNI의 개념, 목적, 용어, 식별자구조, ISNI 할당원칙, 관리방식, 메타데이터에 대해 조사하였다. 이를 바탕으로 전거제어에서 활용가능성을 모색하였다. 첫째, 국내 협력 전거제어를 위해 ISNI의 개념을 도입하는 것을 고려해야 할 것이다. 국내에 맞는 ISNI 체제인 KISNI를 구축하여 도서관 및 정보산업 분야에서 생산되는 모든 전거데이터를 상호 활용할 수 있도록 할 수 있다. 둘째, 연계식별자인 ISNI를 이용하여 여러 식별자를 연계함으로 링크드데이터 구축이 가능하게 될 것이다. 셋째, 서지레코드 및 전거레코드에 ISNI 식별자를 기술할 수 있도록 KORMARC을 확장해야 할 것이다.

Abstract

This study was to investigate the concept of ISNI and to find its availability in authority control, realizing importance of ISNI as the bridge identifier including all the information media content industries. ISNI is needed for global and comprehensive name authority control as the bridge identifier for the identification of public identities of parties involved throughout the information media content industries in the creation, production, management and content distribution chains. First of all, it was to inquire ISNI concept, goal, terms and definitions, structure and syntax, allocation of ISNI, administration of the ISNI system, and metadata. Next, it was to suggest the applicability of ISNI in authority control. First, it should be needed to consider in applying ISNI for cooperative authority control. It is possible to interactively use the authority data created in library and other information industries area by constructing KISNI system. Second, it is possible to construct linked data by linking various identifier through ISNI identifier as bridge identifier. Third, it is needed to develop KORMARC for describing ISNI identifier in KORMARC bibliographic and authority record.

초록보기
초록

과학적 지식을 얻는 과정은 연구자의 연구를 통해 이루어진다. 연구자들은 과학의 불확실성을 다루고 과학적 지식의 확실성을 구축해나간다. 즉, 과학적 지식을 얻기 위해서 불확실성은 반드시 거쳐가야 하는 필수적인 단계로 인식되고 있다. 현존하는 불확실성의 특성을 파악하는 연구는 언어학적 접근의 hedging 연구를 통해 소개되었으며 컴퓨터 언어학에서 수작업 기반으로 불확실성 단어 코퍼스를 구축해왔다. 기존의 연구들은 불확실성 단어의 단순 출현 빈도를 기반으로 특정 학문 영역의 불확실성의 특성을 파악해오는데 그쳤다. 따라서 본 연구에서는 문장 내 생의학적 주장이 중요한 역할을 하는 생의학 문헌을 대상으로 불확실성 단어 기반 과학적 지식의 패턴을 시간의 흐름에 따라 살펴보고자 한다. 이를 위해 생의학 온톨로지인 UMLS에서 제공하는 의미적 술어를 기반으로 생의학 명제를 분석하였으며, 학문 분야의 패턴을 파악하는데 용이한 DMR 토픽 모델링을 적용하여 생의학 개체의 불확실성 기반 토픽의 동향을 종합적으로 파악하였다. 시간이 흐름에 따라 과학적 지식의 표현은 불확실성이 감소하는 패턴으로 연구의 발전이 이루어지고 있음을 확인하였다.

Abstract

The process of obtaining scientific knowledge is conducted through research. Researchers deal with the uncertainty of science and establish certainty of scientific knowledge. In other words, in order to obtain scientific knowledge, uncertainty is an essential step that must be performed. The existing studies were predominantly performed through a hedging study of linguistic approaches and constructed corpus with uncertainty word manually in computational linguistics. They have only been able to identify characteristics of uncertainty in a particular research field based on the simple frequency. Therefore, in this study, we examine pattern of scientific knowledge based on uncertainty word according to the passage of time in biomedical literature where biomedical claims in sentences play an important role. For this purpose, biomedical propositions are analyzed based on semantic predications provided by UMLS and DMR topic modeling which is useful method to identify patterns in disciplines is applied to understand the trend of entity based topic with uncertainty. As time goes by, the development of research has been confirmed that uncertainty in scientific knowledge is moving toward a decreasing pattern.

정보관리학회지