바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: Information Extraction, 검색결과: 2
초록보기
초록

이 연구는 한국학의 주류를 이루는 연구영역들의 기원과 발전경로를 파악하기 위하여 텍스트 마이닝과 주경로 분석(main path analysis, MPA) 기법을 수행하였다. 이를 위하여 전통적인 인문학 연구방법론이 아닌 디지털 텍스트를 기반으로 한 정량적 분석을 시도하였고 인용 데이터베이스를 활용하여 인용정보가 포함된 한국학 관련 문헌들을 수집하고 직접 인용 네트워크를 구축하여 한국학 분야 주경로를 추출하였다. 주경로 추출 결과, 한국학 인문분야에서는 키루트(key-route) 주경로 탐색에서 두 개의 주경로 군집(①한국 고대 농경문화(역사․문화․고고학), ②한국인의 영어습득(언어학))이 발견되었고, 한국학 인문․사회분야에서는 키루트 주경로 탐색에서 네 개의 주경로 군집(①한국 지역(공간)개발․조경, ②한국 경제발전(경제원조․소프트파워), ③한국의 산업(정치경제학), ④한국의 인구구성(남아선호)․북한경제(빈곤․중국협력))이 발견되었다. 이 연구의 결과가 한국학의 정체성을 파악하는데 기존의 지엽적 분석에서 벗어나 한국학이라는 학문에서 논의되고 있는 주 영역의 발전과 진화를 거시적으로 분석․제시함으로써 한국학이 가지는 포괄성과 모호성을 다소 해소하고 한국학 외연을 가시적으로 조망하는데 기여할 수 있으리라 기대한다.

Abstract

In this study, text mining and main path analysis (MPA) were applied to understand the origins and development paths of research areas that make up the mainstream of Korean studies. To this end, a quantitative analysis was attempted based on digital texts rather than the traditional humanities research methodology, and the main paths of Korean studies were extracted by collecting documents related to Korean studies including citation information using a citation database, and establishing a direct citation network. As a result of the main path analysis, two main path clusters (Korean ancient agricultural culture (history, culture, archeology) and Korean acquisition of English (linguistics)) were found in the key-route search for the Humanities field of Korean studies. In the field of Korean Studies Humanities and Social Sciences, four main path clusters were discovered: (1) Korea regional/spatial development, (2) Korean economic development (Economic aid/Soft power), (3) Korean industry (Political economics), and (4) population of Korea (Sex selection) & North Korean economy (Poverty, South-South cooperation).

초록보기
초록

연구전선이란 연구논문들 간에 인용이 빈번하게 발생하며, 지속적으로 발전이 이루어지고 있는 연구영역을 의미한다. 연구행위가 집중되는 핵심 연구분야로 발전 가능성이 높은 연구전선을 조기에 예측해내는 것은 학계와 산업계, 정부기관, 나아가 국가의 과학기술 발전에 큰 유익을 가져다 줄 수 있는 유용한 사회적 자원이 된다. 본 연구는 복합자질을 활용하여 연구전선을 추론하는 모델을 제시하고자 시도하였다. 연구전선 추론은 핵심 연구영역으로 발전할 가능성이 높은 문헌들이 포함될 수 있도록 문헌을 복합자질로 표현하고, 그 자질들을 심층학습하여 새로 발행된 문헌들이 연구전선에 포함될 수 있는지 그 가능성을 예측하였다. 서지 자질, 네트워크 자질, 내용 자질 등 복합자질 세트를 사용하여 문헌을 표현하고 피인용을 많이 받을 가능성이 있는 문헌을 추론하기 위해서 확률기반 팩터그래프 모델을 적용하였다. 추출된 자질들은 팩터그래프의 변수로 표현되어 합-곱 알고리즘과 접합 트리 알고리즘을 적용하여 연구전선 추론이 이루어졌다. 팩터그래프 확률모델을 적용하여 연구전선을 추론․구축한 결과, 서지결합도 4 이상으로 구축된 베이스라인 연구전선과 큰 차이를 보였다. 팩터그래프 기반 연구전선그룹이 서지결합 기반 연구전선그룹보다 문헌 간의 직접 연결정도가 강하며 연결 관계에 있지 않은 두 개의 문헌을 연결시키는 매개정도 또한 강한 집단으로 나타났다.

Abstract

This study attempts to infer research fronts using factor graph model based on heterogeneous features. The model suggested by this study infers research fronts having documents with the potential to be cited multiple times in the future. To this end, the documents are represented by bibliographic, network, and content features. Bibliographic features contain bibliographic information such as the number of authors, the number of institutions to which the authors belong, proceedings, the number of keywords the authors provide, funds, the number of references, the number of pages, and the journal impact factor. Network features include degree centrality, betweenness, and closeness among the document network. Content features include keywords from the title and abstract using keyphrase extraction techniques. The model learns these features of a publication and infers whether the document would be an RF using sum-product algorithm and junction tree algorithm on a factor graph. We experimentally demonstrate that when predicting RFs, the FG predicted more densely connected documents than those predicted by RFs constructed using a traditional bibliometric approach. Our results also indicate that FG-predicted documents exhibit stronger degrees of centrality and betweenness among RFs.

정보관리학회지