바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 의미기반, 검색결과: 3
초록보기
초록

정보통신기술의 발달로 학술 정보의 양이 기하급수적으로 증가하였고 방대한 양의 텍스트 데이터를 처리하기 위한 자동화된 텍스트 처리의 필요성이 대두되었다. 생의학 문헌에서 생물학적 의미와 치료 효과 등에 대한 정보를 발견해내는 바이오 텍스트 마이닝은 문헌 내의 각 개념들 간의 유의미한 연관성을 발견하여 의학 영역에서 상당한 시간과 비용을 줄여준다. 문헌 기반 발견 연구로 새로운 생의학적 가설들이 발견되었지만 기존의 연구들은 반자동화된 기법으로 전문가의 개입이 필수적이며 원인과 결과의 한가지의 관계만을 밝히는 제한점이 있다. 따라서 본 연구에서는 중간 개념인 B를 다수준으로 확장하여 다양한 관계성을 동시출현 개체와 동사 추출을 통해 확인한다. 그래프 기반의 경로 추론을 통해 각 노드 사이의 관계성을 체계적으로 분석하여 규명할 수 있었으며 새로운 방법론적 시도를 통해 기존에 밝혀지지 않았던 새로운 가설 제시의 가능성을 기대할 수 있다.

Abstract

Due to the recent development of Information and Communication Technologies (ICT), the amount of research publications has increased exponentially. In response to this rapid growth, the demand of automated text processing methods has risen to deal with massive amount of text data. Biomedical text mining discovering hidden biological meanings and treatments from biomedical literatures becomes a pivotal methodology and it helps medical disciplines reduce the time and cost. Many researchers have conducted literature-based discovery studies to generate new hypotheses. However, existing approaches either require intensive manual process of during the procedures or a semi-automatic procedure to find and select biomedical entities. In addition, they had limitations of showing one dimension that is, the cause-and-effect relationship between two concepts. Thus, this study proposed a novel approach to discover various relationships among source and target concepts and their intermediate concepts by expanding intermediate concepts to multi-levels. This study provided distinct perspectives for literature-based discovery by not only discovering the meaningful relationship among concepts in biomedical literature through graph-based path interference but also being able to generate feasible new hypotheses.

초록보기
초록

연구전선이란 연구논문들 간에 인용이 빈번하게 발생하며, 지속적으로 발전이 이루어지고 있는 연구영역을 의미한다. 연구행위가 집중되는 핵심 연구분야로 발전 가능성이 높은 연구전선을 조기에 예측해내는 것은 학계와 산업계, 정부기관, 나아가 국가의 과학기술 발전에 큰 유익을 가져다 줄 수 있는 유용한 사회적 자원이 된다. 본 연구는 복합자질을 활용하여 연구전선을 추론하는 모델을 제시하고자 시도하였다. 연구전선 추론은 핵심 연구영역으로 발전할 가능성이 높은 문헌들이 포함될 수 있도록 문헌을 복합자질로 표현하고, 그 자질들을 심층학습하여 새로 발행된 문헌들이 연구전선에 포함될 수 있는지 그 가능성을 예측하였다. 서지 자질, 네트워크 자질, 내용 자질 등 복합자질 세트를 사용하여 문헌을 표현하고 피인용을 많이 받을 가능성이 있는 문헌을 추론하기 위해서 확률기반 팩터그래프 모델을 적용하였다. 추출된 자질들은 팩터그래프의 변수로 표현되어 합-곱 알고리즘과 접합 트리 알고리즘을 적용하여 연구전선 추론이 이루어졌다. 팩터그래프 확률모델을 적용하여 연구전선을 추론․구축한 결과, 서지결합도 4 이상으로 구축된 베이스라인 연구전선과 큰 차이를 보였다. 팩터그래프 기반 연구전선그룹이 서지결합 기반 연구전선그룹보다 문헌 간의 직접 연결정도가 강하며 연결 관계에 있지 않은 두 개의 문헌을 연결시키는 매개정도 또한 강한 집단으로 나타났다.

Abstract

This study attempts to infer research fronts using factor graph model based on heterogeneous features. The model suggested by this study infers research fronts having documents with the potential to be cited multiple times in the future. To this end, the documents are represented by bibliographic, network, and content features. Bibliographic features contain bibliographic information such as the number of authors, the number of institutions to which the authors belong, proceedings, the number of keywords the authors provide, funds, the number of references, the number of pages, and the journal impact factor. Network features include degree centrality, betweenness, and closeness among the document network. Content features include keywords from the title and abstract using keyphrase extraction techniques. The model learns these features of a publication and infers whether the document would be an RF using sum-product algorithm and junction tree algorithm on a factor graph. We experimentally demonstrate that when predicting RFs, the FG predicted more densely connected documents than those predicted by RFs constructed using a traditional bibliometric approach. Our results also indicate that FG-predicted documents exhibit stronger degrees of centrality and betweenness among RFs.

3
허고은(연세대학교) ; 송민(연세대학교) 2019, Vol.36, No.2, pp.175-199 https://doi.org/10.3743/KOSIM.2019.36.2.175
초록보기
초록

불확실성이란 정보의 합의나 현존하는 지식 부족으로 인해 명제의 지식이 불완전한 상태를 의미한다. 과학적 지식의 불확실성을 연구하는 학술문헌의 양은 시간이 흐름에 따라 기하급수적으로 증가하고 있으며, 이에 따라 새로운 지식이 발견되고 연구가 발전하고 있다. 이처럼 시간의 흐름은 지식의 불확실성의 패턴을 발견하는데 중요한 요인이 될 수 있음에도 불구하고 기존의 연구들은 불확실성 단어의 단순 출현 빈도를 기반으로 특정 학문 영역에서 불확실성의 특성을 파악해왔다. 따라서, 본 연구에서는 구축한 불확실성 단어를 생의학 영역의 불확실성 연구에 적용하여 시간의 흐름에 따른 불확실성의 변화와 패턴을 파악하고자 한다. 시간의 흐름에 따른 생의학 지식의 패턴을 분석하기 위해 대표 개체 페어, 동사 유형, 대표 개체의 패턴을 살펴보았으며 선형 회귀 분석을 통해 유의성 검증을 수행했다. 개체 페어 분석에서는 17건 중 7건의 개체 페어가 유의하게 감소하는 패턴을 보였다. 10개의 대표적인 동사 유형은 모두 시간이 흐름에 따라 유의하게 감소했다. 대표 개체의 연도별 상대적 중요도 분석에서는 유의하게 상승과 하강 패턴을 보이는 개체들의 불확실성 증감을 분석했다.

Abstract

Uncertainty means incomplete stages of knowledge of propositions due to the lack of consensus of information and existing knowledge. As the amount of academic literature increases exponentially over time, new knowledge is discovered as research develops. Although the flow of time may be an important factor to identify patterns of uncertainty in scientific knowledge, existing studies have only identified the nature of uncertainty based on the frequency in a particular discipline, and they did not take into consideration of the flow of time. Therefore, in this study, we identify and analyze the uncertainty words that indicate uncertainty in the scientific literature and investigate the stream of knowledge. We examine the pattern of biomedical knowledge such as representative entity pairs, predicate types, and entities over time. We also perform the significance testing using linear regression analysis. Seven pairs out of 17 entity pairs show the significant decrease pattern statistically and all 10 representative predicates decrease significantly over time. We analyze the relative importance of representative entities by year and identify entities that display a significant rising and falling pattern.

정보관리학회지