바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: corpus, 검색결과: 2
1
정유경(연세대학교 근대한국학연구소 HK연구교수) ; 반재유(연세대학교 근대한국학연구소 HK연구교수) 2019, Vol.36, No.4, pp.7-19 https://doi.org/10.3743/KOSIM.2019.36.4.007
초록보기
초록

본 연구는 국한문 혼용 텍스트를 대상으로 한글 형태소 분석 기법과 한문 어조사를 반영한 색인어 추출기법을 제안하였다. 국한문 혼용체로 작성된 시사총보 논설을 대상으로 해당 시기에 사용된 고유명사 및 한자어 사전을 보완하였으며 한자어 불용어 리스트를 고려하여 색인어를 추출하였다. 본 연구에서 제안한 국한문 색인 시스템은 수작업 색인 결과를 기준으로, 중국어형태소 분석기에 비해 재현율과 정확률 측면에서 상대적으로 높은 성능을 보였으며, 어문법이 확립되지 않은 근현대 시기의 국한문 혼용체를 대상으로 한 첫 번째 색인어 추출기법을 제안하였다는 데에서 연구의 차별점이 있다.

Abstract

The aim of this study is to develop a technique for keyword extraction in Korean-Chinese text in the modern period. We considered a Korean morphological analyzer and a particle in classical Chinese as a possible method for this study. We applied our method to the journal “Sisachongbo,” employing proper-noun dictionaries and a list of stop words to extract index terms. The results show that our system achieved better performance than a Chinese morphological analyzer in terms of recall and precision. This study is the first research to develop an automatic indexing system in the traditional Korean-Chinese mixed text.

초록보기
초록

과학적 지식을 얻는 과정은 연구자의 연구를 통해 이루어진다. 연구자들은 과학의 불확실성을 다루고 과학적 지식의 확실성을 구축해나간다. 즉, 과학적 지식을 얻기 위해서 불확실성은 반드시 거쳐가야 하는 필수적인 단계로 인식되고 있다. 현존하는 불확실성의 특성을 파악하는 연구는 언어학적 접근의 hedging 연구를 통해 소개되었으며 컴퓨터 언어학에서 수작업 기반으로 불확실성 단어 코퍼스를 구축해왔다. 기존의 연구들은 불확실성 단어의 단순 출현 빈도를 기반으로 특정 학문 영역의 불확실성의 특성을 파악해오는데 그쳤다. 따라서 본 연구에서는 문장 내 생의학적 주장이 중요한 역할을 하는 생의학 문헌을 대상으로 불확실성 단어 기반 과학적 지식의 패턴을 시간의 흐름에 따라 살펴보고자 한다. 이를 위해 생의학 온톨로지인 UMLS에서 제공하는 의미적 술어를 기반으로 생의학 명제를 분석하였으며, 학문 분야의 패턴을 파악하는데 용이한 DMR 토픽 모델링을 적용하여 생의학 개체의 불확실성 기반 토픽의 동향을 종합적으로 파악하였다. 시간이 흐름에 따라 과학적 지식의 표현은 불확실성이 감소하는 패턴으로 연구의 발전이 이루어지고 있음을 확인하였다.

Abstract

The process of obtaining scientific knowledge is conducted through research. Researchers deal with the uncertainty of science and establish certainty of scientific knowledge. In other words, in order to obtain scientific knowledge, uncertainty is an essential step that must be performed. The existing studies were predominantly performed through a hedging study of linguistic approaches and constructed corpus with uncertainty word manually in computational linguistics. They have only been able to identify characteristics of uncertainty in a particular research field based on the simple frequency. Therefore, in this study, we examine pattern of scientific knowledge based on uncertainty word according to the passage of time in biomedical literature where biomedical claims in sentences play an important role. For this purpose, biomedical propositions are analyzed based on semantic predications provided by UMLS and DMR topic modeling which is useful method to identify patterns in disciplines is applied to understand the trend of entity based topic with uncertainty. As time goes by, the development of research has been confirmed that uncertainty in scientific knowledge is moving toward a decreasing pattern.

정보관리학회지