바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: research help, 검색결과: 2
초록보기
초록

정보통신기술의 발달로 학술 정보의 양이 기하급수적으로 증가하였고 방대한 양의 텍스트 데이터를 처리하기 위한 자동화된 텍스트 처리의 필요성이 대두되었다. 생의학 문헌에서 생물학적 의미와 치료 효과 등에 대한 정보를 발견해내는 바이오 텍스트 마이닝은 문헌 내의 각 개념들 간의 유의미한 연관성을 발견하여 의학 영역에서 상당한 시간과 비용을 줄여준다. 문헌 기반 발견 연구로 새로운 생의학적 가설들이 발견되었지만 기존의 연구들은 반자동화된 기법으로 전문가의 개입이 필수적이며 원인과 결과의 한가지의 관계만을 밝히는 제한점이 있다. 따라서 본 연구에서는 중간 개념인 B를 다수준으로 확장하여 다양한 관계성을 동시출현 개체와 동사 추출을 통해 확인한다. 그래프 기반의 경로 추론을 통해 각 노드 사이의 관계성을 체계적으로 분석하여 규명할 수 있었으며 새로운 방법론적 시도를 통해 기존에 밝혀지지 않았던 새로운 가설 제시의 가능성을 기대할 수 있다.

Abstract

Due to the recent development of Information and Communication Technologies (ICT), the amount of research publications has increased exponentially. In response to this rapid growth, the demand of automated text processing methods has risen to deal with massive amount of text data. Biomedical text mining discovering hidden biological meanings and treatments from biomedical literatures becomes a pivotal methodology and it helps medical disciplines reduce the time and cost. Many researchers have conducted literature-based discovery studies to generate new hypotheses. However, existing approaches either require intensive manual process of during the procedures or a semi-automatic procedure to find and select biomedical entities. In addition, they had limitations of showing one dimension that is, the cause-and-effect relationship between two concepts. Thus, this study proposed a novel approach to discover various relationships among source and target concepts and their intermediate concepts by expanding intermediate concepts to multi-levels. This study provided distinct perspectives for literature-based discovery by not only discovering the meaningful relationship among concepts in biomedical literature through graph-based path interference but also being able to generate feasible new hypotheses.

2
이수빈(연세대학교 문헌정보학과) ; 김성덕(연세대학교 문헌정보학과) ; 이주희(연세대학교 문헌정보학과) ; 고영수(연세대학교 문헌정보학과) ; 송민(연세대학교) 2021, Vol.38, No.2, pp.153-172 https://doi.org/10.3743/KOSIM.2021.38.2.153
초록보기
초록

본 연구는 공황장애 말뭉치 구축과 분석을 통해 공황장애의 특성을 살펴보고 공황장애 경향 문헌을 분류할 수 있는 딥러닝 자동 분류 모델을 만들고자 하였다. 이를 위해 소셜미디어에서 수집한 공황장애 관련 문헌 5,884개를 정신 질환 진단 매뉴얼 기준으로 직접 주석 처리하여 공황장애 경향 문헌과 비 경향 문헌으로 분류하였다. 이 중 공황장애 경향 문헌에 나타난 어휘적 특성 및 어휘의 관계성을 분석하기 위해 TF-IDF값을 산출하고 단어 동시출현 분석을 실시하였다. 공황장애의 특성 및 증상 간의 관련성을 분석하기 위해 증상 빈도수와 주석 처리된 증상 번호 간의 동시출현 빈도수를 산출하였다. 또한, 구축한 말뭉치를 활용하여 딥러닝 자동 분류 모델 학습 및 성능 평가를 하였다. 이를 위하여 최신 딥러닝 언어 모델 BERT 중 세 가지 모델을 활용하였고 이 중 KcBERT가 가장 우수한 성능을 보였다. 본 연구는 공황장애 관련 증상을 겪는 사람들의 조기 진단 및 치료를 돕고 소셜미디어 말뭉치를 활용한 정신 질환 연구의 영역을 확장하고자 시도한 점에서 의의가 있다.

Abstract

This study is to create a deep learning based classification model to examine the characteristics of panic disorder and to classify the panic disorder tendency literature by the panic disorder corpus constructed for the present study. For this purpose, 5,884 documents of the panic disorder corpus collected from social media were directly annotated based on the mental disease diagnosis manual and were classified into panic disorder-prone and non-panic-disorder documents. Then, TF-IDF scores were calculated and word co-occurrence analysis was performed to analyze the lexical characteristics of the corpus. In addition, the co-occurrence between the symptom frequency measurement and the annotated symptom was calculated to analyze the characteristics of panic disorder symptoms and the relationship between symptoms. We also conducted the performance evaluation for a deep learning based classification model. Three pre-trained models, BERT multi-lingual, KoBERT, and KcBERT, were adopted for classification model, and KcBERT showed the best performance among them. This study demonstrated that it can help early diagnosis and treatment of people suffering from related symptoms by examining the characteristics of panic disorder and expand the field of mental illness research to social media.

정보관리학회지