바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 단어 의미 정보, 검색결과: 5
1
윤성희(상명대학교) ; 백선욱(상명대학교) 2004, Vol.21, No.4, pp.251-263 https://doi.org/10.3743/KOSIM.2004.21.4.251
초록보기
초록

질의응답 시스템에서의 질의 분석 과정은 이용자의 자연어 질의 문장에서 질의 의도를 파악하여 그 유형을 분류하고 정답 추출을 위한 정보를 구하는 것이다. 본 연구에서는 복잡한 분류 규칙 집합이나 대용량의 언어 지식 자원 대신 이용자 질의 문장에서 질의 초점 어휘를 추출하고 구문 구조적으로 관련된 단어들의 의미 정보에 기반하여 효율적으로 질의 유형을 분류하는 방법을 제안한다. 질의 초점 어휘가 생략된 경우의 처리와 동의어와 접미사 정보를 이용하여 질의 유형 분류 성능을 향상시킬 수 있는 방법도 제안한다.

Abstract

For question-answering system, question analysis module finds the question points from user’s natural language questions, classifies the question types, and extracts some useful information for answer. This paper proposes a question type classifying technique based on focus words extracted from questions and word semantic information, instead of complicated rules or huge knowledge resources. It also shows how to find the question type without focus words, and how useful the synonym or postfix information to enhance the performance of classifying module.

2
이용구(계명대학교) ; 정영미(연세대학교) 2007, Vol.24, No.1, pp.321-342 https://doi.org/10.3743/KOSIM.2007.24.1.321
초록보기
초록

이 연구에서는 수작업 태깅없이 기계가독형 사전을 이용하여 자동으로 의미를 태깅한 후 학습데이터로 구축한 분류기에 대해 의미를 분류하는 단어 중의성 해소 모형을 제시하였다. 자동 태깅을 위해 사전 추출 정보 기반 방법과 연어 공기 기반 방법을 적용하였다. 실험 결과, 자동 태깅에서는 복수 자질 축소를 적용한 사전 추출 정보 기반 방법이 70.06%의 태깅 정확도를 보여 연어 공기 기반 방법의 56.33% 보다 24.37% 향상된 성능을 가져왔다. 사전 추출 정보 기반 방법을 이용한 분류기의 분류 정학도는 68.11%로서 연어 공기 기반 방법의 62.09% 보다 9.7% 향상된 성능을 보였다. 또한 두 자동 태깅 방법을 결합한 결과 태깅 정확도는 76.09%, 분류 정확도는 76.16%로 나타났다.

Abstract

This study presents an effective word sense disambiguation model that does not require manual sense tagging process by automatically tagging the right sense using a machine-readable dictionary, and attempts to classify the senses of those words using a classifier built from the training data. The automatic tagging technique was implemnted by the dictionary information-based and the collocation co-occurrence-based methods. The dictionary information-based method that applied multiple feature selection showed the tagging accuracy of 70.06%, and the collocation co-occurrence-based method 56.33%. The sense classifier using the dictionary information-based tagging method showed the classification accuracy of 68.11%, and that using the collocation co-occurrence-based tagging method 62.09%. The combined tagging method applying data fusion technique achieved a greater performance of 76.09% resulting in the classification accuracy of 76.16%.

3
허고은(연세대학교) ; 송민(연세대학교) 2019, Vol.36, No.2, pp.175-199 https://doi.org/10.3743/KOSIM.2019.36.2.175
초록보기
초록

불확실성이란 정보의 합의나 현존하는 지식 부족으로 인해 명제의 지식이 불완전한 상태를 의미한다. 과학적 지식의 불확실성을 연구하는 학술문헌의 양은 시간이 흐름에 따라 기하급수적으로 증가하고 있으며, 이에 따라 새로운 지식이 발견되고 연구가 발전하고 있다. 이처럼 시간의 흐름은 지식의 불확실성의 패턴을 발견하는데 중요한 요인이 될 수 있음에도 불구하고 기존의 연구들은 불확실성 단어의 단순 출현 빈도를 기반으로 특정 학문 영역에서 불확실성의 특성을 파악해왔다. 따라서, 본 연구에서는 구축한 불확실성 단어를 생의학 영역의 불확실성 연구에 적용하여 시간의 흐름에 따른 불확실성의 변화와 패턴을 파악하고자 한다. 시간의 흐름에 따른 생의학 지식의 패턴을 분석하기 위해 대표 개체 페어, 동사 유형, 대표 개체의 패턴을 살펴보았으며 선형 회귀 분석을 통해 유의성 검증을 수행했다. 개체 페어 분석에서는 17건 중 7건의 개체 페어가 유의하게 감소하는 패턴을 보였다. 10개의 대표적인 동사 유형은 모두 시간이 흐름에 따라 유의하게 감소했다. 대표 개체의 연도별 상대적 중요도 분석에서는 유의하게 상승과 하강 패턴을 보이는 개체들의 불확실성 증감을 분석했다.

Abstract

Uncertainty means incomplete stages of knowledge of propositions due to the lack of consensus of information and existing knowledge. As the amount of academic literature increases exponentially over time, new knowledge is discovered as research develops. Although the flow of time may be an important factor to identify patterns of uncertainty in scientific knowledge, existing studies have only identified the nature of uncertainty based on the frequency in a particular discipline, and they did not take into consideration of the flow of time. Therefore, in this study, we identify and analyze the uncertainty words that indicate uncertainty in the scientific literature and investigate the stream of knowledge. We examine the pattern of biomedical knowledge such as representative entity pairs, predicate types, and entities over time. We also perform the significance testing using linear regression analysis. Seven pairs out of 17 entity pairs show the significant decrease pattern statistically and all 10 representative predicates decrease significantly over time. We analyze the relative importance of representative entities by year and identify entities that display a significant rising and falling pattern.

초록보기
초록

웹의 보도기사에 관한 자동요약시스템을 구축하기 위하여 담화구조와 지식기반 기법을 적용한 글구조 프레임과 제 규칙들을 작성하였다. 프레임에는 문단과 문장 및 절의 역할, 문단과 문장의 성질, 역할을 구분하는 판별규칙, 주요문장 발췌규칙, 그리고 요약문작성규칙 슬롯이 포함되었다. 문맥정의, 고유명사 등을 안내하는 ‘if-needed'와 변화된 슬롯 값을 알려주는 if-changed 패싯도 구비되었다. 슬롯이나 패싯의 실제 값들을 추출 표현하는 과정에서 문구의 수사적 역할과 단어 최상위 범주 및 줄거리 단위를 참조하였다. 의미흐름의 연결성을 유지하면서 요약 문장들을 통합, 분리, 합성하는 재구성은 유사도공식, 구문정보, 담화구조와 지식기반 방법에서 도출한 제 규칙 및 문맥정의를 이용하였고 비평과 같은 새로운 문장을 생성하였다.

Abstract

The writings frame and various rules based on discourse structure and knowledge-based methods were applied to construct the automatic Ext/Sums (extracts & summaries) system from the straight news in web. The frame contains the slot and facet represented by the role of paragraphs, sentences, and clauses in news and the rules determining the type of slot. Rearrangement like Unification, separation, and synthesis of the candidate sentences to summary, maintaining the coherence of meanings, were also used the rules derived from similar degree measurement, syntactic information, discourse structure, and knowledge-based methods and the context plots defined with the syntactic/semantic signature of noun and verb and category of verb suffix. The critic sentence were tried to insert into summary

초록보기
초록

최근 문화콘텐츠 관련 기관들은 분산 네트워크를 통해 이용자에게 문화콘텐츠의 접근을 점차 확대시키고 있다. 그러나 문화콘텐츠의 특성상 일반 콘텐츠와 달라서 많은 문화콘텐츠 객체는 정보의 조직과 검색에 사용할 수 있는 단어를 거의 포함하고 있지 못하다. 이러한 문화콘텐츠 시스템이 서비스 될 경우, 효율적으로 자원을 식별하고 검색할 수 없게 될 뿐 아니라 다양한 문화콘텐츠 메타데이터 요소간의 명칭, 표현, 의미가 상이하여 시스템간 연동이나 정보공유가 어렵게 된다. 이러한 문제를 해결하기 위해 문화콘텐츠의 속성에 적합한 표준화된 메타데이터의 조직과 관리가 필요하다. 본 연구는 문화콘텐츠 분야에서 다야하게 접근되고 있는 메타데이터 포맷인 Dublin Core, EAD, VRA, CDWA, CIMI. Object ID를 중심으로 각 포맷의 데이터 요소를 비교 분석함으로써 상이한 메타데이터 포맷의 상호운용성 확보를 통하여 문화콘텐츠 통합을 위한 기초 자료를 제공하고자 하였다.

Abstract

Recently, the organizations related to cultural contens are gradually expanding access to cultural contents for general public through the distributed network. However, since cultural contents have different characteristics than general contents, the objects of cultural contents seldom contain the words generally used for organization and seach of information. If the cultural contents system is created without any consideration of such differences, we cannot effectively identify and search resources. Moreover, because the names, expressions and meanings are different between matadata elements of various cultural contents, it is very difficult to interconnect or share information between different systems. In order to solve these problems, proper organization and management of metadata is vital. In this study, we have comparatively analyzed the data elements of each format based on Dublin Core, EAD, VRA, CDWA, CIMI, and Object ID, the metadata formats approached from various aspects in the cultural contents area. Through this study, we tried to provide the basic materials for integration of cultural contents by securing interoperability of different meta formats.

정보관리학회지