바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: classification, 검색결과: 5
1
백지원(이화여자대학교) ; 정연경(이화여자대학교) 2006, Vol.23, No.1, pp.63-81 https://doi.org/10.3743/KOSIM.2006.23.1.063
초록보기
초록

본 연구는 모든 지식조직체계의 근간인 용어관계가 동일성, 계층성, 연관성이라는 세 가지 포괄적인 기준에 의해 정의되어 사용됨으로써 정보의 정확성이 중시되는 오늘날의 정보 환경에서 제 기능을 다하지 못하고 있으므로, 그 해결 방안의 하나로 용어관계의 분류 모형을 제시하고자 하는데 목적이 있다. 이를 위해 기존의 여러 지식조직체계에 나타나는 각종 용어관계의 사례와 용어관계에 대한 이론적 연구들을 광범위하게 수집하여 다양한 용어관계의 유형을 파악하였다. 그리고 이를 바탕으로 용어관계를 명확하게 정의하고 범주화할 수 있는 용어관계 분류의 근거를 세우고 용어관계의 분류 모형을 개발하였다. 더 나아가 이 분류 모형을 정보검색을 비롯한 다양한 방면에 활용할 수 있는 방안을 모색하고 향후 용어관계 분류 연구에 대한 제언을 했다.용어관계의 분류 모형 개발에 관한 연구*

Abstract

The purpose of this study is to present the limitation of terminological relationships in the current information environment and to propose a solution to result the richer and refined terminological resources. For this, various kinds of terminological relationships in knowledge organization systems and theoretical researches were collected and analyzed. Based upon the analysis, a methodology for classification of terminological relationships was suggested and classification models were presented. Additionally, four suggestions were made for the practical uses of the classification models.

초록보기
초록

인터넷 정보검색과정에서 가장 보편적으로 사용되고 있는 검색방법은 키워드 검색이다. 키워드 검색은 정확률과 재현율의 관점에서 여러가지 단점을 지니고 있다. 이러한 키워드 검색의 단점을 보완해 줄 수 있는 장치로서 다수의 웹 포털에서 디렉토리 검색서비스를 제공하고 있다. 검색포털에서 제공하고 있는 디렉토리 서비스는 포털별로 상이한 분류체계를 사용하는 이유로 이용자에게 불편을 주고 있으며, 이러한 불편의 해소를 위해 디렉토리 서비스간 통합검색을 제공하는 중개 게이트웨이의 구축필요성이 제기되고 있다. 이에 따라 이 연구에서는 네이버, 야후, 엠파스 등 국내 주요 포털의 디렉토리 서비스를 대상으로 통합검색을 제공하는 중개 게이트웨이의 모형을 구축하고 그 성능을 평가하였다.

Abstract

The most widely used information searching method in the current internet environment is the keyword-based one, which has certain limitations in terms of precision and recall. Most major internet portals provide directory-based searching as a means to complement these limitations. However, that they adopt different classification schemes brings significant inconvenience to the users, and it consequently suggests a need to develop mapping gateway to provide cross-portal, or cross-directory information searching. In this context, this study attempts to develop a prototype system of intermediary gateway for integrated search, using the directory services of three major portals, Naver, Yahoo and Empas, and test its performance.

초록보기
초록

최근 수년 동안 영상자료와 음성자료 분석에 대한 이론들이 텍스트자료 검색 시스템과 함께 사용되기 위해서 제안 되어 왔으며 데이터 처리 속도의 급격한 향상과 함께 발전되어 왔다. 일반적 검색 방법들은 단지 텍스트만을 사용하지만 텍스트와 그림을 동시에 사용하는 검색 방법 또한 최근에 제안되어 왔다. 본 연구는 다매체자료의 공통기술표현포맷(CRFMD)이라는 이름으로 화상자료와 텍스트자료를 하나의 자료 구조로 통합하는 방법을 제안하고 있으며, 주어진 테스트자료에 대한 화상자료의 유사성 분석에서 텍스트와 그림의 형태소를 함께 사용하였을 때 현격히 개선되어 짐을 보여주고 있다. CRFMD는 의료문서 검색, WWW 검색, 박물관 소장품 검색과 같은 다양한 분야의 다매체자료 검색 및 처리에 응용될 수가 있을 것이다.

Abstract

In recent years, theories of image and sound analysis have been proposed to work with text retrieval systems and have progressed quickly with the rapid progress in data processing speeds. This study proposes a common representation format for multimedia documents (CRFMD) composed of both images and text to form a single data structure. It also shows that image classification of a given test set is dramatically improved when text features are encoded together with image features. CRFMD might be applicable to other areas of multimedia document retrieval and processing, such as medical image retrieval, World Wide Web searching, and museum collection retrieval.

4
김용광(연세대학교) ; 정영미(연세대학교) 2006, Vol.23, No.1, pp.83-98 https://doi.org/10.3743/KOSIM.2006.23.1.083
초록보기
초록

이 연구에서는 복수의 신문기사를 자동으로 요약하기 위해 문장의 의미범주를 활용한 템플리트 기반 요약 기법을 제시하였다. 먼저 학습과정에서 사건/사고 관련 신문기사의 요약문에 포함할 핵심 정보의 의미범주를 식별한 다음 템플리트를 구성하는 각 슬롯의 단서어를 선정한다. 자동요약 과정에서는 입력되는 복수의 뉴스기사들을 사건/사고 별로 범주화한 후 각 기사로부터 주요 문장을 추출하여 템플리트의 각 슬롯을 채운다. 마지막으로 문장을 단문으로 분리하여 템플리트의 내용을 수정한 후 이로부터 요약문을 작성한다. 자동 생성된 요약문을 평가한 결과 요약 정확률과 요약 재현율은 각각 0.541과 0.581로 나타났고, 요약문장 중복률은 0.116으로 나타났다.

Abstract

This study proposes a template-based method of automatic summarization of multiple news articles using the semantic categories of sentences. First, the semantic categories for core information to be included in a summary are identified from training set of documents and their summaries. Then, cue words for each slot of the template are selected for later classification of news sentences into relevant slots. When a news article is input, its event/accident category is identified, and key sentences are extracted from the news article and filled in the relevant slots. The template filled with simple sentences rather than original long sentences is used to generate a summary for an event/accident. In the user evaluation of the generated summaries, the results showed the 54.1% recall ratio and the 58.1% precision ratio in essential information extraction and 11.6% redundancy ratio.

5
심경(Systems R&D Center, Iris.Net) ; 정영미(연세대학교) 2006, Vol.23, No.2, pp.265-285 https://doi.org/10.3743/KOSIM.2006.23.2.265
초록보기
초록

문헌범주화에서는 학습문헌집합에 부여된 주제범주의 정확성이 일정 수준을 가진다고 가정한다. 그러나, 이는 실제 문헌집단에 대한 지식이 없이 이루어진 가정이다. 본 연구는 실제 문헌집단에서 기 부여된 주제범주의 정확성의 수준을 알아보고, 학습문헌집합에 기 부여된 주제범주의 정확도와 문헌범주화 성능과의 관계를 확인하려고 시도하였다. 특히, 학습문헌집합에 부여된 주제범주의 질을 수작업 재색인을 통하여 향상시킴으로써 어느 정도까지 범주화 성능을 향상시킬 수 있는가를 파악하고자 하였다. 이를 위하여 과학기술분야의 1,150 초록 레코드 1,150건을 전문가 집단을 활용하여 재색인한 후, 15개의 중복문헌을 제거하고 907개의 학습문헌집합과 227개의 실험문헌집합으로 나누었다. 이들을 초기문헌집단, Recat-1, Recat-2의 재 색인 이전과 이후 문헌집단의 범주화 성능을 kNN 분류기를 이용하여 비교하였다. 초기문헌집단의 범주부여 평균 정확성은 16%였으며, 이 문헌집단의 범주화 성능은 F1값으로 17%였다. 반면, 주제범주의 정확성을 향상시킨 Recat-1 집단은 F1값 61%로 초기문헌집단의 성능을 3.6배나 향상시켰다.

Abstract

In text categorization a certain level of correctness of labels assigned to training documents is assumed without solid knowledge on that of real-world collections. Our research attempts to explore the quality of pre-assigned subject categories in a real-world collection, and to identify the relationship between the quality of category assignment in training set and text categorization performance. Particularly, we are interested in to what extent the performance can be improved by enhancing the quality (i.e., correctness) of category assignment in training documents. A collection of 1,150 abstracts in computer science is re-classified by an expert group, and divided into 907 training documents and 227 test documents (15 duplicates are removed). The performances of before and after re-classification groups, called Initial set and Recat-1/Recat-2 sets respectively, are compared using a kNN classifier. The average correctness of subject categories in the Initial set is 16%, and the categorization performance with the Initial set shows 17% in F1 value. On the other hand, the Recat-1 set scores F1 value of 61%, which is 3.6 times higher than that of the Initial set.

정보관리학회지