바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 주제색인, 검색결과: 2
1
김판준(신라대학교) ; 정영미(연세대학교) 2005, Vol.22, No.1, pp.191-208 https://doi.org/10.3743/KOSIM.2005.22.1.191
초록보기
초록

새로운 주제의 탐지를 위한 여러 접근법들을 지식 구조 표현 방법 중 하나인 디스크립터의 부여 및 갱신 과정에 적용하였다. 새로운 주제 탐지는, 특히 특정 학문 분야에서 새로운 주제의 출현 및 성장으로 인하여 지식 구조상의 변화가 발생하는 경우에, 기존의 색인어로는 이를 표현할 수 없거나 표현상의 제한이 따르는 문제를 해결하는 데 응용할 수 있다. 실험 결과, 정보학 내에서 긍정적 측면의 변화가 발생한 것으로 식별된 신흥 주제들은 상당수가 서로 밀접하게 연관되어 있으면서 동시에 성장발전의 단계에 있는 주제임을 확인하였다. 또한, 새로운 주제 탐지를 통한 후보 디스크립터 리스트의 사용이 색인자의 색인작업을 지원하는 효율적인 도구가 될 수 있다는 가능성을 보여 주었다. 특히, 적절한 디스크립터의 선정과 부여를 위한 후보 디스크립터 리스트의 제공은 색인작업의 효율성과 정확성을 향상시키는 데 기여할 수 있을 것이다.

Abstract

This study utilizes various approaches for new topic detection in the process of assigning and updating descriptors, which is a representation method of the knowledge structure. Particularly in the case of occurring changes on the knowledge structure due to the appearance and development of new topics in specific study areas, new topic detection can be applied to solving the impossibility or limitation of the existing index terms in representing subject concepts. This study confirms that the majority of newly developing topics in information science are closely associated with each other and are simultaneously in the phase of growth and development. Also, this study shows the possibility that the use of candidate descriptor lists generated by new topic detection methods can be an effective tool in assisting indexers. In particular, the provision of candidate descriptor lists to help assignment of appropriate descriptors will contribute to the improvement of the effectiveness and accuracy of indexing.

2
심경(Systems R&D Center, Iris.Net) ; 정영미(연세대학교) 2006, Vol.23, No.2, pp.265-285 https://doi.org/10.3743/KOSIM.2006.23.2.265
초록보기
초록

문헌범주화에서는 학습문헌집합에 부여된 주제범주의 정확성이 일정 수준을 가진다고 가정한다. 그러나, 이는 실제 문헌집단에 대한 지식이 없이 이루어진 가정이다. 본 연구는 실제 문헌집단에서 기 부여된 주제범주의 정확성의 수준을 알아보고, 학습문헌집합에 기 부여된 주제범주의 정확도와 문헌범주화 성능과의 관계를 확인하려고 시도하였다. 특히, 학습문헌집합에 부여된 주제범주의 질을 수작업 재색인을 통하여 향상시킴으로써 어느 정도까지 범주화 성능을 향상시킬 수 있는가를 파악하고자 하였다. 이를 위하여 과학기술분야의 1,150 초록 레코드 1,150건을 전문가 집단을 활용하여 재색인한 후, 15개의 중복문헌을 제거하고 907개의 학습문헌집합과 227개의 실험문헌집합으로 나누었다. 이들을 초기문헌집단, Recat-1, Recat-2의 재 색인 이전과 이후 문헌집단의 범주화 성능을 kNN 분류기를 이용하여 비교하였다. 초기문헌집단의 범주부여 평균 정확성은 16%였으며, 이 문헌집단의 범주화 성능은 F1값으로 17%였다. 반면, 주제범주의 정확성을 향상시킨 Recat-1 집단은 F1값 61%로 초기문헌집단의 성능을 3.6배나 향상시켰다.

Abstract

In text categorization a certain level of correctness of labels assigned to training documents is assumed without solid knowledge on that of real-world collections. Our research attempts to explore the quality of pre-assigned subject categories in a real-world collection, and to identify the relationship between the quality of category assignment in training set and text categorization performance. Particularly, we are interested in to what extent the performance can be improved by enhancing the quality (i.e., correctness) of category assignment in training documents. A collection of 1,150 abstracts in computer science is re-classified by an expert group, and divided into 907 training documents and 227 test documents (15 duplicates are removed). The performances of before and after re-classification groups, called Initial set and Recat-1/Recat-2 sets respectively, are compared using a kNN classifier. The average correctness of subject categories in the Initial set is 16%, and the categorization performance with the Initial set shows 17% in F1 value. On the other hand, the Recat-1 set scores F1 value of 61%, which is 3.6 times higher than that of the Initial set.

정보관리학회지