바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: corpus, 검색결과: 2
1
안재욱(University of Pittsburgh) ; Peter Brusilovsky(University of Pittsburgh) ; Rosta Farzan(University of Pittsburgh) 2006, Vol.23, No.2, pp.147-165 https://doi.org/10.3743/KOSIM.2006.23.2.147
초록보기
초록

웹기반 교육 자료들이 폭발적으로 증가함에 따라 적합한 자료들에 보다 효과적으로 접근할 수 있는 방법이 요구되고 있다. 이러한 새로운 방법들 중의 하나로 사회적 네비게이션(social navigation) 기반의 사회적 검색(social searching)이 정보 검색 분야에서 제시되었는데, 이는 동료 이용자들로부터 제공된 정보를 바탕으로 검색 결과의 향상을 추구하는 기법이다. 본 연구에서는 개인화와 사회적 네비게이션에 근거한 웹 기반 사회적 검색 시스템을 구축하였으며 이용자 연구를 통해 이용자에게 적합하고 필수적인 정보를 제공할 수 있는 방법이라는 것을 검증하려 하였다.

Abstract

The explosive growth of Web-based educational resources requires a new approach for accessing relevant information effectively. Social searching in the context of social navigation is one of several answers to this problem, in the domain of information retrieval. It provides users with not merely a traditional ranked list, but also with visual hints which can guide users to information provided by their colleagues. A personalized and context-dependent social searching system has been implemented on a platform called KnowledgeSea II, an open-corpus Web-based educational support system with multiple access methods. Validity tests were run on a variety of aspects and results have shown that this is an effective way to help users access relevant, essential information.

초록보기
초록

본 연구는 실재 시스템 환경에서 문헌 분류를 위해 범주화 기법을 적용할 경우, 범주화 성능이 어느 정도이며, 적정한 문헌범주화 성능의 달성을 위하여 분류기 학습에 필요한 범주당 가장 이상적인 학습문헌집합의 규모는 무엇인가를 파악하기 위하여 kNN 분류기를 사용하여 실험하였다. 실험문헌집단으로15만 여건의 실제 서비스되는 데이터베이스에서 2,556건 이상의 문헌을 가진 8개 범주를 선정하였다. 이들을 대상으로 범주당 학습문헌수 20개(Tr20)에서 2,000개(Tr2000)까지 단계별로 증가시키며 8개 학습문헌집합 규모를 갖도록 하위문헌집단을 구성한 후, 학습문헌집합 규모에 따른 하위문헌집단 간 범주화 성능을 비교하였다. 8개 하위문헌집단의 거시평균 성능은 F1 값 30%로 선행연구에서 발견된 kNN 분류기의 일반적인 성능에 미치지 못하는 낮은 성능을 보였다. 실험을 수행한 8개 대상문헌집단 중 학습문헌수가 100개인 Tr100 문헌집단이 F1 값 31%로 비용대 효과면에서 분류기 학습에 필요한 최적정의 실험문헌집합수로 판단되었다. 또한, 실험문헌집단에 부여된 주제범주 정확도를 수작업 재분류를 통하여 확인한 후, 이들의 범주별 범주화 성능과 관련성을 기반으로 위 결론의 신빙성을 높였다.

Abstract

This paper examines a level of categorization performance in a reallife collection of abstract articles in the fields of science and technology, and tests the optimal size of documents per category in a training set using a kNN classifier. The corpus is built by choosing categories that hold more than 2,556 documents first, and then 2,556 documents per category are randomly selected. It is further divided into eight subsets of different size of training documents: each set is randomly selected to build training documents ranging from 20 documents (Tr20) to 2,000 documents (Tr2000) per category. The categorization performances of the 8 subsets are compared. The average performance of the eight subsets is 30% in F1 measure which is relatively poor compared to the findings of previous studies. The experimental results suggest that among the eight subsets the Tr100 appears to be the most optimal size for training a kNN classifier. In addition, the correctness of subject categories assigned to the training sets is probed by manually reclassifying the training sets in order to support the above conclusion by establishing a relation between and the correctness and categorization performance.

정보관리학회지