바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: test collections, 검색결과: 28
1
심경(Systems R&D Center, Iris.Net) ; 정영미(연세대학교) 2006, Vol.23, No.2, pp.265-285 https://doi.org/10.3743/KOSIM.2006.23.2.265
초록보기
초록

문헌범주화에서는 학습문헌집합에 부여된 주제범주의 정확성이 일정 수준을 가진다고 가정한다. 그러나, 이는 실제 문헌집단에 대한 지식이 없이 이루어진 가정이다. 본 연구는 실제 문헌집단에서 기 부여된 주제범주의 정확성의 수준을 알아보고, 학습문헌집합에 기 부여된 주제범주의 정확도와 문헌범주화 성능과의 관계를 확인하려고 시도하였다. 특히, 학습문헌집합에 부여된 주제범주의 질을 수작업 재색인을 통하여 향상시킴으로써 어느 정도까지 범주화 성능을 향상시킬 수 있는가를 파악하고자 하였다. 이를 위하여 과학기술분야의 1,150 초록 레코드 1,150건을 전문가 집단을 활용하여 재색인한 후, 15개의 중복문헌을 제거하고 907개의 학습문헌집합과 227개의 실험문헌집합으로 나누었다. 이들을 초기문헌집단, Recat-1, Recat-2의 재 색인 이전과 이후 문헌집단의 범주화 성능을 kNN 분류기를 이용하여 비교하였다. 초기문헌집단의 범주부여 평균 정확성은 16%였으며, 이 문헌집단의 범주화 성능은 F1값으로 17%였다. 반면, 주제범주의 정확성을 향상시킨 Recat-1 집단은 F1값 61%로 초기문헌집단의 성능을 3.6배나 향상시켰다.

Abstract

In text categorization a certain level of correctness of labels assigned to training documents is assumed without solid knowledge on that of real-world collections. Our research attempts to explore the quality of pre-assigned subject categories in a real-world collection, and to identify the relationship between the quality of category assignment in training set and text categorization performance. Particularly, we are interested in to what extent the performance can be improved by enhancing the quality (i.e., correctness) of category assignment in training documents. A collection of 1,150 abstracts in computer science is re-classified by an expert group, and divided into 907 training documents and 227 test documents (15 duplicates are removed). The performances of before and after re-classification groups, called Initial set and Recat-1/Recat-2 sets respectively, are compared using a kNN classifier. The average correctness of subject categories in the Initial set is 16%, and the categorization performance with the Initial set shows 17% in F1 value. On the other hand, the Recat-1 set scores F1 value of 61%, which is 3.6 times higher than that of the Initial set.

초록보기
초록

본 연구는 실재 시스템 환경에서 문헌 분류를 위해 범주화 기법을 적용할 경우, 범주화 성능이 어느 정도이며, 적정한 문헌범주화 성능의 달성을 위하여 분류기 학습에 필요한 범주당 가장 이상적인 학습문헌집합의 규모는 무엇인가를 파악하기 위하여 kNN 분류기를 사용하여 실험하였다. 실험문헌집단으로15만 여건의 실제 서비스되는 데이터베이스에서 2,556건 이상의 문헌을 가진 8개 범주를 선정하였다. 이들을 대상으로 범주당 학습문헌수 20개(Tr20)에서 2,000개(Tr2000)까지 단계별로 증가시키며 8개 학습문헌집합 규모를 갖도록 하위문헌집단을 구성한 후, 학습문헌집합 규모에 따른 하위문헌집단 간 범주화 성능을 비교하였다. 8개 하위문헌집단의 거시평균 성능은 F1 값 30%로 선행연구에서 발견된 kNN 분류기의 일반적인 성능에 미치지 못하는 낮은 성능을 보였다. 실험을 수행한 8개 대상문헌집단 중 학습문헌수가 100개인 Tr100 문헌집단이 F1 값 31%로 비용대 효과면에서 분류기 학습에 필요한 최적정의 실험문헌집합수로 판단되었다. 또한, 실험문헌집단에 부여된 주제범주 정확도를 수작업 재분류를 통하여 확인한 후, 이들의 범주별 범주화 성능과 관련성을 기반으로 위 결론의 신빙성을 높였다.

Abstract

This paper examines a level of categorization performance in a reallife collection of abstract articles in the fields of science and technology, and tests the optimal size of documents per category in a training set using a kNN classifier. The corpus is built by choosing categories that hold more than 2,556 documents first, and then 2,556 documents per category are randomly selected. It is further divided into eight subsets of different size of training documents: each set is randomly selected to build training documents ranging from 20 documents (Tr20) to 2,000 documents (Tr2000) per category. The categorization performances of the 8 subsets are compared. The average performance of the eight subsets is 30% in F1 measure which is relatively poor compared to the findings of previous studies. The experimental results suggest that among the eight subsets the Tr100 appears to be the most optimal size for training a kNN classifier. In addition, the correctness of subject categories assigned to the training sets is probed by manually reclassifying the training sets in order to support the above conclusion by establishing a relation between and the correctness and categorization performance.

초록보기
초록

본 연구의 목적은 객체-관계형 데이터베이스 접근에 의한 XML 문헌의 검색 성능을 평가하는 것이다. 본 논문에서는 INEX(Initiative for the Evaluation of XML retrieval)에서의 XML 문헌의 색인 및 검색 방법에 대하여, 그리고 실험 방법론들에 대하여 기술하고 있다. 대부분의 전통적인 정보검색 성능평가 실험에서와 같이 본 연구에서 사용된 테스트 콜렉션(test collection)은 문헌(즉, XML 문헌), 토픽, ad hoc 검색, 적합성 판단, 평가로 이루어졌다. 그리고 ORDBMS 기술들을 기반으로 개발된 전용 XML 데이터베이스의 일종인 EXIMATM Supply을 사용하여 INEX에서 제공한 대규모 XML 문헌들을 저장하고 검색하였다. 본 논문에서는 실험에서 사용한 시스템에 대한 개략적인 기능들과 색인 및 검색 과정 그리고 INEX 2002에서의 성능평가 결과에 대하여, 앞으로 개선되어야 할 기능에 대하여 논하고 있다.

Abstract

The purpose of this study is to evaluate the performance of XML retrieval based on ORDBMSs(Object-Relational Database Management Systems) approach. This paper describes indexing and retrieval methods for XML documents and the methodologies of experiments at INEX(Initiative for the Evaluation of XML retrieval). Like any other traditional information retrieval experiment, the test collection was consists of documents, topics/queries, task, relevance assessments and evaluation. EXIMATM Supply, a kind of native XML DB based on ORDBMS technologies, is used for this experiment. Although this approach has many benefits, for example, no delay in storing and searching XML documents, but it showed relatively disappointed retrieval performance at INEX 2002. This result may caused since the given topics had to be decomposed and modified to be processed by the XPath processor, and during this modification the original meaning of topics can be changed inevitably and some important information may pass over.

초록보기
초록

역문헌빈도 가중치 기법은 문헌 집단에서 출현빈도가 낮을수록 색인어의 중요도가 높다는 가정에 근거하고 있다. 그런데 이는 중간빈도어를 중요하게 여기는 여타 이론과는 일치하지 않는 것이다. 이 연구에서는 저빈도어보다 중간빈도어가 더 중요하다는 가정에 근거하여 역문헌빈도 가중치 공식을 수정한 피벗 역문헌빈도 가중치 기법을 제안하였다. 제안된 기법을 검증하기 위해서 세 실험집단을 대상으로 검색실험을 수행한 결과. 피벗 역문헌빈도 가중치기법이 역문헌빈도 가중치 기법에 비해서 특히 검색결과 상위에서의 성능을 향상시키는 것으로 나타났다.

Abstract

The Inverse Document Frequency (IDF) weighting method is based on the hypothesis that in the document collection the lower the frequency of a term is, the more important the term is as a subject word. This well-known hypothesis is, however, somewhat questionable because some low frequency terms turn out to be insufficient subject words. This study suggests the pivoted IDF weighting method for better retrieval effectiveness, on the assumption that medium frequency terms are more important than low frequency terms. We thoroughly evaluated this method on three test collections and it showed performance improvements especially at high ranks.

5
이정희(한국해양대학교) ; 김희섭(경북대학교) 2007, Vol.24, No.3, pp.343-362 https://doi.org/10.3743/KOSIM.2007.24.3.343
초록보기
초록

이 연구에서는 우리나라 국공립 대학의 전자기록관리시스템이 보다 적합한 전자기록물을 검색할 수 있는 기반 환경을 조성하기 위하여 온톨로지 기반의 검색시스템을 설계 및 구현하였고 그 성능을 기존의 키워드 기반 검색시스템과 비교해 보았다. 온톨로지 기반 검색시스템은 OntoStudio 1.4를 사용하여 자체 설계 및 구현하였으며, 실험에 사용된 실험 컬렉션의 구성은 다음과 같다: (1) 문서는 한국해양대학교의 2005년도 전자문서관리시스템에서 생성한 인사발령통보’ 5,099건의 전자기록물, (2) 질의집단은 장문10개와 단문10개 총20개, 그리고 (3) 적합성평가는 전문가 집단에 의하여 이루어졌다. 한편 키워드 기반 검색시스템의 성능평가 실험은 기존의 전자기록관리시스템을 이용하여 10명의 피실험자에 의하여 온톨로지 기반 검색시스템과 동일한 실험 컬렉션을 사용하여 이루어졌다. 재현율과 정확률에 의한 성능을 비교해본 결과 온톨로지 기반의 검색시스템이 키워드 기반의 검색시스템 보다 뛰어난 성능을 보였다. 또한 온톨로지 기반 검색시스템은 단문보다는 장문의 질의에서 다소 뛰어난 성능을 보였다.

Abstract

The purpose of this study is to design and implement an ontology-based retrieval system for the electronic records of universities and to compare its performance with the existing keyword-based retrieval system. We used OntoStudio 1.4 for implementing an ontology-based retrieval system, and the test collection consisted of the following: (1) 5,099 electronic records of the 'personnel management notification' created by Korea Maritime University, (2) 20 topics (10 short-topics and 10 long-topics), and (3) the relevant assessments were conducted by the group of human experts. 10 university staff participated in the experiment of keyword-based searching and used the same test collection as used in the experiment of ontology-based searching. The ontology-based retrieval system outperformed to the keyword-based retrieval system in terms of Recall and Precision, and it showed better results with long-topic than with short-topic types.

초록보기
초록

Abstract

The success of social networking sites (SNSs) may depend on many factors. Continuance use of SNSs is one of these. Especially, in the Web environment where users can leave one service with a single mouse click, maintaining existing members cost much time and efforts. Without continuance use of SNSs, SNS-based service would not create any value. This study focused on identifying factors influencing users’ continuance intention in SNSs. Based on relevant literature review, six influencing factors were initially identified. They were reputation, relational capital, knowledge quality, compatibility, personalization, and satisfaction. Web-based ques- tionnaire survey was conducted and a total of 325 usable responses were collected. Reliability test and two rounds of exploratory factor analyses resulted in identifying five factors. The relationship between the factors and the continuance intention was tested by using multiple regression analyses. The analyses revealed that satisfaction was the most significant factor. Knowledge quality and relational capital also had significant effects while reputation and personalization did not have significant effect on continuance intention. Instead, reputation and personalization showed significance in influencing satisfaction.

7
김나원(연세대학교 의학도서관 사서) ; 이지연(연세대학교) 2016, Vol.33, No.1, pp.161-180 https://doi.org/10.3743/KOSIM.2016.33.1.161
초록보기
초록

Abstract

Physicians have information needs related to academic research and clinical practice but encounter difficulties seeking appropriate medical resources and information. The goal of this study is to develop a search system to support Korean physicians’ information needs. To access sources to meet the identified need, in-depth interviews were conducted, and MediSearching, a new search system, was developed accordingly. To verify its usefulness and to obtain users’ suggestions, interviews were conducted and feedback was solicited via collected test searches. The initial set of interviews indicated that physicians’ information needs and search behaviors differed by type of hospital and clinical department. Physicians in university hospitals with a greater need for research materials searched for academic articles, whereas physicians in specialty hospitals or primary care clinics with a stronger need for materials related to clinical practice asked their colleagues for information. Consequently, MediSearching was designed to satisfy both groups’ needs, and the test search provided useful search results compared with existing services. Korean physicians have previously had to repeat their search process on separate sites that provide different services according to type of information and search method. MediSearching may reduce this inconvenience and add documents in various formats and languages.

초록보기
초록

본 연구의 목적은 이용자의 인지적 특성 중 하나인 성격 유형과 OPAC 탐색 과정에서 나타나는 이용자의 정보 탐색 성향 및 만족도의 관계를 파악하고자 하였다. 본 연구에서는 실험대상자들을 대상으로 KEPTI 에니어그램 검사를 통해 성격 유형을 파악하였고, 데이터는 실험-전 질문지, 태스크A 질문지, 태스크B 질문지, 그리고 실험-후 질문지로 수집되었다. 분석결과, 에니어그램의 힘의 중심에 의한 집단 간에는 탐색의 용이성, 탐색시간, 탐색시간의 충분성, 탐색결과의 유용성, 탐색과정의 쉬움에서 통계적으로 유의한 차이가 나타났고 호니비언 집단 간에는 질의에 대한 친숙성과 흥미에서 통계적으로 유의한 차이가 나타났다.

Abstract

This study examined the relation between personality types and users' searching trait and satisfaction when interacting with OPAC system. In this study, personality type was measured by the KEPTI Enneagram tools. Data was collected through four questionnaires, pre-test, TaskA, TaskB, and post-test survey. The results indicated that there was a statistically significant difference in perceptions on the expected ease of search, completion time, adequacy of search time, usefulness of search results, and performed ease of search within the Three Triads of Enneagram. Also a statistically significant difference was found on familiarity and interest in the selected queries within the Hornivian group.

초록보기
초록

의견 검색은 사용자의 정보 요구에 주제적으로 연관되면서도 의견이 포함되어 있는 정보를 검색하는 태스크이다. 본 연구는 효과적인 의견 검색을 위해 사용자 정보 요구를 표현하는 방법과 이 요구를 만족시킬만한 여러 의견 자질들을 효과적으로 결합할 수 있는 방법에 대하여 실험을 통해 분석하였다. 본 실험에서는 추론 네트워크 모델을 기본 검색 모델로 사용하였고, Blogs06 컬렉션과 100개의 TREC 토픽에 대해 실험을 수행하였다. 실험 결과, 가상의 ‘의견’ 개념을 설정하여 효과적으로 의견 검색의 정보 요구를 표현할 수 있었으며, 극히 소량의 일반 의견 단어집만을 사용했는데도 동일한 환경에서 기존 모델과 견줄 만한 의견 검색 성능을 달성할 수 있었다.

Abstract

Opinion retrieval is to retrieve items which are relevant to the user information need topically and include opinion about the topic. This paper aims to find a method to represent user information need for effective opinion retrieval and to analyze the combination methods for opinion features through various experiments. The experiments are carried out in the inference network framework using the Blogs06 collection and 100 TREC test topics. The results show that our suggested representation method based on hidden ‘opinion’ concept is effective, and the compact model with very small opinion lexicon shows the comparable performance to the previous model on the same test data set.

초록보기
초록

본 연구에서는 성격유형과 흥미유형에 따른 독서 감상문에 나타난 독서에 대한 반응의 차이를 탐구하였다. 이를 위해 대전의 D과학고등학교 3학년 학생 81명을 대상으로 성격유형분석 데이터, 흥미유형분석 데이터, 교과독서 활동으로 작성된 독서 감상문 데이터를 수집하였다. 수집된 독서 감상문의 토픽 분석을 수행하고, 성격유형(사고형, 감정형)과 흥미유형(탐구형, 탐구형 외)에 따른 독서 감상문의 토픽 발현 확률을 통계적으로 검증하였다. 이어서 키워드 네트워크 분석을 통해 단어들의 개념 연결 구조를 측정하고, 중심성 지표를 통해 토픽모델링의 분석 결과를 보완하였다. 연구 결과, 토픽 회귀분석을 통해 토픽2(이해와 공부)와 토픽3(읽기와 사고)에서 사고형(T)과 감정형(F) 간에 통계적으로 유의한 차이를 확인할 수 있었으며, 토픽2(이해와 공부)에서 탐구형과 탐구형 외 간에 통계적으로 유의한 차이가 확인되었다. 본 연구의 결과는 맞춤형 도서 추천이나 개인화를 고려한 독서교육의 기초자료로 활용될 수 있을 것이다.

Abstract

This study aimed to investigate the difference in response to reading as shown in book reports by personality type and interest type. For this purpose, personality type analysis data, interest type analysis data, and book report data written in subject reading activities were collected from 81 third graders at D Science High School in Daejeon. Topic analysis was conducted on the collected book reports, and the probability of a topic being mentioned was statistically tested according to personality type (thinking type, feeling type) and interest type (investigative type, types other than investigative). Subsequently, the conceptual connection structure of words was measured by keyword network analysis, and the analysis results of topic modeling were complemented by the centrality index. As a result of the study, the topic regression analysis showed statistically significant differences between thinking type (T) and feeling type (F) in topic 2 (understanding and studying) and topic 3 (reading and thinking), and statistically significant differences between investigative type and non-investigative type in topic 2 (understanding and studying). The results of this study can be used as a basis for tailored book recommendations and personalized reading education.

정보관리학회지