바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: test collections, 검색결과: 28
초록보기
초록

XML 웹 문서 포맷은 문헌 내에 내용뿐만 아니라 의미 있는 논리적인 구조 정보를 포함할 수 있어, 검색에서 문서의 내용 뿐만 아니라 구조로 접근하는 것을 제공한다. 그래서 본 연구의 목적은 XML 검색에 있어 내용 검색에 추가적인 요소로 사용된 구조적인 제한이 얼마나 유용한지를 실험하기 위해 내용만으로 검색한 결과와 내용과 구조적인 제한을 가지고 검색한 결과간의 성능을 비교하였다. 이 실험은 자체 개발된 단말노드 언어모델기반의 XML 검색시스템을 사용하였고 INEX 2005의 ad-hoc트랙에 참여하여 모든 실험방법과 INEX 2005의 실험 문헌 집단을 사용하였다.

Abstract

XML documents format on the Web provides a mechanism to impose their content and logical structure information. Therefore, an XML processor provides access to their content and strucure. The purpose of this study is to investigate the usefulness of structural hints in the leaf node language model-based XML document retrieval. In order to this purpose, this experiment tested the performances of the leaf node language model-based XML retrieval system to compare the queries for a topic containing only content-only constraints and both content constrains and structure constraints. A newly designed and implemented leaf node language model-based XML retrieval system was used. And we participated in the ad-hoc track of INEX 2005 and conducted an experiment using a large-scale XML test collection provided by INEX 2005.

12
백우진(건국대학교) ; Sun-Eun Jung(Konkuk U) ; Euigun Ahn(Yonsei U) ; 김기용(건국대학교) ; 신문선(건국대학교) 2008, Vol.25, No.2, pp.49-68 https://doi.org/10.3743/KOSIM.2008.25.2.049
초록보기
초록

Abstract

In many information retrieval experiments, the data fusion techniques have been used to achieve higher effectiveness in comparison to the single evidence-based retrieval. However, there had not been many image retrieval studies using the data fusion techniques especially in combining retrieval results based on multiple retrieval methods. In this paper, we describe how the image retrieval effectiveness can be improved by combining two sets of the retrieval results using the Sobel operator-based edge detection and the Self Organizing Map(SOM) algorithms. We used the clip art images from a commercial collection to develop a test data set. The main advantage of using this type of the data set was the clear cut relevance judgment, which did not require any human interven- tion.

13
박민수(한국과학기술연구원) 2011, Vol.28, No.4, pp.85-97 https://doi.org/10.3743/KOSIM.2011.28.4.085
초록보기
초록

Abstract

The purpose of this study was to develop a methodology of user participation evaluation of a scholarly information site in the field of science and technology and to enhance the site by applying a set of testing protocols. Experiments were conducted in a laboratory setting. Data from multiple sources, including eyetracking, search logs and post surveys, were collected and analyzed quantitatively. Based on the results of eyetracking, the contents and images were reorganized after removing unessential elements in the site. The resulting data from the search logs showed that the users were able to finish the tasks more quickly with the revised user interface. The results of the data analysis of post surveys indicated an overall improvement in the revised website compared to the original one.

초록보기
초록

본 논문에서는 우리나라의 지역간 도서관 정보격차 실태를 분석하기 위하여 한국도서관연감에 수록되어 있는 공공도서관, 대학도서관, 학교도서관의 주요지표인 인구수, 건물면적, 소장자료수, 직원수, 운영예산, 이용자수, 대출책수를 표본으로 수집하였다. 수집된 자료는 경기수도권, 강원충청권, 부산영남권, 광주호남권 등 4개 권역별로 구분하여 통계적으로 변인 상호간에 유의한 차이와 상관관계가 있는지를 평균분석과 상관분석을 이용하여 분석하였다. 분석결과 3개의 관종에서는 공공도서관이 지역별 정보격차가 가장 심한 것으로 나타났고, 다음이 학교도서관, 대학도서관 순으로 나타났으므로 정보격차 해소를 위한 정책에서는 공공도서관이 가장 우선되어야 한다. 4개 권역의 정보격차에서는 경기수도권으로 도서관정보가 집중되어 있으므로 이를 해소하기 위한 지역간 균형 있는 도서관 정보 정책이 필요하다고 할 수 있다.

Abstract

The numbers of population, areas, possessions, employees, operational budget, users, and circulated books in Korea Library Yearbook were collected for the purpose of analyzing the status of information disparity through libraries among four large regional groups in Korea in this paper. They were the main indicators of four types of libraries such as public, academic, special, and school ones. The collected data were classified into four regional groups, and were analyzed by using the comparisons of means such as t-test and ANOVA, and correlation coefficient if there is any significant differences among them or not.

초록보기
초록

본 연구는 정규 과목으로서 정보이용교육을 수강하는 대학생들을 대상으로 이들의 컴퓨터활용능력과 도서관 관련 지식이 이용빈도와 정보활용능력에 어떠한 영향을 미치는지를 조사하고, 이용빈도와 정보활용능력은 어떠한 상관관계가 있는지를 분석하여 보다 나은 정보이용교육의 수업 방향을 제시하고자 함을 목적으로 하였다. 서울경기지역 소재 7개 대학의 8개 수업 수강생들을 대상으로 자료를 수집하였으며, 가설검증을 통해 변인들의 상관관계를 분석하였다. 정보이용교육의 중요성에 대한 대학당국의 인식과 더불어 향후의 정보이용교육은 도서관자료를 이용한 학술정보활용 중심으로 이루어져야 할 것임을 제안하였다.

Abstract

The purpose of this study is to reveal how undergraduate students' computer literacy and library knowledge can affect their frequency of library material use and information literacy, and analyze the correlations between frequency of library material use and information literacy. Data were collected by distributing questionnaires to students of 7 universities in 8 credit-given user education courses, and correlations with variables were analyzed through hypothesis testing. It was suggested that with strong support of university administration, user education should be taught by using more of scholarly library material.

초록보기
초록

학술지 논문에 디스크립터를 자동부여하기 위하여 기계학습 기반의 접근법을 적용하였다. 정보학 분야의 핵심 학술지를 선정하여 지난 11년간 수록된 논문들을 대상으로 문헌집단을 구성하였고, 자질 선정과 학습집합의 크기에 따른 성능을 살펴보았다. 자질 선정에서는 카이제곱 통계량(CHI)과 고빈도 선호 자질 선정 기준들(COS, GSS, JAC)을 사용하여 자질을 축소한 다음, 지지벡터기계(SVM)로 학습한 결과가 가장 좋은 성능을 보였다. 학습집합의 크기에서는 지지벡터기계(SVM)와 투표형 퍼셉트론(VPT)의 경우에는 상당한 영향을 받지만 나이브 베이즈(NB)의 경우에는 거의 영향을 받지 않는 것으로 나타났다.

Abstract

This study utilizes various approaches of machine learning in the process of automatically assigning descriptors to journal articles. After selecting core journals in the field of information science and organizing test collection from the articles of the past 11 years, the effectiveness of feature selection and the size of training set was examined. In the regard of feature selection, after reducing the feature set by χ2 statistics(CHI) and criteria which prefer high-frequency features(COS, GSS, JAC), the trained Support Vector Machines(SVM) performs the best. With respective to the size of the training set, it significantly influences the performance of Support Vector Machines(SVM) and Voted Perceptron(VTP). but it scarcely affects that of Naive Bayes(NB).

초록보기
초록

최근 수년 동안 영상자료와 음성자료 분석에 대한 이론들이 텍스트자료 검색 시스템과 함께 사용되기 위해서 제안 되어 왔으며 데이터 처리 속도의 급격한 향상과 함께 발전되어 왔다. 일반적 검색 방법들은 단지 텍스트만을 사용하지만 텍스트와 그림을 동시에 사용하는 검색 방법 또한 최근에 제안되어 왔다. 본 연구는 다매체자료의 공통기술표현포맷(CRFMD)이라는 이름으로 화상자료와 텍스트자료를 하나의 자료 구조로 통합하는 방법을 제안하고 있으며, 주어진 테스트자료에 대한 화상자료의 유사성 분석에서 텍스트와 그림의 형태소를 함께 사용하였을 때 현격히 개선되어 짐을 보여주고 있다. CRFMD는 의료문서 검색, WWW 검색, 박물관 소장품 검색과 같은 다양한 분야의 다매체자료 검색 및 처리에 응용될 수가 있을 것이다.

Abstract

In recent years, theories of image and sound analysis have been proposed to work with text retrieval systems and have progressed quickly with the rapid progress in data processing speeds. This study proposes a common representation format for multimedia documents (CRFMD) composed of both images and text to form a single data structure. It also shows that image classification of a given test set is dramatically improved when text features are encoded together with image features. CRFMD might be applicable to other areas of multimedia document retrieval and processing, such as medical image retrieval, World Wide Web searching, and museum collection retrieval.

초록보기
초록

본 연구는 새로운 분석법으로 떠오르는 처방적 분석 기법을 소개하고, 이를 분류 기반의 시스템에 효율적으로 적용하는 방안을 제시하는 것을 목적으로 한다. 처방적 분석 기법은 분석의 결과를 제시함과 동시에 최적화된 결과가 나오기까지의 과정 및 다른 선택지까지 제공한다. 새로운 개념의 분석 기법을 도입함으로써 문헌 분류를 기반으로 하는 응용 시스템을 더욱 쉽게 최적화하고 효율적으로 운영하는 방안을 제시하였다. 최적화의 과정을 시뮬레이션하기 위해, 대용량의 학술문헌을 수집하고 기준 분류 체계에 따라 자동 분류를 실시하였다. 처방적 분석 개념을 적용하는 과정에서 대용량의 문헌 분류를 위한 동적 자동 분류 기법과 학문 분야의 지적 구조 분석 기법을 동시에 활용하였다. 실험의 결과로 효과적으로 서비스 분류 체계를 수정하고 재적용할 수 있는 몇 가지 최적화 시나리오를 효율적으로 도출할 수 있음을 보여 주었다.

Abstract

This study aims to introduce an emerging prescriptive analytics method and suggest its efficient application to a category-based service system. Prescriptive analytics method provides the whole process of analysis and available alternatives as well as the results of analysis. To simulate the process of optimization, large scale journal articles have been collected and categorized by classification scheme. In the process of applying the concept of prescriptive analytics to a real system, we have fused a dynamic automatic-categorization method for large scale documents and intellectual structure analysis method for scholarly subject fields. The test result shows that some optimized scenarios can be generated efficiently and utilized effectively for reorganizing the classification-based service system.

19
이지숙(NHN㈜) ; 정영미(연세대학교) 2007, Vol.24, No.3, pp.201-218 https://doi.org/10.3743/KOSIM.2007.24.3.201
초록보기
초록

이 연구에서는 TREC이 제시한 토픽 검색의 정의에 따라 질의에 적합한 웹 사이트를 검색하는 효과적인 토픽 검색 알고리즘을 제안하고 실험을 통해 그 성능을 평가하였다. 이 연구의 토픽 검색 알고리즘은 먼저 질의에 대한 웹 페이지 검색 결과로부터 적합한 웹 사이트를 선정한 다음, 선정된 사이트의 구조를 이용하여 질의에 대한 적합성 점수를 산출한다. TREC의 .GOV 실험 문헌 집단과 TREC-2004 실험의 질의 및 적합문헌 리스트를 이용한 검색 실험 결과 이 토픽 검색 알고리즘은 상위 10위 안에 최소 2개 이상의 적합 사이트를 검색하여 비교적 높은 수준의 성능을 보였다. 또한 TREC-2004의 적합문헌 리스트 분석을 통해 적합문헌 선정에 토픽 검색의 정의가 엄격하게 적용되지 않은 경우가 있음을 확인하고, 수정된 적합문헌 리스트를 이용하여 토픽 검색 성능을 재평가한 결과 이 연구에서 제안한 토픽 검색 알고리즘의 성능이 월등히 향상되었다.

Abstract

This study proposes a topic distillation algorithm that ranks the relevant sites selected from retrieved web pages, and evaluates the performance of the algorithm. The algorithm calculates the topic score of a site using its hierarchical structure. The TREC .GOV test collection and a set of TREC-2004 queries for topic distillation task are used for the experiment. The experimental results showed the algorithm returned at least 2 relevant sites in top ten retrieval results. We performed an in-depth analysis of the relevant sites list provided by TREC-2004 to find out that the definition of topic distillation was not strictly applied in selecting relevant sites. When we re-evaluated the retrieved sites/sub-sites using the revised list of relevant sites, the performance of the proposed algorithm was improved significantly.

초록보기
초록

본 연구는 OPAC에서 계층 클러스터링을 응용하여 소장자료를 계층구조로 분류하여 열람하는데 사용될 수 있는 최적의 계층 클러스터링 모형을 찾기 위한 목적으로 수행되었다. 문헌정보학 분야 단행본과 학위논문으로 실험집단을 구축하여 다양한 색인기법(서명단어 자동색인과 통제어 통합색인)과 용어가중치 기법(절대빈도와 이진빈도), 유사도 계수(다이스, 자카드, 피어슨, 코싸인, 제곱 유클리드), 클러스터링 기법(집단간 평균연결, 집단내 평균연결, 완전연결)을 변수로 실험하였다. 연구결과 집단간 평균연결법과 제곱 유클리드 유사도를 제외하고 나머지 유사도 계수와 클러스터링 기법은 비교적 우수한 클러스터를 생성하였으나, 통제어 통합색인을 이진빈도로 가중치를 부여하여 완전연결법과 집단간 평균연결법으로 클러스터링 하였을 때 가장 좋은 클러스터가 생성되었다. 그러나 자카드 유사도 계수를 사용한 집단간 평균연결법이 십진구조와 더 유사하였다.

Abstract

This study is to develop a hiararchic clustering model for document classification and browsing in OPAC systems. Two automatic indexing techniques (with and without controlled terms), two term weighting methods (based on term frequency and binary weight), five similarity coefficients (Dice, Jaccard, Pearson, Cosine, and Squared Euclidean), and three hierarchic clustering algorithms (Between Average Linkage, Within Average Linkage, and Complete Linkage method) were tested on the document collection of 175 books and theses on library and information science. The best document clusters resulted from the Between Average Linkage or Complete Linkage method with Jaccard or Dice coefficient on the automatic indexing with controlled terms in binary vector. The clusters from Between Average Linkage with Jaccard has more likely decimal classification structure.

정보관리학회지