바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 로치오, 검색결과: 23
초록보기
초록

로치오 알고리즘에 기반한 자동분류의 성능 향상을 위하여 두 개의 실험집단(LISA, Reuters-21578)을 대상으로 여러 가중치부여 기법들을 검토하였다. 먼저, 가중치 산출에 사용되는 요소를 크게 문헌요소(document factor), 문헌집합 요소(document set factor), 범주 요소(category factor)의 세 가지로 구분하여 각 요소별 단일 가중치부여 기법의 분류 성능을 살펴보았고, 다음으로 이들 가중치 요소들 간의 조합 가중치부여 기법에 따른 성능을 알아보았다. 그 결과, 각 요소별로는 범주 요소가 가장 좋은 성능을 보였고, 그 다음이 문헌집합 요소, 그리고 문헌 요소가 가장 낮은 성능을 나타냈다. 가중치 요소 간의 조합에서는 일반적으로 사용되는 문헌 요소와 문헌집합 요소의 조합 가중치(tfidf or ltfidf)와 함께 문헌 요소를 포함하는 조합(tf*cat or ltf*cat) 보다는, 오히려 문헌 요소를 배제하고 문헌 집합 요소를 범주 요소와 결합한 조합 가중치 기법(idf*cat)이 가장 좋은 성능을 보였다. 그러나 실험집단 측면에서 단일 가중치와 조합 가중치를 서로 비교한 결과에 따르면, LISA에서 범주 요소만을 사용한 단일 가중치(cat only)가 가장 좋은 성능을 보인 반면, Reuters-21578에서는 문헌집합 요소와 범주 요소간의 조합 가중치(idf*cat)의 성능이 가장 우수한 것으로 나타났다. 따라서 가중치부여 기법에 대한 실제 적용에서는, 분류 대상이 되는 문헌집단 내 범주들의 특성을 신중하게 고려할 필요가 있다.

Abstract

This study examines various weighting methods for improving the performance of automatic classification based on Rocchio algorithm on two collections(LISA, Reuters-21578). First, three factors for weighting are identified as document factor, document factor, category factor for each weighting schemes, the performance of each was investigated. Second, the performance of combined weighting methods between the single schemes were examined. As a result, for the single schemes based on each factor, category-factor-based schemes showed the best performance, document set-factor-based schemes the second, and document-factor-based schemes the worst. For the combined weighting schemes, the schemes(idf*cat) which combine document set factor with category factor show better performance than the combined schemes(tf*cat or ltf*cat) which combine document factor with category factor as well as the common schemes(tfidf or ltfidf) that combining document factor with document set factor. However, according to the results of comparing the single weighting schemes with combined weighting schemes in the view of the collections, while category-factor-based schemes(cat only) perform best on LISA, the combined schemes(idf*cat) which combine document set factor with category factor showed best performance on the Reuters-21578. Therefore for the practical application of the weighting methods, it needs careful consideration of the categories in a collection for automatic classification.

초록보기
초록

역문헌빈도 가중치 기법은 문헌 집단에서 출현빈도가 낮을수록 색인어의 중요도가 높다는 가정에 근거하고 있다. 그런데 이는 중간빈도어를 중요하게 여기는 여타 이론과는 일치하지 않는 것이다. 이 연구에서는 저빈도어보다 중간빈도어가 더 중요하다는 가정에 근거하여 역문헌빈도 가중치 공식을 수정한 피벗 역문헌빈도 가중치 기법을 제안하였다. 제안된 기법을 검증하기 위해서 세 실험집단을 대상으로 검색실험을 수행한 결과. 피벗 역문헌빈도 가중치기법이 역문헌빈도 가중치 기법에 비해서 특히 검색결과 상위에서의 성능을 향상시키는 것으로 나타났다.

Abstract

The Inverse Document Frequency (IDF) weighting method is based on the hypothesis that in the document collection the lower the frequency of a term is, the more important the term is as a subject word. This well-known hypothesis is, however, somewhat questionable because some low frequency terms turn out to be insufficient subject words. This study suggests the pivoted IDF weighting method for better retrieval effectiveness, on the assumption that medium frequency terms are more important than low frequency terms. We thoroughly evaluated this method on three test collections and it showed performance improvements especially at high ranks.

초록보기
초록

국내 학술회의 논문으로 구성된 문헌집합을 대상으로 기계학습에 기초한 자동분류의 성능에 영향을 미치는 요소들을 검토하였다. 특히 구현이 쉽고 컴퓨터 처리 속도가 빠른 로치오 알고리즘을 사용하여 『한국정보관리학회 학술대회 논문집』의 논문에 주제 범주를 자동 할당하는 분류 성능 측면에서 분류기 생성 방법, 학습집합 규모, 가중치부여 기법, 범주 할당 방법 등 주요 요소들의 특성을 다각적인 실험을 통해 살펴보았다. 결과적으로 분류 환경 및 문헌집합의 특성에 따라 파라미터(β, λ)와 학습집합의 크기(5년 이상)를 적절하게 적용하는 것이 효과적이며, 동등한 성능 수준이라면 보다 단순한 단일 가중치부여 기법을 사용하여 분류의 효율성을 높일 수 있음을 발견하였다. 또한 국내 학술회의 논문의 분류는 특정 논문에 하나 이상의 범주가 부여되는 복수-범주 분류(multi-label classification)가 실제 환경에 부합한다고 할 수 있으므로, 이러한 환경을 고려하여 주요 성능 요소들의 특성에 기초한 최적의 분류 모델을 개발할 필요가 있다.

Abstract

This study examined the factors affecting the performance of automatic classification for the domestic conference papers based on machine learning techniques. In particular, In view of the classification performance that assigning automatically the class labels to the papers in Proceedings of the Conference of Korean Society for Information Management using Rocchio algorithm, I investigated the characteristics of the key factors (classifier formation methods, training set size, weighting schemes, label assigning methods) through the diversified experiments. Consequently, It is more effective that apply proper parameters (β, λ) and training set size (more than 5 years) according to the classification environments and properties of the document set. and If the performance is equivalent, I discovered that the use of the more simple methods (single weighting schemes) is very efficient. Also, because the classification of domestic papers is corresponding with multi-label classification which assigning more than one label to an article, it is necessary to develop the optimum classification model based on the characteristics of the key factors in consideration of this environment.

4
송성전(연세대학교) ; 정영미(연세대학교) 2012, Vol.29, No.2, pp.205-224 https://doi.org/10.3743/KOSIM.2012.29.2.205
초록보기
초록

자동 분류에서 문헌을 표현하는 일반적인 방식인 BOW는 용어를 독립적으로 처리하기 때문에 주변 문맥을 반영하지 못한다는 한계가 있다. 이에 본 연구는 각 용어마다 주제범주별 문맥적 특징을 파악해 프로파일로 정의하고, 이 프로파일과 실제 문헌에서의 문맥을 비교하는 과정을 통해 동일한 형태의 용어라도 그 의미나 주제적 배경에 따라 구분하고자 하였다. 이를 통해 주제가 서로 다름에도 불구하고 특정 용어의 출현만으로 잘못된 분류 판정을 하는 문제를 극복하고자 하였다. 본 연구에서는 이러한 문맥적 요소를 용어 가중치, 분류기 결합, 자질선정의 3가지 항목에 적용해 보고 그 분류 성능을 측정했다. 그 결과, 세 경우 모두 베이스라인보다 분류 성능이 향상되었고 가장 큰 성능 향상을 보인 것은 분류기 결합이었다. 또한 제안한 방법은 학습문헌 수가 많고 적음에 따라 발생하는 성능의 편향을 완화하는데도 효과적인 것으로 나타났다.

Abstract

One of the limitations of BOW method is that each term is recognized only by its form, failing to represent the term’s meaning or thematic background. To overcome the limitation, different profiles for each term were defined by thematic categories depending on contextual characteristics. In this study, a specific term was used as a classification feature based on its meaning or thematic background through the process of comparing the context in those profiles with the occurrences in an actual document. The experiment was conducted in three phases; term weighting, ensemble classifier implementation, and feature selection. The classification performance was enhanced in all the phases with the ensemble classifier showing the highest performance score. Also, the outcome showed that the proposed method was effective in reducing the performance bias caused by the total number of learning documents.

초록보기
초록

정보관리기관은 기관의 디지털 성숙도를 효과적으로 평가하고 개선 방향을 명확히 하여 급속도로 발전하는 정보기술환경에 대응할 필요가 있다. 본 연구는 급변하는 정보환경 속에서 정보관리기관의 효과적인 평가 및 방향설정이 용이하도록 디지털 전환의 관점에서 KISTI가 개발한 디지털 큐레이션 성숙도 모델의 가중치를 도출하였다. AHP기법을 통해 모델의 대분류와 중분류에서 상대적 중요도를 가중치로서 도출하였다. 그 결과를 정리해 보면, 전체 모형의 대분류를 100점 기준으로 측정할 때 기술은 27점, 데이터는 24점, 전략은 19점, 조직(인력)은 16점, (사회적)영향력은 14점으로 계산 가능하였다. 그리고 각 대분류 내 중분류에 대해서도 세부항목 별 가중치를 각각 100점 만점을 기준으로 제시하였다. 본 연구에서 도출한 영역별 가중치를 디지털전환 성숙도 평가 모델에 적용함으로써 보다 객관적이고 합리적인 평가가 가능할 것으로 기대된다.

Abstract

In the rapidly developing information technology environment, information management organizations need to effectively evaluate their digital maturity and clarify the direction of improvement to effectively respond to rapidly changing environments. This study derived weights for the digital curation maturity model developed by KISTI from the perspective of digital transformation to facilitate effective evaluation and direction setting of information management organizations. Relative importance was derived as a weight in the major and middle categories of the model through the AHP technique. Summarizing the results, when the major categories of the entire model are measured on the basis of 100 points, technology is 27 points, data is 24 points, strategy is 19 points, organization (manpower) is 16 points, and (social) influence is calculated as 14 points. In addition, weights for each subcategory were presented for each major classification based on a perfect score of 100 points. It is expected that a more objective and reasonable evaluation will be possible by applying the weights for each area derived from this study to the digital transformation maturity evaluation model.

6
이용구(계명대학교) ; 김병규(한국과학기술정보연구원) 2011, Vol.28, No.1, pp.309-326 https://doi.org/10.3743/KOSIM.2011.28.1.309
초록보기
초록

기존 메타데이터의 품질 측정 방법은 오류가 발생한 레코드를 단순히 계수하여 그 비율로 품질을 측정하였다. 이러한 한계를 극복하기 위해 메타데이터 요소별로 상대적 중요 정도를 나타내는 가중치를 적용함으로서, 메타데이터 품질을 체계적으로 계량화 하는 측정 방법을 제시하고자 하였다. 구체적인 가중치 부여 방법으로 엔트로피, 이용자 과업, 그리고 이용 통계를 활용하였다. 또한 이들을 결합하여 통합 가중치를 제시하고 실제 서비스 되고 있는 학술지 기사 메타데이터에 적용하였다. 실험 결과, 엔트로피 가중치 방법은 데이터 자체의 특성을 잘 반영하며, 이용자 과업을 적용한 방법은 이용자의 정보요구를 해결하는 필요한 메타데이터 요소를 제시하며, 통합 가중치는 특정 메타데이터 요소의 오류에 영향을 받지 않으면서 균형 잡힌 측정값을 제시하여 계량화 방법에 적합한 것으로 나타났다.

Abstract

Most metadata quality measurement employ simple techniques by counting error records. This study presents a new quantitative measurement of metadata quality using advanced weighting schemes in order to overcome the limitations of exiting measurement techniques. Entropy, user tasks, and usage statistics were used to calculate the weights. Integrated weights were presented by combining these weights and were applied to actual journal article metadata. Entropy weights were found to reflect the characteristics of the data itself. User tasks presented the required metadata elements to solve user's information need. Integrated weights showed balanced measures without being affected by the influence of error elements, This finding indicates the new method being suitable for quantitative measurement of metadata quality.

초록보기
초록

문헌정보학 분야의 국내 학술지 논문으로 구성된 문헌집합을 대상으로 기계학습에 기초한 자동분류의 성능에 영향을 미치는 요소들을 검토하였다. 특히, 「정보관리학회지」에 수록된 논문에 주제 범주를 자동 할당하는 분류 성능 측면에서 용어 가중치부여 기법, 학습집합 크기, 분류 알고리즘, 범주 할당 방법 등 주요 요소들의 특성을 다각적인 실험을 통해 살펴보았다. 결과적으로 분류 환경 및 문헌집합의 특성에 따라 각 요소를 적절하게 적용하는 것이 효과적이며, 보다 단순한 모델의 사용으로 상당히 좋은 수준의 성능을 도출할 수 있었다. 또한, 국내 학술지 논문의 분류는 특정 논문에 하나 이상의 범주를 할당하는 복수-범주 분류(multi-label classification)가 실제 환경에 부합한다고 할 수 있다. 따라서 이러한 환경을 고려하여 단순하고 빠른 분류 알고리즘과 소규모의 학습집합을 사용하는 최적의 분류 모델을 제안하였다.

Abstract

This study examined the factors affecting the performance of automatic classification based on machine learning for domestic journal articles in the field of LIS. In particular, In view of the classification performance that assigning automatically the class labels to the articles in 「Journal of the Korean Society for Information Management」, I investigated the characteristics of the key factors(weighting schemes, training set size, classification algorithms, label assigning methods) through the diversified experiments. Consequently, It is effective to apply each element appropriately according to the classification environment and the characteristics of the document set, and a fairly good performance can be obtained by using a simpler model. In addition, the classification of domestic journals can be considered as a multi-label classification that assigns more than one category to a specific article. Therefore, I proposed an optimal classification model using simple and fast classification algorithm and small learning set considering this environment.

초록보기
초록

본 연구는 OPAC에서 계층 클러스터링을 응용하여 소장자료를 계층구조로 분류하여 열람하는데 사용될 수 있는 최적의 계층 클러스터링 모형을 찾기 위한 목적으로 수행되었다. 문헌정보학 분야 단행본과 학위논문으로 실험집단을 구축하여 다양한 색인기법(서명단어 자동색인과 통제어 통합색인)과 용어가중치 기법(절대빈도와 이진빈도), 유사도 계수(다이스, 자카드, 피어슨, 코싸인, 제곱 유클리드), 클러스터링 기법(집단간 평균연결, 집단내 평균연결, 완전연결)을 변수로 실험하였다. 연구결과 집단간 평균연결법과 제곱 유클리드 유사도를 제외하고 나머지 유사도 계수와 클러스터링 기법은 비교적 우수한 클러스터를 생성하였으나, 통제어 통합색인을 이진빈도로 가중치를 부여하여 완전연결법과 집단간 평균연결법으로 클러스터링 하였을 때 가장 좋은 클러스터가 생성되었다. 그러나 자카드 유사도 계수를 사용한 집단간 평균연결법이 십진구조와 더 유사하였다.

Abstract

This study is to develop a hiararchic clustering model for document classification and browsing in OPAC systems. Two automatic indexing techniques (with and without controlled terms), two term weighting methods (based on term frequency and binary weight), five similarity coefficients (Dice, Jaccard, Pearson, Cosine, and Squared Euclidean), and three hierarchic clustering algorithms (Between Average Linkage, Within Average Linkage, and Complete Linkage method) were tested on the document collection of 175 books and theses on library and information science. The best document clusters resulted from the Between Average Linkage or Complete Linkage method with Jaccard or Dice coefficient on the automatic indexing with controlled terms in binary vector. The clusters from Between Average Linkage with Jaccard has more likely decimal classification structure.

9
최보윤(이화여자대학교 문헌정보학과) ; 정은경(이화여자대학교) 2015, Vol.32, No.3, pp.131-154 https://doi.org/10.3743/KOSIM.2015.32.3.131
초록보기
초록

이용자 관점에서 도서관 서비스에 대한 품질 평가는 시간의 흐름과 정보기술과 같은 환경에 따라 변화한다. 따라서 도서관은 서비스 품질과 이용자 만족도를 지속적으로 측정하여 새로운 환경에 필요한 개선점을 도출할 필요가 있다. 본 연구의 목적은 국내외 대학도서관을 대상으로 LibQUAL+ 서비스 품질 평가 결과의 변화와 경향을 분석하고 개선 방향을 규명하고자 하였다. 이를 위해 국내외 대학도서관 각각 1개관을 선정하였다. 캐나다 맥길대학교 도서관은 6년간 누적된 LibQUAL+결과를 대상으로 하였으며, 국내 A대학은 2012년 결과와 본 연구에서 수행한 2015년 결과를 분석하였다. 분석방법으로는 방사형 차트, 막대 차트, 그래프를 이용하여 LibQUAL+ 22개 항목, 3개 차원에 대한 이상 기대치, 실제 인식치, 최소 기대치와 적정성 갭, 우수성 갭의 변화를 비교․분석하였다. 분석 결과는 연도별, 학부생과 대학원생의 도서관 서비스에 대한 인식수준의 변화 및 기대수준에 있어 현저한 차이가 있음을 보여주었다. 특히, A대학의 분석결과는 이용자들의 전반적인 도서관의 기대수준이 향상되었으나 이에 반해 인식수준은 낮은 것으로 나타났다. 또한 이러한 결과는 이용자의 집단(학부생, 대학원생)에 따라 큰 차이를 보였다. 따라서 대학도서관 서비스는 직원, 자원, 시설 차원에 대한 개선방안이 필요하며, 개별 이용자 그룹에 특화된 서비스 개선이 필요한 것으로 나타났다.

Abstract

Users tend to perceive differently the service quality of library depending on the advance of digital information technologies. It is necessary to analyze the cumulative results of LibQUAL+ in order to identify the suggestions for improvement of library services. This study aims to comparatively analyze the results of LibQUAL+ and demonstrate the trends and changes for the services of university library. To achieve the purpose of this study, two university libraries were selected for analysis. The library of McGill University in Canada was selected with the six years’ results of LibQUAL+. Another library located in Seoul was selected with the 2012 result of LibQUAL+ and a new LibQUAL+ in 20015 was conducted for this study. The results were analyzed with three dimensions and 22 items in terms of circular chart, bar chart, and graph. Findings of this study indicated that there were substantial differences in terms of years of LibQUAL+ survey and user groups with undergraduate/graduate students in three dimensions. In particular, the results of A library showed that users were likely to expect more from the university library, but they perceived low service quality. In addition, there was found considerable differences among users groups in terms of undergraduate and graduate students. The improvements for library services need to focus on three dimensions such as staff, resources, and facilities as well as customized services for individual user groups.

10
김정희(세종연구소 자료전산팀) ; 김태수(연세대학교) 2009, Vol.26, No.3, pp.69-87 https://doi.org/10.3743/KOSIM.2009.26.3.069
초록보기
초록

이 연구는 국내 전문도서관을 대상으로 서비스 품질 차원 변수들의 이용자 만족도에 대한 상관성, 상대적 영향력, 차별적 영향력을 분석하여 이용자 만족도의 결정요인을 찾아내고, 이를 근거로 전문도서관의 이용자 만족도를 증대시키기 위한 경영개선의 실질적 방안을 찾고자 하였다. 괴리이론을 이용한 설문조사 결과 전문도서관 이용자들의 도서관 서비스에 대한 인식은 최소치에도 미치지 못하는 것으로 나타났다. 이에 서비스 품질 차원의 변수들과 만족도 영역간의 영향력의 상관관계를 분석하여 그 결과를 근거로 이용자 만족도를 효율적으로 증대시키기 위한 경영개선의 우선순위를 제안하고자 하였다.

Abstract

By exploring plausible relations between factors of service quality and user satisfaction, this study has derived significant determinants of user satisfaction. Based on the analytical findings, this study suggested practical measures to enhance user satisfaction of special libraries. If we determine the priority order of three dimensions of service quality depending on specialized areas of special libraries, and revise the items of higher correlations with user satisfaction, then we could effectively and efficiently level up user satisfaction of special libraries.

정보관리학회지