바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 분류, 검색결과: 125
11
남태우(중앙대학교) ; 유광연(중앙대학교) 2005, Vol.22, No.2, pp.57-85 https://doi.org/10.3743/KOSIM.2005.22.2.057
초록보기
초록

비십진식 분류법에 속하는 BC는 Henry Evelyn Bliss에 의해서 창안된 것으로, 미국에서 시작되었으나 영국에서 개정되고 현재까지 사용되고 있다. BC는 지식의 분류에 근거하여 주류를 배열했기 때문에 학구적이라는 평가를 받고 있다. 또한 기존 분류 체계 중에서는 가장 완전한 분류법으로 인정받고 있다. 그러나 우수한 분류체계임에도 불구하고, 국내에서는 분류론에 조금씩 언급되어 있을 뿐 그 연구가 체계적으로 분석된 적은 없다. 따라서 본 연구에서는 BC의 창안자인 Bliss에 대한 생애 및 사상 연구를 통해 그가 분류학 분야에 끼친 영향을 분석하고자 한다. 또한 BC에 대한 역사 및 특성 연구를 통해 그 우수성과 가치를 연구하였다. 가장 학구적이라고 평가받고 있는 BC의 연구를 통해 분류학이론에 대한 논리성 및 철학성에 대한 기반을 구축할 수 있을 것이다.

Abstract

Bliss stated that one of the purposes of the classification was to demonstrate that a coherent and comprehensive system, based on the logical principles of classification and consistent with the systems of science and education, may be available to services in libraries, to aid revision of long established classifications and to provide an adaptable, efficient and economical classification, notation and index. A fundamental principle is the idea of subordination each specific subject is subordinated to the appropriate general one. The full scheme followed the publication of two massive theoretical works on the organization of knowledge. Its main feature was the carefully designed main class order, reflecting Comte principle of gradation in speciality.

초록보기
초록

이 논문의 목적은 SVM(지지벡터기계) 분류기의 성능을 문헌간 유사도를 이용해서 향상시키는 것이다. 는 문헌 벡터 자질 표현에 기반한 SVM 문헌자동분류를 제안하였다. 제안한 방식은 분류 자질로 색인어 대신 문헌 벡터를, 자질값으로 가중치 대신 벡터유사도를 사용한다. 제안한 방식에 대한 실험 결과, SVM 분류기의 성능을 향상시킬 수 있었다. 실행 효율 향상을 위해서 문헌 벡터 자질 선정 방안과 범주 센트로이드 벡터를 사용하는 방안을 제안하였다. 실험 결과 소규모의 벡터 자질 집합만으로도 색인어 자질을 사용하는 기존 방식보다 나은 성능을 얻을 수 있었다.

Abstract

The purpose of this paper is to explore the ways to improve the performance of SVM(Support Vector Machines) text classifier using inter-document similarit ies. SVMs are powerful machine technique for automatic document classification. In this paper text categorization via SVMs aproach based on feature representation with document vectors is suggested. In this appr oach, document vectors instead stead of term weights are used as feature values. Experiments show that SVM clasifier with do cument vector features can improve the document classification performance. For the sake o f run-time efficiency, two methods are developed: One is to select document vector feature s, and the other is to use category centroid vector features instead. Experiments on these two methods show that we the performance of conventional methods with index term features.

13
최예진(이화여자대학교) ; 정연경(이화여자대학교) 2013, Vol.30, No.3, pp.49-70 https://doi.org/10.3743/KOSIM.2013.30.3.049
초록보기
초록

본 연구는 인터넷 서점의 건강분야 분류체계의 개선방안으로 이를 위해 국내․외 8곳의 인터넷 서점의 건강분야 분류체계 현황을 비교분석하고, KDC, DDC의 해당 주제 분류항목과 비교 분석하였다. 그리고 인터넷 서점의 건강분야 분류체계의 이용에 대한 이용자 면담을 진행하였다. 그 결과를 바탕으로 설계원칙을 수립하고, 인터넷 서점의 건강분야 분류체계 설계안을 개발한 후, 실무자와 전문가 평가를 받아서 건강이란 대분류 아래 11개의 중분류 항목과 60개의 소분류 항목, 16개의 세분류 항목으로 제시하였다. 본 연구의 결과는 인터넷 서점은 물론 웹상에서 건강 관련 정보를 효율적으로 분류하는 기반이 될 것이다.

Abstract

The purposes of this study are to analyze and compare current state of subject directories of the health field in eight internet bookstores in domestic and abroad. A comparative analysis was carried out for KDC and DDC, using names of subdivisions within the health field of internet bookstore. Also, user interviews to find their information needs about the health field in internet bookstore were conducted. And then, based upon the findings, this study proposed a design principle and a new classification for the health field of internet bookstores. With evaluations of the experts from the field, a final classification schedule (1 class, 11 division, 60 subdivision, and 16 section) was suggested. The results of this study can be used for a foundation of classifying health resources efficiently in internet bookstores and other web sites.

14
김송이(이화여자대학교) ; 정연경(이화여자대학교) 2014, Vol.31, No.3, pp.7-27 https://doi.org/10.3743/KOSIM.2014.31.3.007
초록보기
초록

한국십진분류법(Korea Decimal Classification) 5판에서는 건축학 분야가 건축공학과 건축술이라는 두 항목으로 나뉘어 분류되었으나 2013년 6판에서는 ‘건축, 건축학’으로 통합되었다. 본 연구는 KDC 5판과 KDC 6판의 비교 분석과 DDC, NDC, UDC의 비교 분석을 통하여 개정된 KDC 6판의 건축학 분야를 살펴보고 개선방안을 제안하였다. 주요 십진분류법과의 비교 분석결과 건축학은 항목 통합으로 인한 재분류의 필요성, 이전보다 길어진 건축사 분류번호 문제가 발생하였으며, 한국 전통 건축에 대한 분류 전개 개선이 필요한 것으로 나타나 이에 대한 개선방안을 제안하였다.

Abstract

Constructions and Architecture fields were divided into Architecture engineering and Architecture in the 5th edition of Korean Decimal Classification (KDC), but those were combined in the 6th edition of KDC published in 2013. The purposes of this study are to find problems and to suggest modifications through comparing and analyzing the 5th and the 6th editions of KDC, Dewey Decimal Classification, Nippon Decimal Classification and Universal Decimal Classification. The necessity of reclassification, a long classification number for History of Architecture and addition of categories of traditional building and architectural engineering are required to improve the 6th edition of KDC and the improvements and modifications of those problems are suggested.

초록보기
초록

소설은 학교도서관에서 학생들이 가장 많이 열람하고 대출하는 장서이다. KDC는 학생들이 원하는 다양한 소설을 찾는데 제한점을 가진다. 이에 본 연구는 도서관과 서점, 출판사 등에서 사용하고 있는 소설 분류의 다양한 사례와 중학생의 소설 이용 행태를 설문 조사하여 이용자 요구에 맞게 소설 분류 개선안을 제안하였다. KDC 기호에 더하여 소설의 장르별 색띠를 부착하여 이용자들이 손쉽게 원하는 소설을 찾을 수 있도록 하였으며 추가적인 사항은 중학생들의 소설 접근성과 발견성을 향상시키고 향후 도서관이나 서점, 출판사에서 사용하는 소설 분야 세분에 대한 참고자료로 활용될 수 있을 것이다.

Abstract

Fiction is a collection that most students read and borrow in school libraries. KDC has several limitations when students look for fiction books they need. In line with this, we surveyed various cases of fiction classifications used in libraries, bookstores, and publishers and use behaviors of fiction of middle school students. Based upon the result of the surveys, we proposed a better way of classifying fiction books according to user needs. In addition to the KDC number, color bands were attached according to genres so that users could easily find the desired books. These suggestions and other information will enhance the accessibility and discoverability to fiction books for middle school students and may be used as reference materials for fiction classification in libraries, bookstores, and publishers in the future.

초록보기
초록

이 연구에서는 한 대학도서관의 신착 도서 리스트 중 사회 과학 분야 6,253권에 대해 목차 정보를 이용하여 자동 분류를 적용하였다. 분류기는 kNN 알고리즘을 사용하였으며 자동 분류의 범주로 도서관에서 도서에 부여한 DDC 300대 강목을 사용하였다. 분류 자질은 도서의 서명과 목차를 사용하였으며, 목차는 인터넷 서점으로부터 Open API를 통해 획득하였다. 자동 분류 실험 결과, 목차 자질은 분류 재현율과 분류 정확률 모두를 향상시키는 좋은 자질임을 알 수 있었다. 또한 목차는 풍부한 자질로 불균형인 데이터의 과적합 문제를 완화시키는 것으로 나타났다. 법학과 교육학은 사회 과학 분야에서 특정성이 높아 서명 자질만으로도 좋은 분류 성능을 가져오는 점도 파악할 수 있었다.

Abstract

This study applied automatic classification using table of contents (TOC) text for 6,253 social science books from a newly arrived list collected by a university library. The k-nearest neighbors (kNN) algorithm was used as a classifier, and the ten divisions on the second level of the DDC’s main class 300 given to books by the library were used as classes (labels). The features used in this study were keywords extracted from titles and TOCs of the books. The TOCs were obtained through the OpenAPI from an Internet bookstore. As a result, it was found that the TOC features were good for improving both classification recall and precision. The TOC was shown to reduce the overfitting problem of imbalanced data with its rich features. Law and education have high topic specificity in the field of social sciences, so the only title features can bring good classification performance in these fields.

17
이용구(경북대학교 문헌정보학과) 2023, Vol.40, No.4, pp.307-327 https://doi.org/10.3743/KOSIM.2023.40.4.307
초록보기
초록

이 연구는 짧은 텍스트인 서명에 단어 임베딩이 미치는 영향을 분석하기 위해 Word2vec, GloVe, fastText 모형을 이용하여 단행본 서명을 임베딩 벡터로 생성하고, 이를 분류자질로 활용하여 자동분류에 적용하였다. 분류기는 k-최근접 이웃(kNN) 알고리즘을 사용하였고 자동분류의 범주는 도서관에서 도서에 부여한 DDC 300대 강목을 기준으로 하였다. 서명에 대한 단어 임베딩을 적용한 자동분류 실험 결과, Word2vec와 fastText의 Skip-gram 모형이 TF-IDF 자질보다 kNN 분류기의 자동분류 성능에서 더 우수한 결과를 보였다. 세 모형의 다양한 하이퍼파라미터 최적화 실험에서는 fastText의 Skip-gram 모형이 전반적으로 우수한 성능을 나타냈다. 특히, 이 모형의 하이퍼파라미터로는 계층적 소프트맥스와 더 큰 임베딩 차원을 사용할수록 성능이 향상되었다. 성능 측면에서 fastText는 n-gram 방식을 사용하여 하부문자열 또는 하위단어에 대한 임베딩을 생성할 수 있어 재현율을 높이는 것으로 나타났다. 반면에 Word2vec의 Skip-gram 모형은 주로 낮은 차원(크기 300)과 작은 네거티브 샘플링 크기(3이나 5)에서 우수한 성능을 보였다.

Abstract

To analyze the impact of word embedding on book titles, this study utilized word embedding models (Word2vec, GloVe, fastText) to generate embedding vectors from book titles. These vectors were then used as classification features for automatic classification. The classifier utilized the k-nearest neighbors (kNN) algorithm, with the categories for automatic classification based on the DDC (Dewey Decimal Classification) main class 300 assigned by libraries to books. In the automatic classification experiment applying word embeddings to book titles, the Skip-gram architectures of Word2vec and fastText showed better results in the automatic classification performance of the kNN classifier compared to the TF-IDF features. In the optimization of various hyperparameters across the three models, the Skip-gram architecture of the fastText model demonstrated overall good performance. Specifically, better performance was observed when using hierarchical softmax and larger embedding dimensions as hyperparameters in this model. From a performance perspective, fastText can generate embeddings for substrings or subwords using the n-gram method, which has been shown to increase recall. The Skip-gram architecture of the Word2vec model generally showed good performance at low dimensions(size 300) and with small sizes of negative sampling (3 or 5).

초록보기
초록

로치오 알고리즘에 기반한 자동분류의 성능 향상을 위하여 두 개의 실험집단(LISA, Reuters-21578)을 대상으로 여러 가중치부여 기법들을 검토하였다. 먼저, 가중치 산출에 사용되는 요소를 크게 문헌요소(document factor), 문헌집합 요소(document set factor), 범주 요소(category factor)의 세 가지로 구분하여 각 요소별 단일 가중치부여 기법의 분류 성능을 살펴보았고, 다음으로 이들 가중치 요소들 간의 조합 가중치부여 기법에 따른 성능을 알아보았다. 그 결과, 각 요소별로는 범주 요소가 가장 좋은 성능을 보였고, 그 다음이 문헌집합 요소, 그리고 문헌 요소가 가장 낮은 성능을 나타냈다. 가중치 요소 간의 조합에서는 일반적으로 사용되는 문헌 요소와 문헌집합 요소의 조합 가중치(tfidf or ltfidf)와 함께 문헌 요소를 포함하는 조합(tf*cat or ltf*cat) 보다는, 오히려 문헌 요소를 배제하고 문헌 집합 요소를 범주 요소와 결합한 조합 가중치 기법(idf*cat)이 가장 좋은 성능을 보였다. 그러나 실험집단 측면에서 단일 가중치와 조합 가중치를 서로 비교한 결과에 따르면, LISA에서 범주 요소만을 사용한 단일 가중치(cat only)가 가장 좋은 성능을 보인 반면, Reuters-21578에서는 문헌집합 요소와 범주 요소간의 조합 가중치(idf*cat)의 성능이 가장 우수한 것으로 나타났다. 따라서 가중치부여 기법에 대한 실제 적용에서는, 분류 대상이 되는 문헌집단 내 범주들의 특성을 신중하게 고려할 필요가 있다.

Abstract

This study examines various weighting methods for improving the performance of automatic classification based on Rocchio algorithm on two collections(LISA, Reuters-21578). First, three factors for weighting are identified as document factor, document factor, category factor for each weighting schemes, the performance of each was investigated. Second, the performance of combined weighting methods between the single schemes were examined. As a result, for the single schemes based on each factor, category-factor-based schemes showed the best performance, document set-factor-based schemes the second, and document-factor-based schemes the worst. For the combined weighting schemes, the schemes(idf*cat) which combine document set factor with category factor show better performance than the combined schemes(tf*cat or ltf*cat) which combine document factor with category factor as well as the common schemes(tfidf or ltfidf) that combining document factor with document set factor. However, according to the results of comparing the single weighting schemes with combined weighting schemes in the view of the collections, while category-factor-based schemes(cat only) perform best on LISA, the combined schemes(idf*cat) which combine document set factor with category factor showed best performance on the Reuters-21578. Therefore for the practical application of the weighting methods, it needs careful consideration of the categories in a collection for automatic classification.

초록보기
초록

본 연구는 OPAC에서 계층 클러스터링을 응용하여 소장자료를 계층구조로 분류하여 열람하는데 사용될 수 있는 최적의 계층 클러스터링 모형을 찾기 위한 목적으로 수행되었다. 문헌정보학 분야 단행본과 학위논문으로 실험집단을 구축하여 다양한 색인기법(서명단어 자동색인과 통제어 통합색인)과 용어가중치 기법(절대빈도와 이진빈도), 유사도 계수(다이스, 자카드, 피어슨, 코싸인, 제곱 유클리드), 클러스터링 기법(집단간 평균연결, 집단내 평균연결, 완전연결)을 변수로 실험하였다. 연구결과 집단간 평균연결법과 제곱 유클리드 유사도를 제외하고 나머지 유사도 계수와 클러스터링 기법은 비교적 우수한 클러스터를 생성하였으나, 통제어 통합색인을 이진빈도로 가중치를 부여하여 완전연결법과 집단간 평균연결법으로 클러스터링 하였을 때 가장 좋은 클러스터가 생성되었다. 그러나 자카드 유사도 계수를 사용한 집단간 평균연결법이 십진구조와 더 유사하였다.

Abstract

This study is to develop a hiararchic clustering model for document classification and browsing in OPAC systems. Two automatic indexing techniques (with and without controlled terms), two term weighting methods (based on term frequency and binary weight), five similarity coefficients (Dice, Jaccard, Pearson, Cosine, and Squared Euclidean), and three hierarchic clustering algorithms (Between Average Linkage, Within Average Linkage, and Complete Linkage method) were tested on the document collection of 175 books and theses on library and information science. The best document clusters resulted from the Between Average Linkage or Complete Linkage method with Jaccard or Dice coefficient on the automatic indexing with controlled terms in binary vector. The clusters from Between Average Linkage with Jaccard has more likely decimal classification structure.

초록보기
초록

문헌정보학 분야의 국내 학술지 논문으로 구성된 문헌집합을 대상으로 기계학습에 기초한 자동분류의 성능에 영향을 미치는 요소들을 검토하였다. 특히, 「정보관리학회지」에 수록된 논문에 주제 범주를 자동 할당하는 분류 성능 측면에서 용어 가중치부여 기법, 학습집합 크기, 분류 알고리즘, 범주 할당 방법 등 주요 요소들의 특성을 다각적인 실험을 통해 살펴보았다. 결과적으로 분류 환경 및 문헌집합의 특성에 따라 각 요소를 적절하게 적용하는 것이 효과적이며, 보다 단순한 모델의 사용으로 상당히 좋은 수준의 성능을 도출할 수 있었다. 또한, 국내 학술지 논문의 분류는 특정 논문에 하나 이상의 범주를 할당하는 복수-범주 분류(multi-label classification)가 실제 환경에 부합한다고 할 수 있다. 따라서 이러한 환경을 고려하여 단순하고 빠른 분류 알고리즘과 소규모의 학습집합을 사용하는 최적의 분류 모델을 제안하였다.

Abstract

This study examined the factors affecting the performance of automatic classification based on machine learning for domestic journal articles in the field of LIS. In particular, In view of the classification performance that assigning automatically the class labels to the articles in 「Journal of the Korean Society for Information Management」, I investigated the characteristics of the key factors(weighting schemes, training set size, classification algorithms, label assigning methods) through the diversified experiments. Consequently, It is effective to apply each element appropriately according to the classification environment and the characteristics of the document set, and a fairly good performance can be obtained by using a simpler model. In addition, the classification of domestic journals can be considered as a multi-label classification that assigns more than one category to a specific article. Therefore, I proposed an optimal classification model using simple and fast classification algorithm and small learning set considering this environment.

정보관리학회지