바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: classifier, 검색결과: 4
초록보기
초록

기존의 연구자 유형 구분 모델은 대부분 연구성과 지표를 활용해왔다. 이 연구에서는 인용 영향력이 공동연구와 관련이 있다는 점을 감안하여 인용 데이터를 활용하지 않고 공동연구 지표만으로 연구자 유형을 분석하는 새로운 방법을 모색해보았다. 공동연구 패턴과 공동연구 범위를 기준으로 연구자를 Sparse & Wide (SW) 유형, Dense & Wide (DW) 유형, Dense & Narrow (DN) 유형, Sparse & Narrow (SN) 유형의 4가지로 구분하는 모델을 제안하였다. 제안된 모델을 양자계측 분야에 적용해본 결과, 구분된 연구자 유형별로 인용지표와 공저 네트워크 지표에 차이가 있음이 통계적으로 검증되었다. 이 연구에서 제시한 공동연구 특성에 따른 연구자 유형 구분 모델은 인용정보를 필요로 하지 않으므로 연구관리 정책과 연구지원서비스 측면에서 폭넓게 활용할 수 있을 것으로 기대된다.

Abstract

Traditional models for categorizing researcher types have mostly utilized research output metrics. This study proposes a new model that classifies researchers based on the characteristics of research collaboration. The model uses only research collaboration indicators and does not rely on citation data, taking into account that citation impact is related to collaborative research. The model categorizes researchers into four types based on their collaborative research pattern and scope: Sparse & Wide (SW) type, Dense & Wide (DW) type, Dense & Narrow (DN) type, Sparse & Narrow (SN) type. When applied to the quantum metrology field, the proposed model was statistically verified to show differences in citation indicators and co-author network indicators according to the classified researcher types. The proposed researcher type classification model does not require citation information. Therefore, it is expected to be widely used in research management policies and research support services.

초록보기
초록

이 연구는 짧은 텍스트인 서명에 단어 임베딩이 미치는 영향을 분석하기 위해 Word2vec, GloVe, fastText 모형을 이용하여 단행본 서명을 임베딩 벡터로 생성하고, 이를 분류자질로 활용하여 자동분류에 적용하였다. 분류기는 k-최근접 이웃(kNN) 알고리즘을 사용하였고 자동분류의 범주는 도서관에서 도서에 부여한 DDC 300대 강목을 기준으로 하였다. 서명에 대한 단어 임베딩을 적용한 자동분류 실험 결과, Word2vec와 fastText의 Skip-gram 모형이 TF-IDF 자질보다 kNN 분류기의 자동분류 성능에서 더 우수한 결과를 보였다. 세 모형의 다양한 하이퍼파라미터 최적화 실험에서는 fastText의 Skip-gram 모형이 전반적으로 우수한 성능을 나타냈다. 특히, 이 모형의 하이퍼파라미터로는 계층적 소프트맥스와 더 큰 임베딩 차원을 사용할수록 성능이 향상되었다. 성능 측면에서 fastText는 n-gram 방식을 사용하여 하부문자열 또는 하위단어에 대한 임베딩을 생성할 수 있어 재현율을 높이는 것으로 나타났다. 반면에 Word2vec의 Skip-gram 모형은 주로 낮은 차원(크기 300)과 작은 네거티브 샘플링 크기(3이나 5)에서 우수한 성능을 보였다.

Abstract

To analyze the impact of word embedding on book titles, this study utilized word embedding models (Word2vec, GloVe, fastText) to generate embedding vectors from book titles. These vectors were then used as classification features for automatic classification. The classifier utilized the k-nearest neighbors (kNN) algorithm, with the categories for automatic classification based on the DDC (Dewey Decimal Classification) main class 300 assigned by libraries to books. In the automatic classification experiment applying word embeddings to book titles, the Skip-gram architectures of Word2vec and fastText showed better results in the automatic classification performance of the kNN classifier compared to the TF-IDF features. In the optimization of various hyperparameters across the three models, the Skip-gram architecture of the fastText model demonstrated overall good performance. Specifically, better performance was observed when using hierarchical softmax and larger embedding dimensions as hyperparameters in this model. From a performance perspective, fastText can generate embeddings for substrings or subwords using the n-gram method, which has been shown to increase recall. The Skip-gram architecture of the Word2vec model generally showed good performance at low dimensions(size 300) and with small sizes of negative sampling (3 or 5).

3
이호신(한성대학교 디지털인문정보학 트랙) 2023, Vol.40, No.1, pp.199-224 https://doi.org/10.3743/KOSIM.2023.40.1.199
초록보기
초록

이 연구는 도서관의 전자책 서비스가 지속되기 위한 전제 조건으로서, 전자책 라이선스의 합리적인 개선방안을 마련하기 위한 것이다. 전자책 라이선스를 둘러싸고 벌어지는 국내 도서관과 출판계의 첨예한 갈등을 이해하고, 이를 바탕으로 그 해결방안을 제안하고자 한다. 이를 위해서 전자책 대출 라이선스가 가지는 법적인 의미를 분석한다. 출판계와 도서관이 갈등을 빚는 근본적인 원인을 전자책의 특성을 함께 다루었다. 아울러 전자책 라이선스의 다양한 유형을 정리하고 우리나라를 비롯한 세계 주요 국가들(미국, 독일, 프랑스, 일본)의 도서관 전자책 라이선스 현황과 갈등의 양상을 파악하였다. 이를 바탕으로 국내의 문제를 해결하는 데 도움이 될 시사점을 제시하였다.

Abstract

The purpose of this study is to develop a reasonable improvement plan for e-book licenses as a prerequisite for the continued operation of library e-book services. The study aims to understand the fierce conflict surrounding e-book licenses between domestic libraries and the publishing industry and to propose solutions based on this understanding. To achieve this, the legal meaning of e-book licenses is analyzed, and the fundamental reasons for conflict between the publishing industry and libraries are examined in relation to the characteristics of e-books. In addition, various types of e-book licenses are classified, and the status of library e-book licenses and conflicts in major countries around the world, including Korea, the United States, Germany, France, and Japan, are investigated. Based on this, implications that can help resolve domestic issues are presented.

4
김판준(신라대학교 문헌정보학과) 2023, Vol.40, No.1, pp.1-21 https://doi.org/10.3743/KOSIM.2023.40.1.001
초록보기
초록

본 연구는 텍스트 분류를 위한 효율적인 자질선정 방법으로 자질 순위화 기법의 성능을 구체적으로 검토하였다. 지금까지 자질 순위화 기법은 주로 문헌빈도에 기초한 경우가 대부분이며, 상대적으로 용어빈도를 사용한 경우는 많지 않았다. 따라서 텍스트 분류를 위한 자질선정 방법으로 용어빈도와 문헌빈도를 개별적으로 적용한 단일 순위화 기법들의 성능을 살펴본 다음, 양자를 함께 사용하는 조합 순위화 기법의 성능을 검토하였다. 구체적으로 두 개의 실험 문헌집단(Reuters-21578, 20NG)과 5개 분류기(SVM, NB, ROC, TRA, RNN)를 사용하는 환경에서 분류 실험을 진행하였고, 결과의 신뢰성 확보를 위해 5-fold cross validation과 t-test를 적용하였다. 결과적으로, 단일 순위화 기법으로는 문헌빈도 기반의 단일 순위화 기법(chi)이 전반적으로 좋은 성능을 보였다. 또한, 최고 성능의 단일 순위화 기법과 조합 순위화 기법 간에는 유의한 성능 차이가 없는 것으로 나타났다. 따라서 충분한 학습문헌을 확보할 수 있는 환경에서는 텍스트 분류의 자질선정 방법으로 문헌빈도 기반의 단일 순위화 기법(chi)을 사용하는 것이 보다 효율적이라 할 수 있다.

Abstract

This study specifically reviewed the performance of the ranking schemes as an efficient feature selection method for text classification. Until now, feature ranking schemes are mostly based on document frequency, and relatively few cases have used the term frequency. Therefore, the performance of single ranking metrics using term frequency and document frequency individually was examined as a feature selection method for text classification, and then the performance of combination ranking schemes using both was reviewed. Specifically, a classification experiment was conducted in an environment using two data sets (Reuters-21578, 20NG) and five classifiers (SVM, NB, ROC, TRA, RNN), and to secure the reliability of the results, 5-Fold cross-validation and t-test were applied. As a result, as a single ranking scheme, the document frequency-based single ranking metric (chi) showed good performance overall. In addition, it was found that there was no significant difference between the highest-performance single ranking and the combination ranking schemes. Therefore, in an environment where sufficient learning documents can be secured in text classification, it is more efficient to use a single ranking metric (chi) based on document frequency as a feature selection method.

정보관리학회지