바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: classification, 검색결과: 9
1
김영범(전남대학교 대학원 기록관리학 석사) ; 장우권(전남대학교 문헌정보학과 교수) 2023, Vol.40, No.3, pp.99-118 https://doi.org/10.3743/KOSIM.2023.40.3.099
초록보기
초록

이 연구의 목적은 기록물의 맥락정보를 담고 있는 메타데이터를 활용하여 기록물 자동분류 과정에서의 성능요소를 파악하는데 있다. 연구를 위해 2022년 중앙행정기관 원문정보 약 97,064건을 수집하였다.수집한 데이터를 대상으로 다양한 분류 알고리즘과 데이터선정방법, 문헌표현기법을 적용하고 그 결과를 비교하여 기록물 자동 분류를 위한 최적의 성능요소를 파악하고자 하였다. 연구 결과 분류 알고리즘으로는 Random Forest가, 문헌표현기법으로는 TF 기법이 가장 높은 성능을 보였으며, 단위과제의 최소데이터 수량은 성능에 미치는 영향이 미미하였고 자질은 성능변화에 명확한 영향을 미친다는 것이 확인되었다.

Abstract

The objective of this study is to identify performance factors in the automatic classification of records by utilizing metadata that contains the contextual information of records. For this study, we collected 97,064 records of original textual information from Korean central administrative agencies in 2022. Various classification algorithms, data selection methods, and feature extraction techniques are applied and compared with the intent to discern the optimal performance-inducing technique. The study results demonstrated that among classification algorithms, Random Forest displayed higher performance, and among feature extraction techniques, the TF method proved to be the most effective. The minimum data quantity of unit tasks had a minimal influence on performance, and the addition of features positively affected performance, while their removal had a discernible negative impact.

초록보기
초록

이 연구는 짧은 텍스트인 서명에 단어 임베딩이 미치는 영향을 분석하기 위해 Word2vec, GloVe, fastText 모형을 이용하여 단행본 서명을 임베딩 벡터로 생성하고, 이를 분류자질로 활용하여 자동분류에 적용하였다. 분류기는 k-최근접 이웃(kNN) 알고리즘을 사용하였고 자동분류의 범주는 도서관에서 도서에 부여한 DDC 300대 강목을 기준으로 하였다. 서명에 대한 단어 임베딩을 적용한 자동분류 실험 결과, Word2vec와 fastText의 Skip-gram 모형이 TF-IDF 자질보다 kNN 분류기의 자동분류 성능에서 더 우수한 결과를 보였다. 세 모형의 다양한 하이퍼파라미터 최적화 실험에서는 fastText의 Skip-gram 모형이 전반적으로 우수한 성능을 나타냈다. 특히, 이 모형의 하이퍼파라미터로는 계층적 소프트맥스와 더 큰 임베딩 차원을 사용할수록 성능이 향상되었다. 성능 측면에서 fastText는 n-gram 방식을 사용하여 하부문자열 또는 하위단어에 대한 임베딩을 생성할 수 있어 재현율을 높이는 것으로 나타났다. 반면에 Word2vec의 Skip-gram 모형은 주로 낮은 차원(크기 300)과 작은 네거티브 샘플링 크기(3이나 5)에서 우수한 성능을 보였다.

Abstract

To analyze the impact of word embedding on book titles, this study utilized word embedding models (Word2vec, GloVe, fastText) to generate embedding vectors from book titles. These vectors were then used as classification features for automatic classification. The classifier utilized the k-nearest neighbors (kNN) algorithm, with the categories for automatic classification based on the DDC (Dewey Decimal Classification) main class 300 assigned by libraries to books. In the automatic classification experiment applying word embeddings to book titles, the Skip-gram architectures of Word2vec and fastText showed better results in the automatic classification performance of the kNN classifier compared to the TF-IDF features. In the optimization of various hyperparameters across the three models, the Skip-gram architecture of the fastText model demonstrated overall good performance. Specifically, better performance was observed when using hierarchical softmax and larger embedding dimensions as hyperparameters in this model. From a performance perspective, fastText can generate embeddings for substrings or subwords using the n-gram method, which has been shown to increase recall. The Skip-gram architecture of the Word2vec model generally showed good performance at low dimensions(size 300) and with small sizes of negative sampling (3 or 5).

3
임진솔(전북대학교 일반대학원 기록관리학과) ; 한희정(한국국토정보공사 운영지원부) ; 오효정(전북대학교) 2023, Vol.40, No.2, pp.137-156 https://doi.org/10.3743/KOSIM.2023.40.2.137
초록보기
초록

사회․정치적 패러다임의 변화에 따라 공공기관의 기관업무 및 직제는 시시각각 신설되거나 통합 또는 폐지된다. 효과적인 기록관리 관점에서는 이러한 변화를 반영하여 이전에 구축된 기록물 분류체계와 현행 업무 맥락이 적정한지 검토할 필요가 있다. 그러나 대부분 기관에서는 분류체계 재정비 과정이 실무담당자나 기관 기록물 담당자의 실무 경험적 판단에 의존한 수작업으로 진행되고 있어, 기업의 변화가 적시에 반영되거나 전체 큰 맥락을 통합적으로 파악하기가 어렵다. 이에 본 연구는 이러한 문제를 보완하고 나아가 기록의 효율적인 관리를 위해 자동화 및 지능화 기술을 활용한 기록물 분류체계 재정비 방안을 제안한다. 또한 제안된 방법론을 실제 공공기관에 적용하고, 도출된 결과물을 기관의 기능분류 담당 실무자와 면담을 수행하여 그 실효성과 한계점을 검증하였다. 이를 통해 재정비한 기록물 분류체계의 정확도와 신뢰도를 높여 기록물 관리의 표준화 실현을 도모하고자 한다.

Abstract

As social and political paradigms change, public institution tasks and structures are constantly created, integrated, or abolished. From an effective record management perspective, it is necessary to review whether the previously established record classification schemes reflect these changes and remain relevant to current tasks. However, in most institutions, the restructuring process relies on manual labor and the experiential judgment of practitioners or institutional record managers, making it difficult to reflect changes in a timely manner or comprehensively understand the overall context. To address these issues and improve the efficiency of record management, this study proposes an approach using automation and intelligence technologies to restructure the classification schemes, ensuring records are filed within an appropriate context. Furthermore, the proposed approach was applied to the target institution, its results were used as the basis for interviews with the practitioners to verify the effectiveness and limitations of the approach. It is, aiming to enhance the accuracy and reliability of the restructured record classification schemes and promote the standardization of record management.

4
양정윤(부산대학교 대학원 문헌정보학과 석사졸업, 진주교육대학교 도서관 사서) 2023, Vol.40, No.4, pp.147-165 https://doi.org/10.3743/KOSIM.2023.40.4.147
초록보기
초록

4차 산업혁명을 대표하는 신기술들이 이미 도서관 서비스에 구현이 되고 있다. 그러나 전통적인 사서 업무이자 향후 지속해야 하는 ‘분류’ 업무에 새로운 기술을 도입하여 업무 효율을 증대하고자 하는 방안 연구는 활발하지 않다. 해외 웹 버전 분류법인 WebDewey, Classification Web, UDC Online은 2000년대 초반에 개발되어 현재는 인쇄본보다 웹 버전이 더 활발히 사용되고 있고, 2018년 이후 듀이십진분류법(DDC)은 더 이상 인쇄본을 발간하지 않고 있다. 본 연구는 WebDewey, Classification Web, UDC Online 사례를 분석하고, 한국십진분류법(KDC) 웹 버전 개발을 위해 필요한 기능을 도출하여, AHP 분석을 통해 KDC 웹 버전 개발에 타당한 최종적인 기능을 제안했다.

Abstract

New technologies representing the Fourth Industrial Revolution are already being realized in library services. There is not, however, active research on measures to increase work efficiency by introducing a new technology in the work of “classification” that is part of the traditional librarian jobs they should continue in the future. The Dewey Decimal Classification (DDC) has not issued a print version since 2018. This study analyzes cases of WebDewey, Classification Web, and UDC Online. The functions required for the development of the Korean Decimal Classification (KDC) web version were derived, and the final functions suitable for the development of the KDC web version were proposed through AHP analysis.

5
김판준(신라대학교 문헌정보학과) 2023, Vol.40, No.1, pp.1-21 https://doi.org/10.3743/KOSIM.2023.40.1.001
초록보기
초록

본 연구는 텍스트 분류를 위한 효율적인 자질선정 방법으로 자질 순위화 기법의 성능을 구체적으로 검토하였다. 지금까지 자질 순위화 기법은 주로 문헌빈도에 기초한 경우가 대부분이며, 상대적으로 용어빈도를 사용한 경우는 많지 않았다. 따라서 텍스트 분류를 위한 자질선정 방법으로 용어빈도와 문헌빈도를 개별적으로 적용한 단일 순위화 기법들의 성능을 살펴본 다음, 양자를 함께 사용하는 조합 순위화 기법의 성능을 검토하였다. 구체적으로 두 개의 실험 문헌집단(Reuters-21578, 20NG)과 5개 분류기(SVM, NB, ROC, TRA, RNN)를 사용하는 환경에서 분류 실험을 진행하였고, 결과의 신뢰성 확보를 위해 5-fold cross validation과 t-test를 적용하였다. 결과적으로, 단일 순위화 기법으로는 문헌빈도 기반의 단일 순위화 기법(chi)이 전반적으로 좋은 성능을 보였다. 또한, 최고 성능의 단일 순위화 기법과 조합 순위화 기법 간에는 유의한 성능 차이가 없는 것으로 나타났다. 따라서 충분한 학습문헌을 확보할 수 있는 환경에서는 텍스트 분류의 자질선정 방법으로 문헌빈도 기반의 단일 순위화 기법(chi)을 사용하는 것이 보다 효율적이라 할 수 있다.

Abstract

This study specifically reviewed the performance of the ranking schemes as an efficient feature selection method for text classification. Until now, feature ranking schemes are mostly based on document frequency, and relatively few cases have used the term frequency. Therefore, the performance of single ranking metrics using term frequency and document frequency individually was examined as a feature selection method for text classification, and then the performance of combination ranking schemes using both was reviewed. Specifically, a classification experiment was conducted in an environment using two data sets (Reuters-21578, 20NG) and five classifiers (SVM, NB, ROC, TRA, RNN), and to secure the reliability of the results, 5-Fold cross-validation and t-test were applied. As a result, as a single ranking scheme, the document frequency-based single ranking metric (chi) showed good performance overall. In addition, it was found that there was no significant difference between the highest-performance single ranking and the combination ranking schemes. Therefore, in an environment where sufficient learning documents can be secured in text classification, it is more efficient to use a single ranking metric (chi) based on document frequency as a feature selection method.

초록보기
초록

기존의 연구자 유형 구분 모델은 대부분 연구성과 지표를 활용해왔다. 이 연구에서는 인용 영향력이 공동연구와 관련이 있다는 점을 감안하여 인용 데이터를 활용하지 않고 공동연구 지표만으로 연구자 유형을 분석하는 새로운 방법을 모색해보았다. 공동연구 패턴과 공동연구 범위를 기준으로 연구자를 Sparse & Wide (SW) 유형, Dense & Wide (DW) 유형, Dense & Narrow (DN) 유형, Sparse & Narrow (SN) 유형의 4가지로 구분하는 모델을 제안하였다. 제안된 모델을 양자계측 분야에 적용해본 결과, 구분된 연구자 유형별로 인용지표와 공저 네트워크 지표에 차이가 있음이 통계적으로 검증되었다. 이 연구에서 제시한 공동연구 특성에 따른 연구자 유형 구분 모델은 인용정보를 필요로 하지 않으므로 연구관리 정책과 연구지원서비스 측면에서 폭넓게 활용할 수 있을 것으로 기대된다.

Abstract

Traditional models for categorizing researcher types have mostly utilized research output metrics. This study proposes a new model that classifies researchers based on the characteristics of research collaboration. The model uses only research collaboration indicators and does not rely on citation data, taking into account that citation impact is related to collaborative research. The model categorizes researchers into four types based on their collaborative research pattern and scope: Sparse & Wide (SW) type, Dense & Wide (DW) type, Dense & Narrow (DN) type, Sparse & Narrow (SN) type. When applied to the quantum metrology field, the proposed model was statistically verified to show differences in citation indicators and co-author network indicators according to the classified researcher types. The proposed researcher type classification model does not require citation information. Therefore, it is expected to be widely used in research management policies and research support services.

7
김아현(중앙대학교 일반대학원 문헌정보학과 석사과정) ; 이승민(중앙대학교 사회과학대학 문헌정보학과 교수) 2023, Vol.40, No.3, pp.55-76 https://doi.org/10.3743/KOSIM.2023.40.3.055
초록보기
초록

본 연구는 대학도서관의 주제가이드 개발 및 개선을 위한 고려사항을 도출하기 위해 대학도서관의 주 이용자인 대학생을 중심으로 학술정보 탐색행태를 분석하였다. 분석 결과, 대학생들은 자신의 주관적 정보탐색능력 수준을 높게 평가하고 있었으나, 구체적인 검색어의 설정을 어려워하는 것으로 나타났다. 학술정보 이용 목적은 구체적이며, 하나의 데이터베이스에서 모든 정보탐색행위를 수행하고자 하는 경향을 보이고 있다. 또한 정보자원 선택 시 신뢰성, 적합성, 최신성을 주로 고려하고 있으며, 대학도서관 및 주제가이드에 대한 인식은 전반적으로 낮게 나타났으나 이에 대한 신뢰성은 높은 것으로 분석되었다. 이를 기반으로 향후 대학도서관에서 주제가이드를 개발하거나 개선할 때는 구체적인 정보탐색 목적에 따른 정보원 분류, 정보자원의 유형별 구성, 정보자원 선택 기준 관련 설명 요소 기술, 종합 데이터베이스에 대한 안내, 주제 키워드 추천, 도서관 마케팅 및 내부 기관과의 긴밀한 협업 관계를 고려하는 것이 필요하다.

Abstract

This study analyzed academic information seeking behavior, focusing on university students, the main users of the university library, to derive considerations for the development and improvement of the subject guide of the university library. As a result of the analysis, university students highly evaluated their subjective information seeking ability, but it was found that it was difficult to set specific search terms. The purpose of using academic information is specific, and it has been shown that there is a tendency to perform all information search activities in one database. In addition, when selecting information resources, reliability, suitability, and recency are primarily taken into consideration. Awareness of university libraries and subject guides was generally low, but their reliability was found to be high. Based on this, it is necessary to consider the classification of information sources according to specific information seeking purposes, the composition of information resources, explanatory element technology related to information resource selection criteria, comprehensive database, topic keyword recommendation, library marketing, and close cooperation with internal institutions.

초록보기
초록

정보관리기관은 기관의 디지털 성숙도를 효과적으로 평가하고 개선 방향을 명확히 하여 급속도로 발전하는 정보기술환경에 대응할 필요가 있다. 본 연구는 급변하는 정보환경 속에서 정보관리기관의 효과적인 평가 및 방향설정이 용이하도록 디지털 전환의 관점에서 KISTI가 개발한 디지털 큐레이션 성숙도 모델의 가중치를 도출하였다. AHP기법을 통해 모델의 대분류와 중분류에서 상대적 중요도를 가중치로서 도출하였다. 그 결과를 정리해 보면, 전체 모형의 대분류를 100점 기준으로 측정할 때 기술은 27점, 데이터는 24점, 전략은 19점, 조직(인력)은 16점, (사회적)영향력은 14점으로 계산 가능하였다. 그리고 각 대분류 내 중분류에 대해서도 세부항목 별 가중치를 각각 100점 만점을 기준으로 제시하였다. 본 연구에서 도출한 영역별 가중치를 디지털전환 성숙도 평가 모델에 적용함으로써 보다 객관적이고 합리적인 평가가 가능할 것으로 기대된다.

Abstract

In the rapidly developing information technology environment, information management organizations need to effectively evaluate their digital maturity and clarify the direction of improvement to effectively respond to rapidly changing environments. This study derived weights for the digital curation maturity model developed by KISTI from the perspective of digital transformation to facilitate effective evaluation and direction setting of information management organizations. Relative importance was derived as a weight in the major and middle categories of the model through the AHP technique. Summarizing the results, when the major categories of the entire model are measured on the basis of 100 points, technology is 27 points, data is 24 points, strategy is 19 points, organization (manpower) is 16 points, and (social) influence is calculated as 14 points. In addition, weights for each subcategory were presented for each major classification based on a perfect score of 100 points. It is expected that a more objective and reasonable evaluation will be possible by applying the weights for each area derived from this study to the digital transformation maturity evaluation model.

9
송영(전남대학교 문헌정보학과 박사과정) ; 김지현(전남대학교 문헌정보학과) 2023, Vol.40, No.1, pp.73-93 https://doi.org/10.3743/KOSIM.2023.40.1.073
초록보기
초록

이 연구는 국내 대학도서관에서 운영하는 유튜브 콘텐츠에 대한 내용분석과 이용자의 댓글에 대한 감성 반응 분석을 통해 국내 대학도서관들의 유튜브를 활용한 도서관 서비스에 대해 종합적인 분석과 평가를 하였다. 연구 분석대상은 61개 대학도서관의 2,169개 유튜브 콘텐츠와 이용자의 댓글 6,487개였다. 연구결과로 국내 대학도서관의 유튜브 콘텐츠는 대분류 중 ‘자료’ 콘텐츠의 수량이 가장 많고 ‘소통’ 콘텐츠와 ‘교육’ 콘텐츠가 뒤를 이었으며, ‘홍보’ 콘텐츠가 가장 적었다. 소분류 중 ‘정보서비스’ 콘텐츠의 수량이 가장 많았으며 연구지원 서비스를 주된 내용으로 수록하였다. 국내 대학도서관의 유튜브 콘텐츠를 열람한 이용자의 감성 반응에 대한 분석에서 이용자 감성 반응이 가장 높게 나타난 대분류는 ‘자료’ 콘텐츠와 ‘소통’ 콘텐츠였다. 이용자 감성 반응은 모든 범주의 콘텐츠에서 긍정 반응이 대부분이었고 부정 반응은 긍정 반응에 비하여 적었으며, 빈번히 나타난 이용자 감성 표현은 ‘좋다’였다. 또한, 이용자 감성 반응에 사용된 어휘는 유튜브 콘텐츠의 내용에 대한 표현보다 영상에 등장하는 인물에 대한 표현이 많았다. 이용자의 평가는 콘텐츠의 기술적 품질에 관한 것 평가보다 콘텐츠의 내용에 관한 것이 많았다.

Abstract

This study conducted a comprehensive analysis and evaluation of library services using YouTube through content analysis of YouTube content and emotional response analysis of user comments. This study analyzed 2,169 YouTube contents and 6,487 comments of users from 61 university libraries. The results showed that the number of ‘data’ content was the largest among 4 categories, followed by ‘communication’ and ‘education’ content, and ‘promotion’ content. Among the sub-classifications, the number of ‘information services’ contents was the largest. In the analysis of users’ emotional responses to YouTube content, the major categories of users’ emotional responses were ‘data’ content and ‘communication’ content. Most of the user’s emotional responses were positive in all categories of content, and the most frequent user emotional expression was ‘good’. In addition, the vocabulary used in the user’s emotional response was more about the person appearing in the video than the expression of the content of YouTube contents.

정보관리학회지