바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: Text Categorization, 검색결과: 2
초록보기
초록

국내 학술회의 논문으로 구성된 문헌집합을 대상으로 기계학습에 기초한 자동분류의 성능에 영향을 미치는 요소들을 검토하였다. 특히 구현이 쉽고 컴퓨터 처리 속도가 빠른 로치오 알고리즘을 사용하여 『한국정보관리학회 학술대회 논문집』의 논문에 주제 범주를 자동 할당하는 분류 성능 측면에서 분류기 생성 방법, 학습집합 규모, 가중치부여 기법, 범주 할당 방법 등 주요 요소들의 특성을 다각적인 실험을 통해 살펴보았다. 결과적으로 분류 환경 및 문헌집합의 특성에 따라 파라미터(β, λ)와 학습집합의 크기(5년 이상)를 적절하게 적용하는 것이 효과적이며, 동등한 성능 수준이라면 보다 단순한 단일 가중치부여 기법을 사용하여 분류의 효율성을 높일 수 있음을 발견하였다. 또한 국내 학술회의 논문의 분류는 특정 논문에 하나 이상의 범주가 부여되는 복수-범주 분류(multi-label classification)가 실제 환경에 부합한다고 할 수 있으므로, 이러한 환경을 고려하여 주요 성능 요소들의 특성에 기초한 최적의 분류 모델을 개발할 필요가 있다.

Abstract

This study examined the factors affecting the performance of automatic classification for the domestic conference papers based on machine learning techniques. In particular, In view of the classification performance that assigning automatically the class labels to the papers in Proceedings of the Conference of Korean Society for Information Management using Rocchio algorithm, I investigated the characteristics of the key factors (classifier formation methods, training set size, weighting schemes, label assigning methods) through the diversified experiments. Consequently, It is more effective that apply proper parameters (β, λ) and training set size (more than 5 years) according to the classification environments and properties of the document set. and If the performance is equivalent, I discovered that the use of the more simple methods (single weighting schemes) is very efficient. Also, because the classification of domestic papers is corresponding with multi-label classification which assigning more than one label to an article, it is necessary to develop the optimum classification model based on the characteristics of the key factors in consideration of this environment.

2
서지웅(경북대학교 문헌정보학과) ; 김희섭(경북대학교) 2016, Vol.33, No.1, pp.181-196 https://doi.org/10.3743/KOSIM.2016.33.1.181
초록보기
초록

본 연구의 목적은 고령층을 위한 웹 사이트의 정보 구조를 조직화 체계와 레이블링 체계의 측면에서 평가하는데 있다. 본 연구의 목적을 달성하기 위하여 고령자들이 비교적 많이 이용하는 국내 웹 사이트 한 곳(네이버)을 선정하고, 실험참가자들은 주어진 세 가지의 정보탐색 과제를 수행한 후, 사후 설문과 필요한 경우 추가적인 인터뷰를 통하여 총 74명의 실험 데이터를 수집하였다. 수집된 데이터는 SPSS Ver.20으로 통계분석을 실시했다. 연구 결과를 요약하면, 실험대상으로 선정한 웹 사이트는 정보 구조의 조직화 측면에서 실험참가자들에게 긍정적인 평가를 받았는데, 특히 콘텐츠의 체계적인 주제별 분류와 시간순이나 연대순 브라우징에 대하여 긍정적이었다. 또한 실험참가자들은 단어 레이블보다 아이콘 레이블을 더 잘 이해하는 것으로 파악되었고, 이는 실험참가자 개인의 학습정도에 따라 차이가 있는 것으로 나타났다.

Abstract

The objective of this study is to evaluate the organization system and the labeling system of information architecture of a website for the elderly. To achieve this aims, we selected a representative website, i.e., Naver, and the participants were conducted given three types of search tasks using their own information literacy skills and they were answered to the questionnaire and an additional interview, if necessary. A total of 74 valid data were collected through the experiment, and we analyzed the data using SPSS Ver. 20. It revealed that Naver received a positive evaluation in the organization system aspect, particularly its systematic subject categorization and chronological browsing mechanisms. Old adults were preferred the icon-based labeling than the text-based labeling system, and showed a significant difference among their academic backgrounds.

정보관리학회지