바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: Labels, 검색결과: 14
1
이승민(Indiana University) ; 남태우(중앙대학교) ; 김성희(중앙대학교) 2006, Vol.23, No.2, pp.39-59 https://doi.org/10.3743/KOSIM.2006.23.2.039
초록보기
초록

본 연구에서는 효율적인 정보접근 도구로서의 대학 웹사이트 설계를 위한 정보구조 및 카테고리 레이블을 마련하기 위해 현재 미국 문헌정보학과 웹사이트 17개를 메인메뉴구조, 하부 카테고리, 레이블링을 기준으로 분석하였다. 분석결과 메인메뉴구조는 현재 17개 조사대상 웹사이트에서 모두 공통으로 제공하고 있는 9개 카테고리로 구성하는 것이 바람직한 것으로 나타났으며 둘째, 그 다음 수준의 서브 카테고리는 9개의 카테고리의 내용의 의미를 고려해서 35개 카테고리로 나누는 것이 바람직한 것으로 나타났다. 마지막으로 카테고리 레이블로 사용되는 용어는 17개 웹사이트에서 가장 많이 사용하고 있는 용어를 사용하는 것이 바람직한 것으로 나타났다.

Abstract

In this study we proposed a new informational structure and category labels to fully support the functions of school websites as an access tool to its contents. The proposed model was divided into three main aspects. First, main menu structure was the primary guideline to access information embedded in a website. Therefore, The proposed main menu structure consisted of 9 categories that are commonly provided by 17 existing school websites. Second, first-level categories consisted of total 35 categories under 9 main menu categories. Each category was placed under certain categories in main menu based on the relationships with the meaning of the upper level categories. Third, the proposed model adopted general and comprehensive terms as category labels. The terms used as category labels were based on the analysis of existing category labels, and the most frequently used terms were selected from the current school websites.

2
이승민(Indiana University) ; 김혜경(인천대학교) 2004, Vol.21, No.2, pp.127-152 https://doi.org/10.3743/KOSIM.2004.21.2.127
초록보기
초록

웹사이트는 기존의 정보의 저장소로서의 역할에서 벗어나 이용자와의 커뮤니케이션과 상호작용을 위한 동적인 정보접근 수단으로 변화하고 있다. 이러한 기능이 효과적으로 수행되기 위해서는, 웹사이트에 수록되는 정보는 체계적이며 이용자가 쉽게 이해할 수 있는 방식으로 조직되어야 한다. 이러한 측면은 대학 웹사이트에서는 더욱 중요한 의미를 갖게 된다. 하지만, 현재의 대학 웹사이트에서 채용하고 있는 정보구조에는 이용자의 정보요구가 반영되지 않고 있으며, 일률적인 체계로 정보를 조직함으로써 웹사이트 전체의 효용성을 저하시키고 있다. 이러한 문제를 해결하기 위해서, 본 연구는 이용자의 정보요구를 최대한 반영하고 웹사이트 전체의 정보접근성을 확보할 수 있는 대학 웹사이트의 정보구조를 제안하는데 그 목적을 두고 있다.

Abstract

In the current information environment, the concept of a website has been transformed from the repository of information to means of accessing information which can communicate and interact with users. To function well as an accessing tool to information, the information embedded in a website should be organized in a way that users can easily understand the whole informational structure. This aspect of a website might be more important to a university's website. However, the informational structures which current university's websites adopt do not reflect their users' information needs. They construct their structure uniformly, and it causes the decrease of the websites' usability. To solve these problems, this study proposes a new and systematical way of constructing a university's website which can reflect users' information needs and ensure the usability of the websites.

초록보기
초록

문헌정보학 분야의 국내 학술지 논문으로 구성된 문헌집합을 대상으로 기계학습에 기초한 자동분류의 성능에 영향을 미치는 요소들을 검토하였다. 특히, 「정보관리학회지」에 수록된 논문에 주제 범주를 자동 할당하는 분류 성능 측면에서 용어 가중치부여 기법, 학습집합 크기, 분류 알고리즘, 범주 할당 방법 등 주요 요소들의 특성을 다각적인 실험을 통해 살펴보았다. 결과적으로 분류 환경 및 문헌집합의 특성에 따라 각 요소를 적절하게 적용하는 것이 효과적이며, 보다 단순한 모델의 사용으로 상당히 좋은 수준의 성능을 도출할 수 있었다. 또한, 국내 학술지 논문의 분류는 특정 논문에 하나 이상의 범주를 할당하는 복수-범주 분류(multi-label classification)가 실제 환경에 부합한다고 할 수 있다. 따라서 이러한 환경을 고려하여 단순하고 빠른 분류 알고리즘과 소규모의 학습집합을 사용하는 최적의 분류 모델을 제안하였다.

Abstract

This study examined the factors affecting the performance of automatic classification based on machine learning for domestic journal articles in the field of LIS. In particular, In view of the classification performance that assigning automatically the class labels to the articles in 「Journal of the Korean Society for Information Management」, I investigated the characteristics of the key factors(weighting schemes, training set size, classification algorithms, label assigning methods) through the diversified experiments. Consequently, It is effective to apply each element appropriately according to the classification environment and the characteristics of the document set, and a fairly good performance can be obtained by using a simpler model. In addition, the classification of domestic journals can be considered as a multi-label classification that assigns more than one category to a specific article. Therefore, I proposed an optimal classification model using simple and fast classification algorithm and small learning set considering this environment.

4
서지웅(경북대학교 문헌정보학과) ; 김희섭(경북대학교) 2016, Vol.33, No.1, pp.181-196 https://doi.org/10.3743/KOSIM.2016.33.1.181
초록보기
초록

본 연구의 목적은 고령층을 위한 웹 사이트의 정보 구조를 조직화 체계와 레이블링 체계의 측면에서 평가하는데 있다. 본 연구의 목적을 달성하기 위하여 고령자들이 비교적 많이 이용하는 국내 웹 사이트 한 곳(네이버)을 선정하고, 실험참가자들은 주어진 세 가지의 정보탐색 과제를 수행한 후, 사후 설문과 필요한 경우 추가적인 인터뷰를 통하여 총 74명의 실험 데이터를 수집하였다. 수집된 데이터는 SPSS Ver.20으로 통계분석을 실시했다. 연구 결과를 요약하면, 실험대상으로 선정한 웹 사이트는 정보 구조의 조직화 측면에서 실험참가자들에게 긍정적인 평가를 받았는데, 특히 콘텐츠의 체계적인 주제별 분류와 시간순이나 연대순 브라우징에 대하여 긍정적이었다. 또한 실험참가자들은 단어 레이블보다 아이콘 레이블을 더 잘 이해하는 것으로 파악되었고, 이는 실험참가자 개인의 학습정도에 따라 차이가 있는 것으로 나타났다.

Abstract

The objective of this study is to evaluate the organization system and the labeling system of information architecture of a website for the elderly. To achieve this aims, we selected a representative website, i.e., Naver, and the participants were conducted given three types of search tasks using their own information literacy skills and they were answered to the questionnaire and an additional interview, if necessary. A total of 74 valid data were collected through the experiment, and we analyzed the data using SPSS Ver. 20. It revealed that Naver received a positive evaluation in the organization system aspect, particularly its systematic subject categorization and chronological browsing mechanisms. Old adults were preferred the icon-based labeling than the text-based labeling system, and showed a significant difference among their academic backgrounds.

초록보기
초록

문헌간 유사도를 자질로 사용하는 분류기에서 미분류 문헌을 학습에 활용하여 분류 성능을 높이는 방안을 모색해보았다. 자동분류를 위해서 다량의 학습문헌을 수작업으로 확보하는 것은 많은 비용이 들기 때문에 미분류 문헌의 활용은 실용적인 면에서 중요하다. 미분류 문헌을 활용하는 준지도학습 알고리즘은 대부분 수작업으로 분류된 문헌을 학습데이터로 삼아서 미분류 문헌을 분류하는 첫 번째 단계와, 수작업으로 분류된 문헌과 자동으로 분류된 문헌을 모두 학습 데이터로 삼아서 분류기를 학습시키는 두 번째 단계로 구성된다. 이 논문에서는 문헌간 유사도 자질을 적용하는 상황을 고려하여 두 가지 준지도학습 알고리즘을 검토하였다. 이중에서 1단계 준지도학습 방식은 미분류 문헌을 문헌유사도 자질 생성에만 활용하므로 간단하며, 2단계 준지도학습 방식은 미분류 문헌을 문헌유사도 자질 생성과 함께 학습 예제로도 활용하는 알고리즘이다. 지지벡터기계와 나이브베이즈 분류기를 이용한 실험 결과, 두 가지 준지도학습 방식 모두 미분류 문헌을 활용하지 않는 지도학습 방식보다 높은 성능을 보이는 것으로 나타났다. 특히 실행효율을 고려한다면 제안된 1단계 준지도학습 방식이 미분류 문헌을 활용하여 분류 성능을 높일 수 있는 좋은 방안이라는 결론을 얻었다

Abstract

This paper studies the problem of classifying documents with labeled and unlabeled learning data, especially with regards to using document similarity features. The problem of using unlabeled data is practically important because in many information systems obtaining training labels is expensive, while large quantities of unlabeled documents are readily available. There are two steps in general semi-supervised learning algorithm. First, it trains a classifier using the available labeled documents, and classifies the unlabeled documents. Then, it trains a new classifier using all the training documents which were labeled either manually or automatically. We suggested two types of semi-supervised learning algorithm with regards to using document similarity features. The one is one step semi-supervised learning which is using unlabeled documents only to generate document similarity features. And the other is two step semi-supervised learning which is using unlabeled documents as learning examples as well as similarity features. Experimental results, obtained using support vector machines and naive Bayes classifier, show that we can get improved performance with small labeled and large unlabeled documents then the performance of supervised learning which uses labeled-only data. When considering the efficiency of a classifier system, the one step semi-supervised learning algorithm which is suggested in this study could be a good solution for improving classification performance with unlabeled documents.

초록보기
초록

국내 학술회의 논문으로 구성된 문헌집합을 대상으로 기계학습에 기초한 자동분류의 성능에 영향을 미치는 요소들을 검토하였다. 특히 구현이 쉽고 컴퓨터 처리 속도가 빠른 로치오 알고리즘을 사용하여 『한국정보관리학회 학술대회 논문집』의 논문에 주제 범주를 자동 할당하는 분류 성능 측면에서 분류기 생성 방법, 학습집합 규모, 가중치부여 기법, 범주 할당 방법 등 주요 요소들의 특성을 다각적인 실험을 통해 살펴보았다. 결과적으로 분류 환경 및 문헌집합의 특성에 따라 파라미터(β, λ)와 학습집합의 크기(5년 이상)를 적절하게 적용하는 것이 효과적이며, 동등한 성능 수준이라면 보다 단순한 단일 가중치부여 기법을 사용하여 분류의 효율성을 높일 수 있음을 발견하였다. 또한 국내 학술회의 논문의 분류는 특정 논문에 하나 이상의 범주가 부여되는 복수-범주 분류(multi-label classification)가 실제 환경에 부합한다고 할 수 있으므로, 이러한 환경을 고려하여 주요 성능 요소들의 특성에 기초한 최적의 분류 모델을 개발할 필요가 있다.

Abstract

This study examined the factors affecting the performance of automatic classification for the domestic conference papers based on machine learning techniques. In particular, In view of the classification performance that assigning automatically the class labels to the papers in Proceedings of the Conference of Korean Society for Information Management using Rocchio algorithm, I investigated the characteristics of the key factors (classifier formation methods, training set size, weighting schemes, label assigning methods) through the diversified experiments. Consequently, It is more effective that apply proper parameters (β, λ) and training set size (more than 5 years) according to the classification environments and properties of the document set. and If the performance is equivalent, I discovered that the use of the more simple methods (single weighting schemes) is very efficient. Also, because the classification of domestic papers is corresponding with multi-label classification which assigning more than one label to an article, it is necessary to develop the optimum classification model based on the characteristics of the key factors in consideration of this environment.

초록보기
초록

대표적인 앙상블 기법으로서 랜덤포레스트(RF)를 문헌정보학 분야의 학술지 논문에 대한 자동분류에 적용하였다. 특히, 국내 학술지 논문에 주제 범주를 자동 할당하는 분류 성능 측면에서 트리 수, 자질선정, 학습집합 크기 등 주요 요소들에 대한 다각적인 실험을 수행하였다. 이를 통해, 실제 환경의 불균형 데이터세트(imbalanced dataset)에 대하여 랜덤포레스트(RF)의 성능을 최적화할 수 있는 방안을 모색하였다. 결과적으로 국내 학술지 논문의 자동분류에서 랜덤포레스트(RF)는 트리 수 구간 100〜1000(C)과 카이제곱통계량(CHI)으로 선정한 소규모의 자질집합(10%), 대부분의 학습집합(9〜10년)을 사용하는 경우에 가장 좋은 분류 성능을 기대할 수 있는 것으로 나타났다.

Abstract

Random Forest (RF), a representative ensemble technique, was applied to automatic classification of journal articles in the field of library and information science. Especially, I performed various experiments on the main factors such as tree number, feature selection, and learning set size in terms of classification performance that automatically assigns class labels to domestic journals. Through this, I explored ways to optimize the performance of random forests (RF) for imbalanced datasets in real environments. Consequently, for the automatic classification of domestic journal articles, Random Forest (RF) can be expected to have the best classification performance when using tree number interval 100〜1000(C), small feature set (10%) based on chi-square statistic (CHI), and most learning sets (9-10 years).

초록보기
초록

Abstract

In the current information environment, metadata interoperability has become the predominant way of organizing and managing resources. However, current approaches to metadata interoperability focus on the superficial mapping between labels of metadata elements without considering semantics of each element. This research applied facet analysis to address these difficulties in achieving metadata interoperability. By categorizing metadata elements according to these semantic and functional similarities, this research identified different types of facets: basic, conceptual, and relational. Through these different facets, a faceted framework was constructed to mediate semantic, syntactical, and structural differences across heterogeneous metadata standards.

초록보기
초록

기본의미등록기(BSR)는 전자상거래 및 EDI 관련 시스템 사이의 상호연동을 가능하게 하기 위한 등록기이다. XML 기반 BSR 등록개체들의 구조정보나 다양한 관계의 자동추출은 현재 불가능하다. 이 연구에서는 BSR에 등록되는 정보를 자원기술-프레임웍(RDF)과 웹온톨로지언어(OWL)에 기반하는 기계가독형으로 정의한 대표적인 예를 제시하고 결론적으로 5개의 기본 권고안을 도출하였다. 즉 BSR 컴포넌트 소속의 클래스 정의에서 동의어의 표현에는 OWL의 'sameAs', 유사어 표현에는 OWL의 'equivalenlClass', BSR 개념들 간의 상.하 관계 표현은 RDF 스키마의 'subClassOF', BSR의 의미단위(BSU)에 관한 정의는 RDF 스키마의 'label', 인스턴스 용례에 관한 설명은 RDF 스키마의 'comment', 각 BSU의 클래스 소속에 관한 정의는 RDF 스키마의 'domain', BSU가 취할 수 있는 데이터유형에 대한 정의는 RDF 스키마의 'range'등을 적용하며, 나아가 BSR 데이터요소의 정의에 XML 스키마의 데이터 유형을 접목시키고 BSU들 간의 상.하 관계 표현에 RDF 스키마의 'subPropertyOF'를 적용할 것을 추천하였다.

Abstract

The Basic Semantic Register(BSR) is and official ISO register designed for interoperability among eBusiness and EDI systems. The entities registered in the current BSR are not defined in a machine-understandable way, which renders automatic extraction of structural and relationship information from the register impossible. The purpose of this study is to offer a framework for designing an ontology that can provide semantic interoperability among BSR-based systems by defining data structures and relationships with RDF and OWL, similar meaning by the 'equivalentClass' construct in OWL, the hierachical relationships among classes by the 'subClassOf' construct in RDF schema, definition of any entities in BSR by the 'label' construct in RDF schema, specification of usage guidelines by the 'comment' construct in RDF schema, assignment of classes to BSU's by the 'domain' construct in RDF schema, specification of data types of BSU's by the 'range' construct in RDF schema. Hierarchical relationships among properties in BSR can be expressed using the 'subPropertyOf' in RDF schema. Progress in semantic interoperability can be expected among BSR-based systems through applications of semantic web technology suggested in this study.

초록보기
초록

본 연구에서는 의견이나 감정을 담고 있는 의견 문서들의 자동 분류 성능을 향상시키기 위하여 개념색인의 하나인 잠재의미색인 기법을 사용한 분류 실험을 수행하였다. 실험을 위해 수집한 1,000개의 의견 문서는 500개씩의 긍정 문서와 부정 문서를 포함한다. 의견 문서 텍스트의 형태소 분석을 통해 명사 형태의 내용어 집합과 용언, 부사, 어기로 구성되는 의견어 집합을 생성하였다. 각기 다른 자질 집합들을 대상으로 의견 문서를 분류한 결과 용어색인에서는 의견어 집합, 잠재의미색인에서는 내용어와 의견어를 통합한 집합, 지도적 잠재의미색인에서는 내용어 집합이 가장 좋은 성능을 보였다. 전체적으로 의견 문서의 자동 분류에서 용어색인 보다는 잠재의미색인 기법의 분류 성능이 더 좋았으며, 특히 지도적 잠재의미색인 기법을 사용할 경우 최고의 분류 성능을 보였다.

Abstract

The aim of this study is to apply latent semantic indexing(LSI) techniques for efficient automatic classification of opinionated documents. For the experiments, we collected 1,000 opinionated documents such as reviews and news, with 500 among them labelled as positive documents and the remaining 500 as negative. In this study, sets of content words and sentiment words were extracted using a POS tagger in order to identify the optimal feature set in opinion classification. Findings addressed that it was more effective to employ LSI techniques than using a term indexing method in sentiment classification. The best performance was achieved by a supervised LSI technique.

정보관리학회지