바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: Selecting, 검색결과: 171
초록보기
초록

기계학습 기반 문서범주화 기법에 있어서 최적의 자질을 구성하는 것이 성능향상에 있어서 중요하다. 본 연구는 학술지 수록 논문의 필수적 구성요소인 저자 제공 키워드와 논문제목을 대상으로 자질확장에 관한 실험을 수행하였다. 자질확장은 기본적으로 선정된 자질에 기반하여 WordNet과 같은 의미기반 사전 도구를 활용하는 것이 일반적이다. 본 연구는 키워드와 논문제목을 대상으로 WordNet 동의어 관계 용어를 활용하여 자질확장을 수행하였으며, 실험 결과 문서범주화 성능이 자질확장을 적용하지 않은 결과와 비교하여 월등히 향상됨을 보여주었다. 이러한 성능향상에 긍정적인 영향을 미치는 요소로 파악된 것은 정제된 자질 기반 및 분류어 기준의 동의어 자질확장이다. 이때 용어의 중의성 해소 적용과 비적용 모두 성능향상에 영향을 미친 것으로 파악되었다. 본 연구의 결과로 키워드와 논문제목을 활용한 분류어 기준 동의어 자질 확장은 문서 범주화 성능향상에 긍정적인 요소라는 것을 제시하였다.

Abstract

Identifying optimal feature sets in Text Categorization(TC) is crucial in terms of improving the effectiveness. In this study, experiments on feature expansion were conducted using author provided keyword sets and article titles from typical scientific journal articles. The tool used for expanding feature sets is WordNet, a lexical database for English words. Given a data set and a lexical tool, this study presented that feature expansion with synonymous relationship was significantly effective on improving the results of TC. The experiment results pointed out that when expanding feature sets with synonyms using on classifier names, the effectiveness of TC was considerably improved regardless of word sense disambiguation.

2
김경선(University of Wisconsin - Madison) ; 유이은영(North Carolina Central University) ; 권나현(명지대학교) 2013, Vol.30, No.3, pp.7-21 https://doi.org/10.3743/KOSIM.2013.30.3.007
초록보기
초록

Abstract

The study examines two aspects that relate to undergraduates’ selection and use of information sources for their academic assignments: (1) sources perceived useful vs. sources frequently used, and (2) source characteristics considered important as selection criteria vs. selection criteria used as reflected in characteristics of frequently used sources. A survey of 251 undergraduate students attempted to address the gaps between what students think they should do and what they actually do with regard to source selection. Characteristics of frequently used sources were analyzed to find out the criteria used for source selection. Friends/family were among the frequently used sources although they were not perceived as useful. Unlike other sources suffering gaps between the perceived usefulness and the use behavior, Web sources were the ones not only perceived most useful but also used most frequently. When the important selection criteria were compared with the characteristic of sources used often, students did not seem to actually use the selection criteria they thought important. While students considered some characteristics related to information quality (e.g., accuracy, comprehensiveness) as important criteria for source selection, the actual criteria they applied for choosing information sources could be described as ‘convenient’ or ‘accessible’ (e.g., efficient/time saving, easy to use, familiar, accessible). Based on the findings, suggestions were made to help bridge such gaps through information literacy programs and information systems design.

초록보기
초록

이 연구는 입지선정 과정에서 다양한 집단의 의사를 반영하고 객관성 있는 입지후보지를 선정하는 방법을 제시하고자 하였다. 제안하는 도서관 입지선정 모형은 입지기준의 중요도를 측정하는 계층분석법과 구체적인 입지를 선정하는 지리정보시스템을 통해서 이루어졌고 이를 서초구에 적용하였다. 먼저, 문헌연구를 통해 도서관 입지기준을 설정하였고 설정된 기준을 계층화하였다. 계층화된 기준 중에서 서초구 환경에 적합한 기준을 추출하여 설문지를 작성하였고 이를 도서관 이용자, 전문가, 행정 공무원의 세 집단을 대상으로 설문조사를 실시했다. 일관성을 유지하고 있는 설문만을 분석하여 각 기준들의 상대적인 중요도를 측정하였다. 다음으로, 도서관 입지 배제지역을 설정하였고 입지기준들의 지도 레이어를 작성하였다. 레이어를 설문을 통해 얻은 각 기준의 상대적인 중요도를 가중치로 하여 중첩함으로써 75개 후보지를 선정하였다. 선정된 후보지들을 기준별 유사도에 따라 5개의 클러스터로 군집화했고 적합도가 낮은 한 개의 군집을 제외한 네 개의 후보지를 최종 입지후보지로 제시했다.

Abstract

This study proposes a new site selection model which reflects integrated opinions of several groups and identifies sites through objectivity of selection procedure. The proposed model consists of two parts, Analytic Hierarchy Process(AHP) and Geographic Information(GIS). This model was applied to Seocho-gu in Seoul. First, library site selection criteria were determined through literature study. Hierarchical relationship based on the questionnaire was determined and refined to be suited to Seocho-gu case. A survey was conducted with three groups, namely, library users, librarians, and public worker. A few inconsistent answers to the survey questionnaire were excluded and the relative importance of each criterion was measured. Next, an overlay method was used and the relative importance was used as a weight for selecting candidates. This process excluded the areas where a library was unable to be built, for example, rivers, military areas, other restricted areas by law, etc. and resulted in seventy-five sites. Five groups of candidates were identified according to the similarity of criteria. Finally, four groups, after eliminating one lowly fitted group, were determined.

초록보기
초록

학술지 논문에 디스크립터를 자동부여하기 위하여 기계학습 기반의 접근법을 적용하였다. 정보학 분야의 핵심 학술지를 선정하여 지난 11년간 수록된 논문들을 대상으로 문헌집단을 구성하였고, 자질 선정과 학습집합의 크기에 따른 성능을 살펴보았다. 자질 선정에서는 카이제곱 통계량(CHI)과 고빈도 선호 자질 선정 기준들(COS, GSS, JAC)을 사용하여 자질을 축소한 다음, 지지벡터기계(SVM)로 학습한 결과가 가장 좋은 성능을 보였다. 학습집합의 크기에서는 지지벡터기계(SVM)와 투표형 퍼셉트론(VPT)의 경우에는 상당한 영향을 받지만 나이브 베이즈(NB)의 경우에는 거의 영향을 받지 않는 것으로 나타났다.

Abstract

This study utilizes various approaches of machine learning in the process of automatically assigning descriptors to journal articles. After selecting core journals in the field of information science and organizing test collection from the articles of the past 11 years, the effectiveness of feature selection and the size of training set was examined. In the regard of feature selection, after reducing the feature set by χ2 statistics(CHI) and criteria which prefer high-frequency features(COS, GSS, JAC), the trained Support Vector Machines(SVM) performs the best. With respective to the size of the training set, it significantly influences the performance of Support Vector Machines(SVM) and Voted Perceptron(VTP). but it scarcely affects that of Naive Bayes(NB).

5
송성전(연세대학교) ; 정영미(연세대학교) 2012, Vol.29, No.2, pp.205-224 https://doi.org/10.3743/KOSIM.2012.29.2.205
초록보기
초록

자동 분류에서 문헌을 표현하는 일반적인 방식인 BOW는 용어를 독립적으로 처리하기 때문에 주변 문맥을 반영하지 못한다는 한계가 있다. 이에 본 연구는 각 용어마다 주제범주별 문맥적 특징을 파악해 프로파일로 정의하고, 이 프로파일과 실제 문헌에서의 문맥을 비교하는 과정을 통해 동일한 형태의 용어라도 그 의미나 주제적 배경에 따라 구분하고자 하였다. 이를 통해 주제가 서로 다름에도 불구하고 특정 용어의 출현만으로 잘못된 분류 판정을 하는 문제를 극복하고자 하였다. 본 연구에서는 이러한 문맥적 요소를 용어 가중치, 분류기 결합, 자질선정의 3가지 항목에 적용해 보고 그 분류 성능을 측정했다. 그 결과, 세 경우 모두 베이스라인보다 분류 성능이 향상되었고 가장 큰 성능 향상을 보인 것은 분류기 결합이었다. 또한 제안한 방법은 학습문헌 수가 많고 적음에 따라 발생하는 성능의 편향을 완화하는데도 효과적인 것으로 나타났다.

Abstract

One of the limitations of BOW method is that each term is recognized only by its form, failing to represent the term’s meaning or thematic background. To overcome the limitation, different profiles for each term were defined by thematic categories depending on contextual characteristics. In this study, a specific term was used as a classification feature based on its meaning or thematic background through the process of comparing the context in those profiles with the occurrences in an actual document. The experiment was conducted in three phases; term weighting, ensemble classifier implementation, and feature selection. The classification performance was enhanced in all the phases with the ensemble classifier showing the highest performance score. Also, the outcome showed that the proposed method was effective in reducing the performance bias caused by the total number of learning documents.

초록보기
초록

본 연구는 도시개발 변화에 따른 공공도서관 신축부지선정에 대한 법적 검토사항을 살펴보고, 일반적인 부지특성과 입지기준을 고찰하였다. 또한 전주시를 대상으로 적합한 부지를 선정하기 위하여, 지역주민들의 정보문화활동에 관한 각종 지표 및 통계자료를 조사하였고, 이용자 설문조사를 실시하였다. 그리고 이를 토대로 새로운 공공도서관 설립 비전과 목적을 수립하고, 부지선정 계획을 단계별로 제안하였다. 본 연구는 도서관 신축부지선정과 지방정부의 도서관정책개발 및 예산확보의 타당성 근거로 활용하는데 유용한 자료가 될 것으로 기대한다.

Abstract

In this study, various aspects of site selection for constructing new public library by development of urban community were investigated. These are legal aspects, geographical characteristics, and criteria of selecting conditions of location for new building. In order to select the suitable site in the Jeon Ju City, the various statistical data and indices with regard to information and cultural activities of the local residents and a statistical data was investigated. And also, a user question investigation was executed. The vision and objectives of establishing new pubic libraries were presented, based on the result of the study. The result of this study will help the library policy maker to develope the library policy and to secure a budget from the regional government.

7
김용환(연세대학교) ; 정영미(연세대학교) 2012, Vol.29, No.2, pp.155-171 https://doi.org/10.3743/KOSIM.2012.29.2.155
초록보기
초록

텍스트 범주화에 있어서 일반적인 문제는 문헌을 표현하는 핵심적인 용어라도 학습문헌 집합에 나타나지 않으면 이 용어는 분류자질로 선정되지 않는다는 것과 형태가 다른 동의어들은 서로 다른 자질로 사용된다는 점이다. 이 연구에서는 위키피디아를 활용하여 문헌에 나타나는 동의어들을 하나의 분류자질로 변환하고, 학습문헌 집합에 출현하지 않은 입력문헌의 용어를 가장 유사한 학습문헌의 용어로 대체함으로써 범주화 성능을 향상시키고자 하였다. 분류자질 선정 실험에서는 (1) 비학습용어 추출 시 범주 정보의 사용여부, (2) 용어의 유사도 측정 방법(위키피디아 문서의 제목과 본문, 카테고리 정보, 링크 정보), (3) 유사도 척도(단순 공기빈도, 정규화된 공기빈도) 등 세 가지 조건을 결합하여 실험을 수행하였다. 비학습용어를 유사도 임계치 이상의 최고 유사도를 갖는 학습용어로 대체하여 kNN 분류기로 분류할 경우 모든 조건 결합에서 범주화 성능이 0.35%~1.85% 향상되었다. 실험 결과 범주화 성능이 크게 향상되지는 못하였지만 위키피디아를 활용하여 분류자질을 선정하는 방법이 효과적인 것으로 확인되었다.

Abstract

In text categorization, core terms of an input document are hardly selected as classification features if they do not occur in a training document set. Besides, synonymous terms with the same concept are usually treated as different features. This study aims to improve text categorization performance by integrating synonyms into a single feature and by replacing input terms not in the training document set with the most similar term occurring in training documents using Wikipedia. For the selection of classification features, experiments were performed in various settings composed of three different conditions: the use of category information of non-training terms, the part of Wikipedia used for measuring term-term similarity, and the type of similarity measures. The categorization performance of a kNN classifier was improved by 0.35~1.85% in F1 value in all the experimental settings when non-learning terms were replaced by the learning term with the highest similarity above the threshold value. Although the improvement ratio is not as high as expected, several semantic as well as structural devices of Wikipedia could be used for selecting more effective classification features.

초록보기
초록

본 연구에서 제안하는 기법은 최대 개념강도 인지기법(Maximal Concept-Strength Recognition Method: MCR)이다. 신규 데이터베이스가 입수되어 자동분류가 필요한 경우에, 기 구축된 여러 데이터베이스 중에서 최적의 데이터베이스가 어떤 것인지 알 수 없는 상태에서 MCR 기법은 가장 유사한 데이터베이스를 선택할 수 있는 방법을 제공한다. 실험을 위해 서로 다른 4개의 학술 데이터베이스 환경을 구성하고 MCR 기법을 이용하여 최고의 성능값을 측정하였다. 실험 결과, MCR을 이용하여 최적의 데이터베이스를 정확히 선택할 수 있었으며 MCR을 이용한 자동분류 정확률도 최고치에 근접하는 결과를 보여주었다.

Abstract

The proposed method in this study is the Maximal Concept-Strength Recognition Method(MCR). In case that we don't know which database is the most suitable for automatic-classification when new database is imported, MCR method can support to select the most similar database among many databases in the legacy system. For experiments, we constructed four heterogeneous scholarly databases and measured the best performance with MCR method. In result, we retrieved the exact database expected and the precision value of MCR based automatic-classification was close to the best performance.

9
김신영(숭의여자대학) ; 이창수(경북대학교) 2004, Vol.21, No.2, pp.45-67 https://doi.org/10.3743/KOSIM.2004.21.2.045
초록보기
초록

본 연구는 인쇄잡지 중심의 소장 패러다임 대 전자잡지 위주의 접근 패러다임이 대립하는 상황에서 대학도서관의 하이브리드형 학술지 수집정책의 이론적 토대가 되는 평가요소를 분석하여 한국적 실정을 고려한 외국 학술지의 평가모형 개발에 필요한 기초자료를 마련하는데 그 목적이 있다. 구체적으로 질문지법을 통하여 학술지 수집규모 상위 40개 대학도서관의 외국학술지 선정과정에서 예비평가지표(인쇄형 27개, 전자형 37개)의 적용도를 조사하고, 그 데이터를 다양한 통계적기법으로 분석하였다. 인쇄학술지 평가지표의 요인별 상대적 중요성은 응답 평균값으로 산출하였는데 그 결과는 학과당 구독종수, 이용도, 선정권한, 전자학술지 구독조건, ISI 영향지수, 국제성과 지명도, 구독가격, ILL/DDS, 수장공간 순으로 나타났다. 한편, 전자학술지는 구독가격, 접근성, 전자학술지 구독조건, 컨소시엄, 선정권한, 접근확장성, 학과당 구독종수, 대학의 학문적 특성, ISI 영향지수, ILL/DDS, 국제성과 지명도 순으로 나타났다.

Abstract

The purposes of this study are to compare and analyze the evaluation indicators for selection of journal suggested by scholars and organizations and to prepare theoretical background for the ideal model to meet opposing paradigms of collection management in academic libraries. A web survey method was employed to investigate applications of various selection criteria (27 for printed and 37 for electronic academic Journal) from the top 40 academic libraries in Korea. In addition, data were analysed statistically using factor analysis, t-test, Analysis of Variance(ANOVA), and Spearman's Rank Oder Correlation. The mean ranking for 9 evaluation indicators for printed were as follows: subscribing volumes per departments, degree of use, selection authority, electronic/print bundle, ISI impact factor, Internationality and reputation, costs for subscription, ILL & DDS, space considerations for printed materials. But, 11 evaluation indicators for electronic were as follows: costs for subscription, accessibility, electronic/print bundle, consortia, selection authority, access expandability, subscribing volumes per departments, scholarly features of the university, ISI impact factor, ILL & DDS, internationality and reputations.

10
임진희(한국국가기록연구원) ; 전용호(명지대학교) 2009, Vol.26, No.3, pp.145-168 https://doi.org/10.3743/KOSIM.2009.26.3.145
초록보기
초록

공공설명책임성(Public Accountability) 관계를 유지하는 기본은 국민대중이 공공기관의 정보에 접근할 수 있도록 하는 공적 권리이다. 우리나라의 공공기관은 다양한 공공설명책임성 관계 속에 견제를 받고 있으며, 설명책임을 묻기 위해 공공기관에 정보 제공을 요청하는 이해당사자들의 요구는 지속적으로 증가하고 있다. 기관이 공공설명책임성을 효과적이고 효율적으로 완수하기 위해서는 정보관리 체계를 설명책임 지향의 설정(Accountability-oriented setting)으로 정비하는 것이 요구된다. 이 연구에서는 (1) 기관이 설명책임을 완수하기 위해 이해당사자들에게 제공할 ‘설명책임정보’를 기관의 중요 관리대상 정보로 선별하는 절차와 방법을 제시하고, (2) 선별된 설명책임정보를 설명책임 관계에 적합하도록 관리하기 위한 기준을 수립하는 절차와 방법을 제시하고 있다. 또한, (3) 제시한 각 절차와 방법을 대학의 정보공시 맥락에 적용하여 예시를 보여주고 있다. 이 연구에서 제시된 절차와 방법은 설명책임정보의 관리체계 수립을 위한 컨설팅의 관점에서 기술되었다.

Abstract

The basic rights of the public for sustaining public accountability relations between public sector organizations and the citizens is the accessibility to information of public sector organizations. Public organizations in Korea get checked under multiple public accountability relations, which increases steadily the information provision requests from stakeholders. To respond these requirements effectively and efficiently, public sector organizations are required to transform their information management regime to comply with accountability-oriented settings. This study (1) suggests procedures and methods to select ‘information for accountability’ from the organization's whole information as an important object to be managed, (2) suggests procedures and methods to establish control criteria for the organization to manage its information for accountability in appropriate ways, and (3) gives an example of applying the procedures and methods to the specific context of universities' information disclosure. The procedures and methods suggested are described from a viewpoint of the consulting for the accountability information management regime.

정보관리학회지