바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: Selecting, 검색결과: 9
초록보기
초록

학술지 논문에 디스크립터를 자동부여하기 위하여 기계학습 기반의 접근법을 적용하였다. 정보학 분야의 핵심 학술지를 선정하여 지난 11년간 수록된 논문들을 대상으로 문헌집단을 구성하였고, 자질 선정과 학습집합의 크기에 따른 성능을 살펴보았다. 자질 선정에서는 카이제곱 통계량(CHI)과 고빈도 선호 자질 선정 기준들(COS, GSS, JAC)을 사용하여 자질을 축소한 다음, 지지벡터기계(SVM)로 학습한 결과가 가장 좋은 성능을 보였다. 학습집합의 크기에서는 지지벡터기계(SVM)와 투표형 퍼셉트론(VPT)의 경우에는 상당한 영향을 받지만 나이브 베이즈(NB)의 경우에는 거의 영향을 받지 않는 것으로 나타났다.

Abstract

This study utilizes various approaches of machine learning in the process of automatically assigning descriptors to journal articles. After selecting core journals in the field of information science and organizing test collection from the articles of the past 11 years, the effectiveness of feature selection and the size of training set was examined. In the regard of feature selection, after reducing the feature set by χ2 statistics(CHI) and criteria which prefer high-frequency features(COS, GSS, JAC), the trained Support Vector Machines(SVM) performs the best. With respective to the size of the training set, it significantly influences the performance of Support Vector Machines(SVM) and Voted Perceptron(VTP). but it scarcely affects that of Naive Bayes(NB).

2
김수연(연세대학교) ; 정영미(연세대학교) 2006, Vol.23, No.3, pp.147-165 https://doi.org/10.3743/KOSIM.2006.23.3.147
초록보기
초록

이 연구에서는 전체 문헌집단으로부터 초기 질의어에 대한 연관용어 선정 시 사용할 수 있는 최적의 기법을 찾기 위해 연관규칙 마이닝과 용어 클러스터링 기법을 이용하여 연관용어 선정 실험을 수행하였다. 연관규칙 마이닝 기법에서는 Apriori 알고리즘을 사용하였으며, 용어 클러스터링 기법에서는 연관성 척도로 GSS 계수, 자카드계수, 코사인계수, 소칼 & 스니스 5, 상호정보량을 사용하였다. 성능평가 척도로는 연관용어 정확률과 연관용어 일치율을 사용하였으며, 실험결과 Apriori 알고리즘과 GSS 계수가 가장 좋은 성능을 나타냈다.

Abstract

In this study, experiments for selection of association terms were conducted in order to discover the optimum method in selecting additional terms that are related to an initial query term. Association term sets were generated by using support, confidence, and lift measures of the Apriori algorithm, and also by using the similarity measures such as GSS, Jaccard coefficient, cosine coefficient, and Sokal & Sneath 5, and mutual information. In performance evaluation of term selection methods, precision of association terms as well as the overlap ratio of association terms and relevant documents' indexing terms were used. It was found that Apriori algorithm and GSS achieved the highest level of performances.

3
이원영(국회기록보존소) ; 임효정(이화여자대학교) 2006, Vol.23, No.3, pp.187-204 https://doi.org/10.3743/KOSIM.2006.23.3.187
초록보기
초록

기록관리의 가장 궁극적인 목표는 기관의 기능과 활동을 역사로 남기는 것이다. 기관의 활동을 반영하는 많은 기록물들 가운데 어떤 기록물들이 장기적으로 보존할 가치가 있는가를 객관적으로 평가하여 가치 있는 기록물들만을 선별해 내는 것은 기록관리의 핵심이면서도 대단히 어려운 작업이다. 현대기록은 그 양적인 폭증 및 복잡성의 증대, 전자화 현상을 특징으로 하며, 이는 정보화 환경과 맞물려, 기록물의 전 생애주기에 걸친 관리, 통제라는 연속체적 개념의 성립을 가져 왔다. 본 연구는 장기보존할 가치가 있는 기록물을 기록물관리 초기 단계에서부터 선별하기 위한 객관적인 가이드 라인으로서 기관의 기능과 조직이라는 거시적인 요소와 개별 기록물의 내용평가(증거적가치)라는 미시적인 요소가 결합된 업무분석적 평가방안을 제안하였다.

Abstract

The main purpose of the archives is to maintain a history of the organization's functions and activities. Selecting valuable records for the permanent archives through objective appraisal from among many records that reflects the activities of organization is very important but also very difficult. The quantity and complexity of comtemporary records has rapidly expanded because of electronic storage, and with the information environment, and it is now possible to manage and control the records an entire lifetime. In this study, it is proposed the appraisal methods based on a business analysis that is combined the macro-appraisal factor and micro-appraisal factor; The former is functions and organizations as the objective guideline of selecting valuable records from the beginningand the latter is a contents appraisal (evidential value) of the individual records.

초록보기
초록

다수의 연구에서 정보추구 과정상 불 확신성(Uncertainty) 의 중요성이 지적되었지만, 실제 정보검색시스템을 이용한 탐색과정에서 이용자들의 불 확신성에 대한 연구는 많지 않았다. 본 연구는 실제로 정보를 추구하는 이용자들의 웹 검색어 선정과정에서의 불 확신성 인식을 조사하여, 정보탐색 과정에서의 다양한 불 확신성 유형을 식별하였다. 불 확신성 유형에 입각하여 발견된 불 확신성의 주요 원인(Origins)은 정보검색시스템 및 서비스 발전을 위한 시사점을 제시하여준다.

Abstract

While numerous studies have suggested the significance of uncertainty during the process of information-seeking, less research has investigated user uncertainty in the actual search process using a real system. This study investigated user perceptions of uncertainty in the process of the selection of Web search terms in the real information-seeking process. The subjects at the doctoral or post-doctoral level were limited to the discipline of science in order to understand user perceptions in this field. The findings revealed various dimensions, types, and incidents of uncertainty. The typology of uncertainty facilitated an understanding of the subjects' information-seeking context by identifying various aspects of the context that constituted the subjects’ uncertainty. The identification of two principal origins of uncertainty based on the different types of uncertainty generated implications to improve information systems and services.

초록보기
초록

학술잡지 구입 예산의 구입비용의 상승에 따른 압력으로 지난 수십년간 학술잡지의 선택에 영향을 미치는 요인들에 대한 연구가 활발히 진행되어 왔지만, 학술잡지의 선택에 대한 만족할만한 이론적 틀이 제시되지 못하였다. 이에 따라 본 연구에서는 의학도서관에서 의학분야의 학술잡지의 선택에 영향을 미치는 요인들을 확인하여 이러한 이론적 틀을 제시할 수 있는 근거를 마련코자 한다. 본 연구는 상관관계 분석과 로지스틱회귀분석을 통해 학술잡지선택의 분산을 설명하고, 나아가 예측하는 통계적 모델들을 여러 변수조합을 이용해 제시한다. 또한 이러한 모델의 실제적 적용과 향후 연구방향을 논의한다.

Abstract

Since the beginning of discussions on serial collection management, as budgets have waxed and waned over the ensuing decades, a number of key variables affecting selection/deselection have emerged but without the framework of a coherent and accepted theoretical model. This study is an effort to identify variables which affect the serial collection decision with special attention to selection/deselection in the context of an academic health science library. Based on results from correlation analyses and logistic regression analyses, the serial collection decision can be explained and predicted using various combinations of a reduced set of objective variables. Applications of the results to libraries are discussed, and further research is proposed.

초록보기
초록

본 연구는 실재 시스템 환경에서 문헌 분류를 위해 범주화 기법을 적용할 경우, 범주화 성능이 어느 정도이며, 적정한 문헌범주화 성능의 달성을 위하여 분류기 학습에 필요한 범주당 가장 이상적인 학습문헌집합의 규모는 무엇인가를 파악하기 위하여 kNN 분류기를 사용하여 실험하였다. 실험문헌집단으로15만 여건의 실제 서비스되는 데이터베이스에서 2,556건 이상의 문헌을 가진 8개 범주를 선정하였다. 이들을 대상으로 범주당 학습문헌수 20개(Tr20)에서 2,000개(Tr2000)까지 단계별로 증가시키며 8개 학습문헌집합 규모를 갖도록 하위문헌집단을 구성한 후, 학습문헌집합 규모에 따른 하위문헌집단 간 범주화 성능을 비교하였다. 8개 하위문헌집단의 거시평균 성능은 F1 값 30%로 선행연구에서 발견된 kNN 분류기의 일반적인 성능에 미치지 못하는 낮은 성능을 보였다. 실험을 수행한 8개 대상문헌집단 중 학습문헌수가 100개인 Tr100 문헌집단이 F1 값 31%로 비용대 효과면에서 분류기 학습에 필요한 최적정의 실험문헌집합수로 판단되었다. 또한, 실험문헌집단에 부여된 주제범주 정확도를 수작업 재분류를 통하여 확인한 후, 이들의 범주별 범주화 성능과 관련성을 기반으로 위 결론의 신빙성을 높였다.

Abstract

This paper examines a level of categorization performance in a reallife collection of abstract articles in the fields of science and technology, and tests the optimal size of documents per category in a training set using a kNN classifier. The corpus is built by choosing categories that hold more than 2,556 documents first, and then 2,556 documents per category are randomly selected. It is further divided into eight subsets of different size of training documents: each set is randomly selected to build training documents ranging from 20 documents (Tr20) to 2,000 documents (Tr2000) per category. The categorization performances of the 8 subsets are compared. The average performance of the eight subsets is 30% in F1 measure which is relatively poor compared to the findings of previous studies. The experimental results suggest that among the eight subsets the Tr100 appears to be the most optimal size for training a kNN classifier. In addition, the correctness of subject categories assigned to the training sets is probed by manually reclassifying the training sets in order to support the above conclusion by establishing a relation between and the correctness and categorization performance.

7
이승민(Indiana University) ; 남태우(중앙대학교) ; 김성희(중앙대학교) 2006, Vol.23, No.2, pp.39-59 https://doi.org/10.3743/KOSIM.2006.23.2.039
초록보기
초록

본 연구에서는 효율적인 정보접근 도구로서의 대학 웹사이트 설계를 위한 정보구조 및 카테고리 레이블을 마련하기 위해 현재 미국 문헌정보학과 웹사이트 17개를 메인메뉴구조, 하부 카테고리, 레이블링을 기준으로 분석하였다. 분석결과 메인메뉴구조는 현재 17개 조사대상 웹사이트에서 모두 공통으로 제공하고 있는 9개 카테고리로 구성하는 것이 바람직한 것으로 나타났으며 둘째, 그 다음 수준의 서브 카테고리는 9개의 카테고리의 내용의 의미를 고려해서 35개 카테고리로 나누는 것이 바람직한 것으로 나타났다. 마지막으로 카테고리 레이블로 사용되는 용어는 17개 웹사이트에서 가장 많이 사용하고 있는 용어를 사용하는 것이 바람직한 것으로 나타났다.

Abstract

In this study we proposed a new informational structure and category labels to fully support the functions of school websites as an access tool to its contents. The proposed model was divided into three main aspects. First, main menu structure was the primary guideline to access information embedded in a website. Therefore, The proposed main menu structure consisted of 9 categories that are commonly provided by 17 existing school websites. Second, first-level categories consisted of total 35 categories under 9 main menu categories. Each category was placed under certain categories in main menu based on the relationships with the meaning of the upper level categories. Third, the proposed model adopted general and comprehensive terms as category labels. The terms used as category labels were based on the analysis of existing category labels, and the most frequently used terms were selected from the current school websites.

8
김용광(연세대학교) ; 정영미(연세대학교) 2006, Vol.23, No.1, pp.83-98 https://doi.org/10.3743/KOSIM.2006.23.1.083
초록보기
초록

이 연구에서는 복수의 신문기사를 자동으로 요약하기 위해 문장의 의미범주를 활용한 템플리트 기반 요약 기법을 제시하였다. 먼저 학습과정에서 사건/사고 관련 신문기사의 요약문에 포함할 핵심 정보의 의미범주를 식별한 다음 템플리트를 구성하는 각 슬롯의 단서어를 선정한다. 자동요약 과정에서는 입력되는 복수의 뉴스기사들을 사건/사고 별로 범주화한 후 각 기사로부터 주요 문장을 추출하여 템플리트의 각 슬롯을 채운다. 마지막으로 문장을 단문으로 분리하여 템플리트의 내용을 수정한 후 이로부터 요약문을 작성한다. 자동 생성된 요약문을 평가한 결과 요약 정확률과 요약 재현율은 각각 0.541과 0.581로 나타났고, 요약문장 중복률은 0.116으로 나타났다.

Abstract

This study proposes a template-based method of automatic summarization of multiple news articles using the semantic categories of sentences. First, the semantic categories for core information to be included in a summary are identified from training set of documents and their summaries. Then, cue words for each slot of the template are selected for later classification of news sentences into relevant slots. When a news article is input, its event/accident category is identified, and key sentences are extracted from the news article and filled in the relevant slots. The template filled with simple sentences rather than original long sentences is used to generate a summary for an event/accident. In the user evaluation of the generated summaries, the results showed the 54.1% recall ratio and the 58.1% precision ratio in essential information extraction and 11.6% redundancy ratio.

9
정혜경(KDI국제정책대학원대학교) ; 정은주(KDI 국제정책대학원) 2006, Vol.23, No.1, pp.121-138 https://doi.org/10.3743/KOSIM.2006.23.1.121
초록보기
초록

본 연구는 학술지 평가를 위한 경제성 분석 모형을 도출하였으며, 이를 이용한 사례분석을 수행하였다. 이 모형은 비용요소에 구독비용뿐만 아니라 제본, 주문, 그리고 클레임 등의 관리에 소요되는 총 비용을 포함하였으며, 편익요소에는 이용 빈도만을 다루었던 기존의 평가 모형과는 달리 유용성을 포함하여 종합적인 분석모형을 제시하였다. 유용성은 학술지가 기관의 성격에 맞게 유용하게 활용되었는지에 따라 등급으로 평가되도록 고안되었다. 이 모형은 최근 연구에 가장 중요한 자원으로 활용되고 있는 웹 기반 전자 학술지의 통계를 토대로 측정할 수 있도록 고안되었다. KDI 국제정책대학원 도서관을 대상으로 한 사례분석에서 이용자의 연구 성과물에 활용된 학술지는 가장 높은 등급인 3점을 부여하였으며, 전문 다운로드나 검색에 활용된 학술지는 각각 2점과 1점을 부여하였다. 사례분석은 분석 결과 상위 20위에 포함되어 있는 학술지의 편익이 전체의 75%를 차지하며, 이용자의 유형별 학술지 이용 행태에 차이가 있음이 나타났다. 이 모형은 특히 전문 도서관의 사서들이 학술지의 가치를 평가할 수 있는 기본 틀을 제공할 수 있는 계기가 될 수 있을 것으로 사료된다.

Abstract

This study attempts to derive an economic analysis model for journal evaluation and conducts a case analysis based on the model. Total costs are calculated and include administrative fees (such as binding, ordering, claiming, etc.) and subscription costs. The model quantifies qualitative benefits to users, a utility that combines usage data that has also been evaluated in the existing economic analysis models. The model is designed to tallly the usage statistics of the web-based electronic journals, which have become important resources for research. Rankings are assigned based on how items are utilized to the goal of the mother institution. In the case study based on the KDI School Library, the highest ranking of 3 was assigned to journals that patrons used for citation in their outputs. For journals that were used background information, i.e. full text downloading or browsing, each was assigned ranking of 2 and 1, respectively. According to the analysis, the top 20 journals provided 75% of the entire library utility, showing different user behaviors among different cohorts. We expect that the model makes it possible for librarians to measure the value of journals. It can provide a basic tool for journal selection, particularly in special libraries with custom needs.

정보관리학회지