바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 연구성과측정, 검색결과: 107
91
김정아(가톨릭대학교 부천성모병원) ; 장혜란(상명대학교) 2016, Vol.33, No.1, pp.197-223 https://doi.org/10.3743/KOSIM.2016.33.1.197
초록보기
초록

노인 당뇨병 환자들의 정보행태를 이해하기 위하여 선행연구 고찰을 통해 관련요인을 도출하고 측정도구를 설계하여, B병원에서 치료 중인 60세 이상 당뇨병 환자들을 대상으로 구조화된 면접조사를 수행하였다(N=543). 질환에 대한 인식, 건강정보이해능력, 정보요구, 정보추구, 정보이용, 정보원 이용 애로사항, 선호 정보서비스, 개인적 배경에 대한 기본통계량과 요인간의 관계를 분석하고 가설검증을 통하여 영향요인을 구명하였다. 노인 당뇨병 환자들은 질환에 대한 인식과 건강정보이해능력이 낮으며, 질환에 대한 인식은 정보요구도, 정보이용도와 상관관계가 있고, 건강정보이해능력은 정보이용도와 상관관계가 있다. 교육경험과 유병기간에 따라 정보요구도와 정보이용도에 차이가 있고, 정보환경, 성별, 나이, 학력에 따라 정보이용도에 차이가 있는 것으로 나타났다. 연구결과를 바탕으로 질환인식 캠페인 전개, 정보지원시설 홍보활동, 집단별 정보제공과 서비스 방안 등을 제언하였다.

Abstract

The purpose of this study is to understand information behavior of older adults with diabetes. After reviewing previous research, related factors are identified and a questionnaire was devised. The structured interview was administered to the aged 60 and over in the B hospital (N=543). Data about awareness of the disease, health literacy, information environment, information need, information seeking, information use, information service, and personal background are collected and analyzed descriptively. Relationship between variables are examined and hypotheses are tested to find factors affecting information behavior. The level of the awareness of the disease and health literacy appeared to be low. It is proved that awareness of the disease is a factor affecting information need and information use. Health literacy affects information use. There is a statistical significant difference between information need and information use by disease education and duration. There is also a statistical significant difference between information use among groups divided by information environment, sex, age, and education. Based on the results, campaign to raise disease awareness, marketing promotion about information support facilities, customized information service for older adults are suggested.

92
이고은(연세대학교 대학원 문헌정보학과) ; 김기영(연세대학교 문헌정보학과) 2021, Vol.38, No.1, pp.87-112 https://doi.org/10.3743/KOSIM.2021.38.1.087
초록보기
초록

현재 공공도서관의 자원봉사자는 주로 내부 인력보충의 측면으로 관리되고 자원봉사자 관점에서의 고려가 부족하여 참여의 지속성과 경영효과가 제한적이다. 본 연구는 공공도서관 자원봉사자의 참여 동기와 지속 요인들을 검토하고 이 요인들이 자원봉사자의 만족도와 마케팅 의도에 미치는 영향을 파악하는 것을 목적으로 한다. 이를 위해 자원봉사자, 만족도, 동기요인에 대한 이론적 개념을 기반으로 각 변수에 대한 개념 및 측정요인을 확인하였으며, 자원봉사자 5명의 심층면담을 통해 연구가능성 및 고려요인을 검토하였다. 이를 바탕으로 개발된 설문지로 설문조사를 진행하여 수집된 데이터를 기반으로 통계분석을 실시하였다. 분석 결과, 자원봉사자의 참여동기와 지속 요인은 보수 등의 관리적 요인보다 정서적·심리적 요인들이 자원봉사자 만족도와 마케팅 의도에 영향을 미쳤다. 이러한 결과는 관계 중심적 관리 방식으로의 변화의 필요성을 나타내며 자원봉사자를 인력 충원의 관점으로 인식했던 것에서 더 나아가 자원봉사자의 만족을 기반으로 한 공공도서관의 마케팅 자원으로서 활용가치를 높였다는 점에서 의의가 있다.

Abstract

Volunteers in public libraries are recognized only as internal manpower, so their sustainability and effectiveness are limited because the motivation for volunteering is hardly considered. This study aims to explore the motivation for volunteering in public libraries and the factors to continuation of the volunteering, and to analyze how these factors affect volunteer satisfaction and marketing intentions. To this end, the variables in this studies including satisfaction and motivation was defined operationally based on the related research and a pilot study with several in-depth interviews. A questionnaire survey was executed with the defined variables and the survey data were analyzed statistically. The results showed that the factors of emotional and psychological motivation influenced the satisfaction and marketing intention rather than the managerial factors such as remuneration. The results indicate the need for a change in volunteer management to a relationship-oriented management method. This study is meaningful in that it expands the value of volunteers in public libraries from as managerial to as marketing resources for public libraries.

초록보기
초록

본 연구는 전국 공공도서관 이용자를 대상으로 이용자만족도 조사를 실시한 후, 현재 우리나라 공공도서관의 서비스가 이용자의 만족을 얼마나 성취하고 있는 가를 분석하고, 도서관의 서비스별 품질을 나타내는 세부항목별 요인들이 도서관의 전반적 만족도에 미치는 영향관계를 파악하고자 하였다. 이용자만족도 지표는 공공도서관에 대해 이용자들이 지각하는 도서관의 전반적인 품질을 측정할 수 있도록 설계하였으며, 6개 변인(장서, 직원, 시설, 프로그램, 온라인서비스, 정보제공정도)으로 구성되었다. 분석결과 도서관 전체 이용자만족도는 정보제공정도, 시설, 직원 변인이 높게 나타난 반면, 온라인서비스 및 프로그램 변인은 상대적으로 낮은 만족도를 보여주었다. 또한 도서관의 서비스별 품질 중 장서, 직원, 시설, 프로그램, 온라인서비스, 정보제공정도 전체 요인이 전반적 만족도에 통계적으로 유의한 영향을 미치는 것으로 나타났으며, 그 중에서 정보제공정도와 시설, 장서 요인 순으로 큰 영향력을 발휘하는 것으로 파악되었다.

Abstract

This study examines user satisfaction in public libraries nationwide. It analyzes service quality factors that affect user satisfaction of public library patrons and identify sub-factors of service quality that affect the overall user satisfaction. User satisfaction factors were developed to measure library satisfaction in all aspects of the library service. Six variables were identified, including volume of books, staff, programs, facilities, online services, and information availability. According to survey findings, general library satisfaction was strongly correlated with information availability, facilities, and staff. Relatively lower levels of satisfaction were identified in the areas of online services and programs. All six service quality factors were statistically significantly associated with user satisfaction, where information availability, facilities, and volume of books showed stronger associations than the other three factors.

초록보기
초록

본 연구는 ALA의 American Libraries 웹사이트에서 제시한 도서관 서비스 향상과 직원의 커뮤니케이션 및 협력 증진에 활용할 수 있는 10가지 방법에 대한 국내 대학도서관 사서들의 인식을 조사한 것이다. 이를 위하여 국내 25개 대학도서관의 156명의 사서를 대상으로 설문조사를 실시하여 10가지 방법에 대한 각각의 필요성과 효과성, 난이성, 발전가능성 정도를 측정하였다. 본 연구의 결과는 다음과 같다. 첫째, 도서관에서 활용할 수 있는 10가지 방법 중에는 도서관 직원을 위한 지속적 기술훈련 프로그램 제공하기와 이용자에게 맞춤형 개인화서비스 제공하기, 이용자에 대한 도서관 공지사항을 문자메시지로 전송하기가 필요성과 효과성이 모두 높다. 둘째, 10가지 방법에 대한 난이도는 이용자에게 맞춤형 개인화서비스 제공하기와 특수주제별 위키 작성하기, 도서관 직원을 위한 지속적 기술훈련 프로그램 제공하기의 순으로 높다. 셋째, 10가지 방법에 대한 발전가능성은 도서관 직원을 위한 지속적 기술훈련 프로그램 제공하기와 도서관 홈페이지의 최신정보를 자동으로 트위터에 전송하기의 순이다.

Abstract

In this study we determine the level of awareness among academic librarians of ten technological tools as outlined in American Libraries. Towards this end, we conducted a survey targeting 156 academic librarians in 25 Korean university libraries. Questionnaires were designed to determine both the viability and level of acceptance of the ten technological proposals in question. Conclusions drawn after analyzing the responses to the survey were as follows: 1) Customer service can be improved by first drawing up a list of technological skills required for staff members. Methods to develop the cataloging service to more closely match individual user preferences and the use of SMS to send alerts proved to be the proposals, of the ten that were proposed, that not only bore the greatest necessity but also proved to be the most effective once they were implemented. 2) Proposals that proved to be the most difficult to implement were: Using technology to improve the cataloging service to make it more capable of evolving according to the individual preferences of users; the special event wiki for users; and improvements in customer service arising from identifying and drawing up a list of technological skills required for staff members.

95
이재윤(명지대학교 문헌정보학과) ; 정은경(이화여자대학교 문헌정보학과) 2022, Vol.39, No.1, pp.309-330 https://doi.org/10.3743/KOSIM.2022.39.1.309
초록보기
초록

학문의 구조, 특성, 하위 분야 등을 계량적으로 규명하는 지적구조 분석 연구가 최근 급격히 증가하는 추세이다. 지적구조 분석 연구를 수행하기 위하여 전통적으로 사용되는 분석기법은 서지결합분석, 동시인용분석, 단어동시출현분석, 저자서지결합분석 등이다. 이 연구의 목적은 키워드서지결합분석(KBCA, Keyword Bibliographic Coupling Analysis)을 새로운 지적구조 분석 방식으로 제안하고자 한다. 키워드서지결합분석 기법은 저자서지결합분석의 변형으로 저자 대신에 키워드를 표지로 하여 키워드가 공유한 참고문헌의 수를 두 키워드의 주제적 결합 정도로 산정한다. 제안된 키워드서지결합분석 기법을 사용하여 Web of Science에서 검색된 ‘Open Data’ 분야의 1,366건의 논문집합을 대상으로 분석하였다. 1,366건의 논문집합에서 추출된 7회 이상 출현한 63종의 키워드를 오픈데이터 분야의 핵심 키워드로 선정하였다. 63종의 핵심 키워드를 대상으로 키워드서지결합분석 기법으로 제시된 지적구조는 열린정부와 오픈사이언스라는 주된 영역과 10개의 소주제로 규명되었다. 이에 반해 단어동시출현분석의 지적구조 네트워크는 전체 구성과 세부 영역 구조 규명에 있어 미진한 것으로 나타났다. 이러한 결과는 키워드서지결합분석이 키워드 간의 서지결합도를 사용하여 키워드 간의 관계를 풍부하게 측정하기 때문이라고 볼 수 있다.

Abstract

Intellectual structure analysis, which quantitatively identifies the structure, characteristics, and sub-domains of fields, has rapidly increased in recent years. Analysis techniques traditionally used to conduct intellectual structure analysis research include bibliographic coupling analysis, co-citation analysis, co-occurrence analysis, and author bibliographic coupling analysis. This study proposes a novel intellectual structure analysis method, Keyword Bibliographic Coupling Analysis (KBCA). The Keyword Bibliographic Coupling Analysis (KBCA) is a variation of the author bibliographic coupling analysis, which targets keywords instead of authors. It calculates the number of references shared by two keywords to the degree of coupling between the two keywords. A set of 1,366 articles in the field of ‘Open Data’ searched in the Web of Science were collected using the proposed KBCA technique. A total of 63 keywords that appeared more than 7 times, extracted from 1,366 article sets, were selected as core keywords in the open data field. The intellectual structure presented by the KBCA technique with 63 key keywords identified the main areas of open government and open science and 10 sub-areas. On the other hand, the intellectual structure network of co-occurrence word analysis was found to be insufficient in the overall structure and detailed domain structure. This result can be considered because the KBCA sufficiently measures the relationship between keywords using the degree of bibliographic coupling.

초록보기
초록

이 연구는 대학도서관의 웹사이트 실제 이용 데이터를 분석하여 이용자들의 이용행태를 분석하고, 웹사이트의 개선방안을 제안하는데 있다. 이 연구에서는 2018년 1월부터 2018년 12월까지 C대학교 웹사이트에서 이루어진 이용자들의 트래픽을 분석하여 이용행태를 분석하였다. 웹사이트의 분석 툴로는 ‘구글 애널리틱스’를 활용하였다. 웹 트래픽 변수는 세션, 사용자, 페이지뷰 수, 세션당 페이지수, 평균 세션 시간, 이탈률을 측정지표를 기준으로 이용자 일반적 특성, 사용자환경 분석, 방문 분석, 유입분석, 사이트 분석 5가지로 구분지어 분석하였다. 그 결과, 1) 이용자 일반적 특성을 분석 결과에서 웹사이트 접속 위치가 대한민국뿐만 아니라 중국에서도 일부 접속이 있었다. 2) 사용자 환경 분석에서는 주 이용 브라우저 유형은 인터넷 익스플로러로 나타났다. 다음 순위는 크롬이었으며, 3위와 4위인 Safari로 이탈률이 익스클로러나 크롬의 두 배에 달했다. 화면 해상도에서는 1920x1080 해상도가 가장 많은 비율을 차지하였으며 그 외에도 다양한 환경에서 접속하는 것으로 나타났다. 3) 유입 매체 분석에서는 직접 유입이 가장 높게 나타났다. 4) 사이트 분석에서는 총 페이지뷰 수인 4,534,084 페이지 중 최다 페이지뷰를 차지한 페이지는 메인페이지 다음으로 대출/연장/이력/예약 페이지, 학술DB 페이지, 소장자료 페이지 순으로 나타났다.

Abstract

This study analyzes the actual use data of the websites of university libraries, analyzes the users’ usage behavior, and proposes improvement measures for the websites. The study analyzed users’ traffic and analyzed their usage behavior from January 2018 to December 2018 on the C University website. The website’s analysis tool used ‘Google Analytics’. The web traffic variables were analyzed in five categories: user general characteristics, user environment analysis, visit analysis, inflow analysis, site analysis, and site analysis based on the metrics of sessions, users, page views, pages per session, average session time, and bounce rate. As a result, 1) In the analysis results of general characteristics of users, there was some access to the website not only in Korea but also in China. 2) In the user experience analysis, the main browser type appeared as Internet Explorer. The next place was Chrome, with a bounce rate of Safari, third and fourth, double that of the Explore or Chrome. In terms of screen resolution, 1920x1080 resolution accounted for the largest percentage, with access in a variety of other environments. 3) Direct inflow was the highest in the inflow media analysis. 4) The site analysis showed the most page views out of 4,534,084 pages, followed by the main page, followed by the lending/extension/history/booking page, the academic DB page, and the collection page.

97
이성인(연세대학교 교육대학원 석사과정 학생) ; 박지홍(연세대학교 문헌정보학과 교수) 2020, Vol.37, No.1, pp.51-78 https://doi.org/10.3743/KOSIM.2020.37.1.051
초록보기
초록

최근 자기주도적 학습, 평생교육이 강조되면서 교육과정에서 학교도서관의 중요성이 부각됨에 따라 학교도서관의 구조적, 제도적, 운영적 관점에서의 연구들이 주로 이루어지고 있다. 그러나 학교도서관이 자율성 기반의 자기주도적 교육 운영에 핵심적인 역할을 수행한다는 점을 고려하면 학교도서관 이용자의 자율적 내적동기와 같은 미시적인 주제에 대한 고찰이 필요하다. 이에 본 연구는 자기결정성 이론을 기반으로 학교도서관 이용 동기에는 어떠한 유형이 더 중요한지, 학교도서관 이용 동기가 서비스 품질에 미치는 영향은 어떠한지에 대해 고찰하였다. 또한 학교도서관 이용 동기와 서비스 품질 인식이 도서관 이용자의 학년에 따라 어떻게 달라지는가에 대해서도 알아보았다. 포커스 그룹 인터뷰를 통한 예비 연구를 기반으로 서울에 소재한 4개의 고등학교와 2개의 중학교 학생 588명을 대상으로 학교도서관 이용 동기가 도서관 서비스 품질 인식에 미치는 영향에 대해 설문조사를 실시하였다. 서비스 품질, 그리고 서비스 품질 요소 중 서비스 감성, 정보제어, 도서관 장소를 종속 변수로 각각 설정하였을 때, 네 가지 경우 모두 내재적 동기요인이 외재적 동기요인보다 더 많은 영향을 미치는 것으로 분석되었다. 또한 중학생과 고등학생 집단을 각각 별도의 대상으로 설정하였을 때에도 두 집단 모두 내재적 동기가 높을수록 서비스 품질을 더 높게 인식하는 것으로 나타났다. 본 연구는 자기결정성 이론을 학교도서관 서비스에 적용하였다는 점, 이론을 토대로 구분한 동기 유형의 영향력을 측정하였다는 점, 그리고 학교도서관 서비스 향상을 위해 미시적 요인에 초점을 맞추었다는 점에서 의의를 가진다.

Abstract

Recently, the emphasis on self-directed learning and lifelong education is increasing the importance of school libraries in the curriculum. Accordingly, various studies have been conducted mainly from a structural, institutional and operational point of view. However, more research is necessary on the micro topics such as school library users’ autonomous intrinsic motivations in the sense that school libraries play key roles in autonomy-based self-directed education. This study aims at finding out what types of school library use motivations are more important and the degree to which the use motivations affect the school library service quality based on the self-determination theory. In addition, this study examines how the use motivations and the perceived service quality vary depending on the school grade of the library users. Based on a focus-group-interview pilot study, a questionnaire survey was administered on the effects of school library motivations on perceived library service quality to 588 students from 5 high schools and 2 middle schools in Seoul. When the service quality and its components, service affect, information control, and library as place were set as dependent variables, in all these four cases, intrinsic motivations were more significant than extrinsic motivations. In addition, when middle school students and high school students were selected as separate analysis target groups, the results of both analyses show that the higher the intrinsic motivations were, the higher the perceived service quality was. The contribution of this study is that it applies the self-determination theory to school library service, measures the influence of motivation type based on the theoretical basis, and focuses on micro aspects to improve school library services.

98
한유경(정보통신정책연구원) ; 최원석(정보통신정책연구원) ; 이민철(카카오엔터프라이즈) 2023, Vol.40, No.2, pp.115-135 https://doi.org/10.3743/KOSIM.2023.40.2.115
초록보기
초록

본 연구는 단행본, 학술지, 보고서 등 다양한 종류의 발간물로 구성된 연구보고서의 참고문헌 데이터베이스를 효율적으로 구축하기 위한 것으로 딥러닝 언어 모델을 이용하여 참고문헌의 자동추출 성능을 비교 분석하고자 한다. 연구보고서는 학술지와는 다르게 기관마다 양식이 상이하여 참고문헌 자동추출에 어려움이 있다. 본 연구에서는 참고문헌 자동추출에 널리 사용되는 연구인 메타데이터 추출과 더불어 참고문헌과 참고문헌이 아닌 문구가 섞여 있는 환경에서 참고문헌만을 분리해내는 원문 분리 연구를 통해 이 문제를 해결하였다. 자동 추출 모델을 구축하기 위해 특정 연구기관의 연구보고서 내 참고문헌셋, 학술지 유형의 참고문헌셋, 학술지 참고문헌과 비참고문헌 문구를 병합한 데이터셋을 구성했고, 딥러닝 언어 모델인 RoBERTa+CRF와 ChatGPT를 학습시켜 메타데이터 추출과 자료유형 구분 및 원문 분리 성능을 측정하였다. 그 결과 F1-score 기준 메타데이터 추출 최대 95.41%, 자료유형 구분 및 원문 분리 최대 98.91% 성능을 달성하는 등 유의미한 결과를 얻었다. 이를 통해 비참고문헌 문구가 포함된 연구보고서의 참고문헌 추출에 대한 딥러닝 언어 모델과 데이터셋 유형별 참고문헌 구축 방향을 제안하였다.

Abstract

The purpose of this study is to assess the effectiveness of using deep learning language models to extract references automatically and create a reference database for research reports in an efficient manner. Unlike academic journals, research reports present difficulties in automatically extracting references due to variations in formatting across institutions. In this study, we addressed this issue by introducing the task of separating references from non-reference phrases, in addition to the commonly used metadata extraction task for reference extraction. The study employed datasets that included various types of references, such as those from research reports of a particular institution, academic journals, and a combination of academic journal references and non-reference texts. Two deep learning language models, namely RoBERTa+CRF and ChatGPT, were compared to evaluate their performance in automatic extraction. They were used to extract metadata, categorize data types, and separate original text. The research findings showed that the deep learning language models were highly effective, achieving maximum F1-scores of 95.41% for metadata extraction and 98.91% for categorization of data types and separation of the original text. These results provide valuable insights into the use of deep learning language models and different types of datasets for constructing reference databases for research reports including both reference and non-reference texts.

99
김현희(명지대학교) ; 안태경(대외경제정책연구원) 2003, Vol.20, No.1, pp.417-455 https://doi.org/10.3743/KOSIM.2003.20.1.417
초록보기
초록

온톨로지는 웹자원을 지식화함으로써 정보의 효율적 검색, 통합, 재사용을 도모할 수 있는 새로운 기술인 시맨틱 웹의 구현을 위한 가장 핵심적인 요소 기술로 알려지고 있다. 온톨로지는 사람간에 그리고 서로 다른 응용 시스템간에 지식을 공유하고 재이용하는 방법을 제공하는 기술로서 특정 주제에 관한 지식 용어들의 집합으로서 이들 용어뿐만 아니라 용어간의 의미적 연결 관계와 간단한 추론 규칙을 포함한다. 본 연구에서는 인터넷 웹상에서 국제기구에 관한 정보를 체계적으로 관리하고 검색하기 위해서 국제기구 온톨로지를 설계하고 이 온톨로지에 기반 하여 검색 시스템을 구현해 보고, 이 시스템을 20개의 탐색 질문들을 이용하여 기존의 인터넷 검색엔진과 적합성과 탐색 시간이라는 두 가지 요인을 통해서 비교해 보았다. 실험 결과에 의하면 적합성 측정은 온톨로지 기반 시스템은 평균 4.53, 인터넷 검색엔진은 평균 2.51로 온톨로지 기반 시스템의 적합도가 1.80배 높은 것으로 나타났다. 또한 탐색시간은 온톨로지 기반 시스템은 평균 1.96분, 인터넷 검색엔진은 평균 4.74분으로 인터넷 검색엔진이 온톨로지 기반 시스템 보다 2.42배 정도 더 많은 탐색시간이 필요한 것으로 나타났다.

Abstract

Ontologies are formal theories that are suitable for implementing the semantic web, which is a new technology that attempts to achieve effective retrieval, integration, and reuse of web resources. Ontologies provide a way of sharing and reusing knowledge among people and heterogeneous applications systems. The role of ontologies is that of making explicit specified conceptualizations. In this context, domain and generic ontologies can be shared, reused, and integrated in the analysis and design stage of information and knowledge systems. This study aims to design an ontology for international organizations, and build an Internet web retrieval system based on the proposed ontology, and finally conduct an experiment to compare the system performance of the proposed system with that of Internet search engines focusing relevance and searching time. This study found that average relevance of ontology- based searching and Internet search engines are 4.53 and 2.51, and average searching time of ontology-based searching and Internet search engines are 1.96 minutes and 4.74 minutes.

100
김용환(연세대학교) ; 정영미(연세대학교) 2012, Vol.29, No.2, pp.155-171 https://doi.org/10.3743/KOSIM.2012.29.2.155
초록보기
초록

텍스트 범주화에 있어서 일반적인 문제는 문헌을 표현하는 핵심적인 용어라도 학습문헌 집합에 나타나지 않으면 이 용어는 분류자질로 선정되지 않는다는 것과 형태가 다른 동의어들은 서로 다른 자질로 사용된다는 점이다. 이 연구에서는 위키피디아를 활용하여 문헌에 나타나는 동의어들을 하나의 분류자질로 변환하고, 학습문헌 집합에 출현하지 않은 입력문헌의 용어를 가장 유사한 학습문헌의 용어로 대체함으로써 범주화 성능을 향상시키고자 하였다. 분류자질 선정 실험에서는 (1) 비학습용어 추출 시 범주 정보의 사용여부, (2) 용어의 유사도 측정 방법(위키피디아 문서의 제목과 본문, 카테고리 정보, 링크 정보), (3) 유사도 척도(단순 공기빈도, 정규화된 공기빈도) 등 세 가지 조건을 결합하여 실험을 수행하였다. 비학습용어를 유사도 임계치 이상의 최고 유사도를 갖는 학습용어로 대체하여 kNN 분류기로 분류할 경우 모든 조건 결합에서 범주화 성능이 0.35%~1.85% 향상되었다. 실험 결과 범주화 성능이 크게 향상되지는 못하였지만 위키피디아를 활용하여 분류자질을 선정하는 방법이 효과적인 것으로 확인되었다.

Abstract

In text categorization, core terms of an input document are hardly selected as classification features if they do not occur in a training document set. Besides, synonymous terms with the same concept are usually treated as different features. This study aims to improve text categorization performance by integrating synonyms into a single feature and by replacing input terms not in the training document set with the most similar term occurring in training documents using Wikipedia. For the selection of classification features, experiments were performed in various settings composed of three different conditions: the use of category information of non-training terms, the part of Wikipedia used for measuring term-term similarity, and the type of similarity measures. The categorization performance of a kNN classifier was improved by 0.35~1.85% in F1 value in all the experimental settings when non-learning terms were replaced by the learning term with the highest similarity above the threshold value. Although the improvement ratio is not as high as expected, several semantic as well as structural devices of Wikipedia could be used for selecting more effective classification features.

정보관리학회지