바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: Term Weights, 검색결과: 9
1
송성전(연세대학교) ; 정영미(연세대학교) 2012, Vol.29, No.2, pp.205-224 https://doi.org/10.3743/KOSIM.2012.29.2.205
초록보기
초록

자동 분류에서 문헌을 표현하는 일반적인 방식인 BOW는 용어를 독립적으로 처리하기 때문에 주변 문맥을 반영하지 못한다는 한계가 있다. 이에 본 연구는 각 용어마다 주제범주별 문맥적 특징을 파악해 프로파일로 정의하고, 이 프로파일과 실제 문헌에서의 문맥을 비교하는 과정을 통해 동일한 형태의 용어라도 그 의미나 주제적 배경에 따라 구분하고자 하였다. 이를 통해 주제가 서로 다름에도 불구하고 특정 용어의 출현만으로 잘못된 분류 판정을 하는 문제를 극복하고자 하였다. 본 연구에서는 이러한 문맥적 요소를 용어 가중치, 분류기 결합, 자질선정의 3가지 항목에 적용해 보고 그 분류 성능을 측정했다. 그 결과, 세 경우 모두 베이스라인보다 분류 성능이 향상되었고 가장 큰 성능 향상을 보인 것은 분류기 결합이었다. 또한 제안한 방법은 학습문헌 수가 많고 적음에 따라 발생하는 성능의 편향을 완화하는데도 효과적인 것으로 나타났다.

Abstract

One of the limitations of BOW method is that each term is recognized only by its form, failing to represent the term’s meaning or thematic background. To overcome the limitation, different profiles for each term were defined by thematic categories depending on contextual characteristics. In this study, a specific term was used as a classification feature based on its meaning or thematic background through the process of comparing the context in those profiles with the occurrences in an actual document. The experiment was conducted in three phases; term weighting, ensemble classifier implementation, and feature selection. The classification performance was enhanced in all the phases with the ensemble classifier showing the highest performance score. Also, the outcome showed that the proposed method was effective in reducing the performance bias caused by the total number of learning documents.

초록보기
초록

역문헌빈도 가중치 기법은 문헌 집단에서 출현빈도가 낮을수록 색인어의 중요도가 높다는 가정에 근거하고 있다. 그런데 이는 중간빈도어를 중요하게 여기는 여타 이론과는 일치하지 않는 것이다. 이 연구에서는 저빈도어보다 중간빈도어가 더 중요하다는 가정에 근거하여 역문헌빈도 가중치 공식을 수정한 피벗 역문헌빈도 가중치 기법을 제안하였다. 제안된 기법을 검증하기 위해서 세 실험집단을 대상으로 검색실험을 수행한 결과. 피벗 역문헌빈도 가중치기법이 역문헌빈도 가중치 기법에 비해서 특히 검색결과 상위에서의 성능을 향상시키는 것으로 나타났다.

Abstract

The Inverse Document Frequency (IDF) weighting method is based on the hypothesis that in the document collection the lower the frequency of a term is, the more important the term is as a subject word. This well-known hypothesis is, however, somewhat questionable because some low frequency terms turn out to be insufficient subject words. This study suggests the pivoted IDF weighting method for better retrieval effectiveness, on the assumption that medium frequency terms are more important than low frequency terms. We thoroughly evaluated this method on three test collections and it showed performance improvements especially at high ranks.

초록보기
초록

로치오 알고리즘에 기반한 자동분류의 성능 향상을 위하여 두 개의 실험집단(LISA, Reuters-21578)을 대상으로 여러 가중치부여 기법들을 검토하였다. 먼저, 가중치 산출에 사용되는 요소를 크게 문헌요소(document factor), 문헌집합 요소(document set factor), 범주 요소(category factor)의 세 가지로 구분하여 각 요소별 단일 가중치부여 기법의 분류 성능을 살펴보았고, 다음으로 이들 가중치 요소들 간의 조합 가중치부여 기법에 따른 성능을 알아보았다. 그 결과, 각 요소별로는 범주 요소가 가장 좋은 성능을 보였고, 그 다음이 문헌집합 요소, 그리고 문헌 요소가 가장 낮은 성능을 나타냈다. 가중치 요소 간의 조합에서는 일반적으로 사용되는 문헌 요소와 문헌집합 요소의 조합 가중치(tfidf or ltfidf)와 함께 문헌 요소를 포함하는 조합(tf*cat or ltf*cat) 보다는, 오히려 문헌 요소를 배제하고 문헌 집합 요소를 범주 요소와 결합한 조합 가중치 기법(idf*cat)이 가장 좋은 성능을 보였다. 그러나 실험집단 측면에서 단일 가중치와 조합 가중치를 서로 비교한 결과에 따르면, LISA에서 범주 요소만을 사용한 단일 가중치(cat only)가 가장 좋은 성능을 보인 반면, Reuters-21578에서는 문헌집합 요소와 범주 요소간의 조합 가중치(idf*cat)의 성능이 가장 우수한 것으로 나타났다. 따라서 가중치부여 기법에 대한 실제 적용에서는, 분류 대상이 되는 문헌집단 내 범주들의 특성을 신중하게 고려할 필요가 있다.

Abstract

This study examines various weighting methods for improving the performance of automatic classification based on Rocchio algorithm on two collections(LISA, Reuters-21578). First, three factors for weighting are identified as document factor, document factor, category factor for each weighting schemes, the performance of each was investigated. Second, the performance of combined weighting methods between the single schemes were examined. As a result, for the single schemes based on each factor, category-factor-based schemes showed the best performance, document set-factor-based schemes the second, and document-factor-based schemes the worst. For the combined weighting schemes, the schemes(idf*cat) which combine document set factor with category factor show better performance than the combined schemes(tf*cat or ltf*cat) which combine document factor with category factor as well as the common schemes(tfidf or ltfidf) that combining document factor with document set factor. However, according to the results of comparing the single weighting schemes with combined weighting schemes in the view of the collections, while category-factor-based schemes(cat only) perform best on LISA, the combined schemes(idf*cat) which combine document set factor with category factor showed best performance on the Reuters-21578. Therefore for the practical application of the weighting methods, it needs careful consideration of the categories in a collection for automatic classification.

초록보기
초록

본 연구는 OPAC에서 계층 클러스터링을 응용하여 소장자료를 계층구조로 분류하여 열람하는데 사용될 수 있는 최적의 계층 클러스터링 모형을 찾기 위한 목적으로 수행되었다. 문헌정보학 분야 단행본과 학위논문으로 실험집단을 구축하여 다양한 색인기법(서명단어 자동색인과 통제어 통합색인)과 용어가중치 기법(절대빈도와 이진빈도), 유사도 계수(다이스, 자카드, 피어슨, 코싸인, 제곱 유클리드), 클러스터링 기법(집단간 평균연결, 집단내 평균연결, 완전연결)을 변수로 실험하였다. 연구결과 집단간 평균연결법과 제곱 유클리드 유사도를 제외하고 나머지 유사도 계수와 클러스터링 기법은 비교적 우수한 클러스터를 생성하였으나, 통제어 통합색인을 이진빈도로 가중치를 부여하여 완전연결법과 집단간 평균연결법으로 클러스터링 하였을 때 가장 좋은 클러스터가 생성되었다. 그러나 자카드 유사도 계수를 사용한 집단간 평균연결법이 십진구조와 더 유사하였다.

Abstract

This study is to develop a hiararchic clustering model for document classification and browsing in OPAC systems. Two automatic indexing techniques (with and without controlled terms), two term weighting methods (based on term frequency and binary weight), five similarity coefficients (Dice, Jaccard, Pearson, Cosine, and Squared Euclidean), and three hierarchic clustering algorithms (Between Average Linkage, Within Average Linkage, and Complete Linkage method) were tested on the document collection of 175 books and theses on library and information science. The best document clusters resulted from the Between Average Linkage or Complete Linkage method with Jaccard or Dice coefficient on the automatic indexing with controlled terms in binary vector. The clusters from Between Average Linkage with Jaccard has more likely decimal classification structure.

초록보기
초록

본 연구에서는 데이터베이스평가요소 중요도를 산출하기 위해 AHP기법 활용에 대한 연구를 수행하였다. 먼저 데이터베이스 평가를 위해 적용 가능한 기법들을 살펴본 후 데이터평가요소 일부를 AHP기법을 이용하여 중요도를 산출하였다. 그 결과 AHP기법을 활용할 경우 평가요소의 중요도를 상대적으로 평가할 수 있었다. 이런 연구결과는 앞으로 특정목적에 따른 상대적인 DB평가에 활용될 수 있을 것이다.

Abstract

This study examined weight techniques for applying to DB evaluation This study, then analyzed DB evaluation criteria in terms of category, content, and business model. Finally, it showed the use example of AHP technique to rank the important evaluation factors. These results will be used to evaluate factors which we significant in determining how well the given DB is appropriate in your environment.

초록보기
초록

이 논문의 목적은 SVM(지지벡터기계) 분류기의 성능을 문헌간 유사도를 이용해서 향상시키는 것이다. 는 문헌 벡터 자질 표현에 기반한 SVM 문헌자동분류를 제안하였다. 제안한 방식은 분류 자질로 색인어 대신 문헌 벡터를, 자질값으로 가중치 대신 벡터유사도를 사용한다. 제안한 방식에 대한 실험 결과, SVM 분류기의 성능을 향상시킬 수 있었다. 실행 효율 향상을 위해서 문헌 벡터 자질 선정 방안과 범주 센트로이드 벡터를 사용하는 방안을 제안하였다. 실험 결과 소규모의 벡터 자질 집합만으로도 색인어 자질을 사용하는 기존 방식보다 나은 성능을 얻을 수 있었다.

Abstract

The purpose of this paper is to explore the ways to improve the performance of SVM(Support Vector Machines) text classifier using inter-document similarit ies. SVMs are powerful machine technique for automatic document classification. In this paper text categorization via SVMs aproach based on feature representation with document vectors is suggested. In this appr oach, document vectors instead stead of term weights are used as feature values. Experiments show that SVM clasifier with do cument vector features can improve the document classification performance. For the sake o f run-time efficiency, two methods are developed: One is to select document vector feature s, and the other is to use category centroid vector features instead. Experiments on these two methods show that we the performance of conventional methods with index term features.

초록보기
초록

스피치 요약을 생성하는데 있어서 두 가지 중요한 측면은 스피치에서 핵심 내용을 추출하는 것과 추출한 내용을 효과적으로 표현하는 것이다. 본 연구는 강의 자료의 스피치 요약의 자동 생성을 위해서 스피치 자막이 없는 경우에도 적용할 수 있는 스피치의 음향학적 자질 즉, 스피치의 속도, 피치(소리의 높낮이) 및 강도(소리의 세기)의 세 가지 요인을 이용하여 스피치 요약을 생성할 수 있는지 분석하고, 이 중 가장 효율적으로 이용할 수 있는 요인이 무엇인지 조사하였다. 조사 결과, 강도(최대값 dB과 최소값 dB간의 차이)가 가장 효율적인 요인으로 확인되었다. 이러한 강도를 이용한 방식의 효율성과 특성을 조사하기 위해서 이 방식과 본문 키워드 방식간의 차이를 요약문의 품질 측면에서 분석하고, 이 두 방식에 의해서 각 세그먼트(문장)에 할당된 가중치간의 관계를 분석해 보았다. 그런 다음 추출된 스피치의 핵심 세그먼트를 오디오 또는 텍스트 형태로 표현했을 때 어떤 특성이 있는지 이용자 관점에서 분석해 봄으로써 음향학적 특성을 이용한 스피치 요약을 효율적으로 추출하여 표현하는 방안을 제안하였다.

Abstract

Two fundamental aspects of speech summary generation are the extraction of key speech content and the style of presentation of the extracted speech synopses. We first investigated whether acoustic features (speaking rate, pitch pattern, and intensity) are equally important and, if not, which one can be effectively modeled to compute the significance of segments for lecture summarization. As a result, we found that the intensity (that is, difference between max DB and min DB) is the most efficient factor for speech summarization. We evaluated the intensity-based method of using the difference between max-DB and min-DB by comparing it to the keyword-based method in terms of which method produces better speech summaries and of how similar weight values assigned to segments by two methods are. Then, we investigated the way to present speech summaries to the viewers. As such, for speech summarization, we suggested how to extract key segments from a speech video efficiently using acoustic features and then present the extracted segments to the viewers.

8
김은형(건국대학교 문헌정보학과) ; 노영희(건국대학교) 2023, Vol.40, No.2, pp.81-114 https://doi.org/10.3743/KOSIM.2023.40.2.081
초록보기
초록

본 연구에서는 전문도서관 사서를 대상으로 설문조사를 진행하였으며, 대내․외 환경변화와 정책적 지원방안에 따라 업무영역에 미치는 영향력을 분석하고, 설문조사 결과에서 분석된 현장사서들의 인식조사 결과를 토대로 전문도서관 발전에 영향을 미치는 요인과 이에 따른 정책적 제안을 도출하고자 하였다. 연구결과, 첫째, 개별 기관 내 도서관 위상 역할에 대한 인식에서는 도서관 발전계획 중요도에서 부정적인 의견이 58.3%, 도서관으로서 본연의 역할 수행여부에 대해서는 긍정적인 인식을 하는 것을 확인할 수가 있었다. 둘째, 전문도서관의 위상을 높이기 위해서는 주요 기능과 역할의 중요성을 인식하여 학술연구활동에 대한 인식이 필요함을 알 수 있었다. 셋째, 도서관발전종합계획 중 전문도서관 및 운영평가 인식에서는 국가 공공 정보의 대국민 서비스 확대에 대해 가장 높게 인식하고 있었다. 또한 5년간 발전전략 중 우선 시행되어야 할 정책으로는 전문도서관 현황 갱신 및 조사를 위한 시스템 구축을 선호하는 것을 확인할 수가 있었다. 넷째, 도서관 운영평가 참여율 제고를 위한 효과적인 대안 및 개선지표에 대해 분석한 결과, 공기업 평가 항목에서 “기관 도서관 운영 평가” 항목의 가중치 부여가 평균 4.01로 가장 높게 나타났다. 따라서, 전문도서관 발전을 위해서는 현재 전문도서관의 현황을 종합적으로 파악할 수 있는 체계를 구축하고 적극적인 학술 연구를 지원하는 것이 가장 시급할 것으로 파악되었다

Abstract

In this study, a survey was conducted targeting specialized librarians, and the impact on the work area according to changes in the internal and external environment and policy support measures was analyzed. In this study, we tried to derive factors that affect library development and policy suggestions accordingly. As a result of the study, first, it was confirmed that 58.3% of the negative opinions in terms of the importance of library development plans were positive in recognition of the role of library status within individual institutions. Second, in order to increase the status of specialized libraries, it was found that awareness of academic research activities was necessary by recognizing the importance of major functions and roles. Third, among the comprehensive library development plans, the recognition of specialized libraries and operational evaluation was the highest in recognition of the expansion of national public information services to the public. In addition, it was confirmed that among the five-year development strategies, the policy that should be implemented first is the preference for updating the status of specialized libraries and establishing a system for investigation. Fourth, as a result of analyzing effective alternatives and improvement indicators to increase the participation rate in library operation evaluation, the weighting of the “institutional library operation evaluation” item in the evaluation item of public enterprises was the highest at 4.01 on average. Therefore, for the development of specialized libraries, it was recognized as the most urgent task to establish a system that can comprehensively grasp the current status of specialized libraries as well as active academic research and support them.

초록보기
초록

네트워크 분석 기법을 활용한 연구가 다양한 학문 분야에서 수행되고 있다. 본 연구는 2003년부터 2021년까지 국내 학술지에 게재된 네트워크 분석 논문 총 2,187건을 대상으로 계량서지적 분석과 내용분석을 수행하였다. 분석결과는 살펴보면, 논문 생산에 있어서 교육학, 학제간연구, 컴퓨터학, 문헌정보학, 행정학, 경영학 등의 우위를 확인할 수 있다. 학술지 단위로 보면, 메가 학술지의 강세가 나타난다. 그러나 피인용 기반의 영향력을 살펴보면, 행정학, 문헌정보학, 교육학의 영향력을 뚜렷하게 확인할 수 있다. 저자 단위로 분석한 결과 역시 언론정보학, 행정학, 문헌정보학의 우위를 확인할 수 있다. 파악된 1,537명의 저자 중에서 극소수의 저자가 활발한 연구활동을 하는 것으로 나타났으며, 이를 통해 연구자 저변 확대의 필요성도 확인할 수 있다. 내용분석의 결과를 살펴보면, 논문을 데이터셋으로 하여 가중/비방향네트워크를 형성하는 것이 가장 일반적인 네트워크 형태로 나타났다. 노드는 단어, 링크는 동시출현으로 표현되는 것이 보편적이며, 분석을 위해서는 KrKwic, UCINET, NetMiner, NetDraw의 활용이 가장 두드러졌다.

Abstract

Research in various academic fields using network analysis techniques has been conducted and grown. This study performed bibliographical analysis and content analysis on a total of 2,187 network analysis papers published in journals from 2003 to 2021. The results showed that the fields of Pedagogy, Interdisciplinary Research, Computer Science, Library and Information Science, Public Administration, and Business Administration were higher in terms of the number of research papers. From the perspective of journal, mega-journals were indicated as the most productive journals. However, when looking at the impact based on the number of citations, the strength of Public Administration, Library and Information Science, and Pedagogy is clearly revealed. The results of the analysis by authors can also confirm the higher impact of Journalism, Public Administration Science, and Library and Information Science. Of the 1,537 authors identified, very few authors are active in research, confirming the need to expand the researcher base. The results of content analysis showed that the weighted and non-directional network was the most common network type with using the research papers as a data set. Generally nodes are expressed as words and links are expressed as relationship. For network analysis, the use of KrKwic, UCINET, NetMiner, and NetDraw is the most prominent.

정보관리학회지