바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: Effectiveness, 검색결과: 13
11
송성전(연세대학교) ; 정영미(연세대학교) 2012, Vol.29, No.2, pp.205-224 https://doi.org/10.3743/KOSIM.2012.29.2.205
초록보기
초록

자동 분류에서 문헌을 표현하는 일반적인 방식인 BOW는 용어를 독립적으로 처리하기 때문에 주변 문맥을 반영하지 못한다는 한계가 있다. 이에 본 연구는 각 용어마다 주제범주별 문맥적 특징을 파악해 프로파일로 정의하고, 이 프로파일과 실제 문헌에서의 문맥을 비교하는 과정을 통해 동일한 형태의 용어라도 그 의미나 주제적 배경에 따라 구분하고자 하였다. 이를 통해 주제가 서로 다름에도 불구하고 특정 용어의 출현만으로 잘못된 분류 판정을 하는 문제를 극복하고자 하였다. 본 연구에서는 이러한 문맥적 요소를 용어 가중치, 분류기 결합, 자질선정의 3가지 항목에 적용해 보고 그 분류 성능을 측정했다. 그 결과, 세 경우 모두 베이스라인보다 분류 성능이 향상되었고 가장 큰 성능 향상을 보인 것은 분류기 결합이었다. 또한 제안한 방법은 학습문헌 수가 많고 적음에 따라 발생하는 성능의 편향을 완화하는데도 효과적인 것으로 나타났다.

Abstract

One of the limitations of BOW method is that each term is recognized only by its form, failing to represent the term’s meaning or thematic background. To overcome the limitation, different profiles for each term were defined by thematic categories depending on contextual characteristics. In this study, a specific term was used as a classification feature based on its meaning or thematic background through the process of comparing the context in those profiles with the occurrences in an actual document. The experiment was conducted in three phases; term weighting, ensemble classifier implementation, and feature selection. The classification performance was enhanced in all the phases with the ensemble classifier showing the highest performance score. Also, the outcome showed that the proposed method was effective in reducing the performance bias caused by the total number of learning documents.

12
김용환(연세대학교) ; 정영미(연세대학교) 2012, Vol.29, No.2, pp.155-171 https://doi.org/10.3743/KOSIM.2012.29.2.155
초록보기
초록

텍스트 범주화에 있어서 일반적인 문제는 문헌을 표현하는 핵심적인 용어라도 학습문헌 집합에 나타나지 않으면 이 용어는 분류자질로 선정되지 않는다는 것과 형태가 다른 동의어들은 서로 다른 자질로 사용된다는 점이다. 이 연구에서는 위키피디아를 활용하여 문헌에 나타나는 동의어들을 하나의 분류자질로 변환하고, 학습문헌 집합에 출현하지 않은 입력문헌의 용어를 가장 유사한 학습문헌의 용어로 대체함으로써 범주화 성능을 향상시키고자 하였다. 분류자질 선정 실험에서는 (1) 비학습용어 추출 시 범주 정보의 사용여부, (2) 용어의 유사도 측정 방법(위키피디아 문서의 제목과 본문, 카테고리 정보, 링크 정보), (3) 유사도 척도(단순 공기빈도, 정규화된 공기빈도) 등 세 가지 조건을 결합하여 실험을 수행하였다. 비학습용어를 유사도 임계치 이상의 최고 유사도를 갖는 학습용어로 대체하여 kNN 분류기로 분류할 경우 모든 조건 결합에서 범주화 성능이 0.35%~1.85% 향상되었다. 실험 결과 범주화 성능이 크게 향상되지는 못하였지만 위키피디아를 활용하여 분류자질을 선정하는 방법이 효과적인 것으로 확인되었다.

Abstract

In text categorization, core terms of an input document are hardly selected as classification features if they do not occur in a training document set. Besides, synonymous terms with the same concept are usually treated as different features. This study aims to improve text categorization performance by integrating synonyms into a single feature and by replacing input terms not in the training document set with the most similar term occurring in training documents using Wikipedia. For the selection of classification features, experiments were performed in various settings composed of three different conditions: the use of category information of non-training terms, the part of Wikipedia used for measuring term-term similarity, and the type of similarity measures. The categorization performance of a kNN classifier was improved by 0.35~1.85% in F1 value in all the experimental settings when non-learning terms were replaced by the learning term with the highest similarity above the threshold value. Although the improvement ratio is not as high as expected, several semantic as well as structural devices of Wikipedia could be used for selecting more effective classification features.

13
노영희(건국대학교 문헌정보학과 교수) ; 손애경(글로벌사이버대학교 미디어콘텐츠창작학과 교수) ; 이경선(서강대학교 공공정책대학원 행정법무학과 교수) ; 장인호(대진대학교 문헌정보학과 부교수) ; 정영미(동의대학교 문헌정보학과 교수) ; 차현주(성균관대학교 문헌정보학과 초빙교수) 2024, Vol.41, No.1, pp.133-162 https://doi.org/10.3743/KOSIM.2024.41.1.133
초록보기
초록

디지털화가 급속히 진행됨에 따라, 온라인 자료의 식별 및 관리의 중요성이 대두되고 있다. 특히, 디지털 콘텐츠의 효율적인 유통 및 보존을 위한 체계적인 식별체계의 필요성이 증가하고 있다. 본 연구는 이러한 시대적 요구에 부응하여, 온라인 자료의 식별 및 관리를 위한 현행 식별체계의 실태를 조사하고, 이를 납본과 연계하여 보다 체계적인 관리 및 활용 방안을 모색하는 것을 목적으로 한다. 이를 위해 온라인 자료 식별체계와 발급실태를 조사하고 온라인 자료에 관련된 선행연구를 분석하였다. 분석결과를 기반으로 한 납본 연계방안은 다음과 같이 세 가지로 요약할 수 있다. 첫째, 납본의 우선순위 및 활용성을 위해 납본과 이용의 상호보완 강화, 납본의 우선순위 부여, 납본자료의 활용성 증대 전략이 요구된다. 둘째, 국제표준번호를 기반으로 한 납본 연계 방안으로서, ISBN과 UCI의 연계 납본, 국제표준자료번호와 납본 연계, 국제표준번호와 UCI의 메타데이터연계, UCI와 ICN의 연계 통합, 납본시스템 고도화를 위한 자동화 기술 도입 전략이 요구된다. 셋째, 위에서 제안한 전략들이 그 효과적으로 작용하기 위해서는 정책적인 지원도 같이 이루어져야 할 것이다. 한국서지표준센터의 납본 역할 강화를 포함하여 출판사와의 협력강화, 납본자료에 대한 보상, 납본제도에 대한 인식 제고 및 제도적 보상 등의 측면에서 고려되어야 할 부분이 있다.

Abstract

The rapid digitalization has highlighted the importance of identifying and managing online resources. Especially, the need for a systematic identification system for the efficient distribution and preservation of digital content is growing. This study aims to respond to these contemporary demands by investigating the current state of identification systems for online resources and exploring more systematic management and utilization methods through linking these systems with legal deposit. To achieve this, the study surveyed the identification systems and their issuance status for online resources and analyzed prior research related to these online resources. Based on the analysis, the proposed strategies for linking with legal deposit can be summarized into three categories: First, to prioritize and enhance the utilization of legal deposit, strategies are required to strengthen the mutual complementarity of deposit and use, to assign priorities to certain deposits, and to increase the usability of deposited materials. Second, as strategies based on international standard numbers for linking with legal deposit, it is necessary to integrate ISBN and UCI in the deposit process, to link international standard resource numbers with deposit, to interconnect metadata between international standard numbers and UCI, to integrate UCI and ICN, and to introduce automation technology for upgrading the deposit system. Third, to effectively implement the aforementioned strategies, policy support is essential. This includes enhancing the role of the Korean Bibliographic Standards Center, strengthening cooperation with publishers, compensating for deposited materials, and increasing awareness and institutional compensation for the legal deposit system.

정보관리학회지