바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: structured document, 검색결과: 4
1
최상희(대구가톨릭대학교) ; 이재윤(경기대학교) 2012, Vol.29, No.1, pp.331-349 https://doi.org/10.3743/KOSIM.2012.29.1.331
초록보기
초록

구조적 초록은 학술 논문의 주제를 표현하는 역할을 하여 학술 논문을 처리하는데 중요한 요소로 인식되어왔다. 이 연구에서는 구조적 초록을 구성하는 세부 필드의 속성을 4개로 분석하고 초록의 구조를 활용하여 문서 클러스터링에 적용할 수 있는 가능성을 고찰고자 하였다. 구조적 초록의 필드 속성을 문서 클러스터링에 적용한 결과 클러스터링 기법간의 편차가 있었으나 연구 목적이 제공하는 정보량에 비해 주제성이 커서 클러스터링 성능에 가장 큰 영향을 미치고 있는 것으로 나타났다. 또한 분석 결과 특정 필드에 특화되어 출현하는 필드 종속적인 단어가 발생하는 것으로 나타나 필드 종속적인 단어를 배제하고 집단내 평균연결 기법을 적용하였을 때는 클러스터링의 성능이 개선되는 것으로 분석되었다.

Abstract

Structured abstracts have been regarded as an essential information factor to represent topics of journal articles. This study aims to provide an unconventional view to utilize structured abstracts with the analysis on sub fields of a structured abstract in depth. In this study, a structured abstract was segmented into four fields, namely, purpose, design, findings, and values/implications. Each field was compared in the performance analysis of document clustering. In result, the purpose statement of an abstract affected on the performance of journal article clustering more than any other fields. Furthermore, certain types of keywords were identified to be excluded in the document clustering to improve clustering performance, especially by Within group average clustering method. These keywords had stronger relationship to a specific abstract field such as research design than the topic of an article.

초록보기
초록

이 연구에서는 White가 제안한 자아 중심 인용 분석을 응용하여 연구 주제에 대한 다층적인 분석을 가능하게 해주는 자아 중심 주제 인용 분석 기법을 제안하였다. 시험적으로 폭소노미에 대한 연구문헌을 Web of Science 데이터베이스로부터 검색한 후 이에 대한 주제 인용 분석을 수행해보았다. 폭소노미 주제에 대한 자아 중심 인용 분석은 자아 문헌 집단 분석, 주제 인용 정체성 분석, 주제 인용 이미지 분석의 세 단계로 나뉘어 수행되었다. 분석 결과 이 연구에서 제안된 자아 중심 주제 인용 분석을 통해서 폭소노미 연구의 내부 지적 구조와 외부 지적 구조를 함께 파악하는 것이 가능함이 확인되었다.

Abstract

This research aims to present the ego-centered topic citation analysis, which is a new application of White’s ego-centered citation analysis, for analyzing multilayered knowledge structure of a subject domain. An experimental topic citation analysis was carried out on the folksonomy research documents retrieved from Web of Science. Ego-centered topic citation analyses on folksonomy research domain were conducted in three stages: ego-documents set analysis, topic citation identity analysis, and topic citation image analysis. The results showed that the ego-centered topic citation analysis suggested in this study was successfully performed to illustrate the inner and the outer knowledge structures of folksonomy research domain.

3
김용환(연세대학교) ; 정영미(연세대학교) 2012, Vol.29, No.2, pp.155-171 https://doi.org/10.3743/KOSIM.2012.29.2.155
초록보기
초록

텍스트 범주화에 있어서 일반적인 문제는 문헌을 표현하는 핵심적인 용어라도 학습문헌 집합에 나타나지 않으면 이 용어는 분류자질로 선정되지 않는다는 것과 형태가 다른 동의어들은 서로 다른 자질로 사용된다는 점이다. 이 연구에서는 위키피디아를 활용하여 문헌에 나타나는 동의어들을 하나의 분류자질로 변환하고, 학습문헌 집합에 출현하지 않은 입력문헌의 용어를 가장 유사한 학습문헌의 용어로 대체함으로써 범주화 성능을 향상시키고자 하였다. 분류자질 선정 실험에서는 (1) 비학습용어 추출 시 범주 정보의 사용여부, (2) 용어의 유사도 측정 방법(위키피디아 문서의 제목과 본문, 카테고리 정보, 링크 정보), (3) 유사도 척도(단순 공기빈도, 정규화된 공기빈도) 등 세 가지 조건을 결합하여 실험을 수행하였다. 비학습용어를 유사도 임계치 이상의 최고 유사도를 갖는 학습용어로 대체하여 kNN 분류기로 분류할 경우 모든 조건 결합에서 범주화 성능이 0.35%~1.85% 향상되었다. 실험 결과 범주화 성능이 크게 향상되지는 못하였지만 위키피디아를 활용하여 분류자질을 선정하는 방법이 효과적인 것으로 확인되었다.

Abstract

In text categorization, core terms of an input document are hardly selected as classification features if they do not occur in a training document set. Besides, synonymous terms with the same concept are usually treated as different features. This study aims to improve text categorization performance by integrating synonyms into a single feature and by replacing input terms not in the training document set with the most similar term occurring in training documents using Wikipedia. For the selection of classification features, experiments were performed in various settings composed of three different conditions: the use of category information of non-training terms, the part of Wikipedia used for measuring term-term similarity, and the type of similarity measures. The categorization performance of a kNN classifier was improved by 0.35~1.85% in F1 value in all the experimental settings when non-learning terms were replaced by the learning term with the highest similarity above the threshold value. Although the improvement ratio is not as high as expected, several semantic as well as structural devices of Wikipedia could be used for selecting more effective classification features.

초록보기
초록

본 연구는 한국 통합 검색 환경에서의 이용자 적합성 판단 기준에 관한 탐색적 연구이다. 이를 위해 10명의 참가자들을 대상으로 반구조화(semi-structured) 인터뷰를 수행하여 데이터를 수집하였다. 참가자들은 네이버, 다음 등과 같은 통합 검색 환경에서 본인들이 관심 있거나 필요로 하는 다양한 검색을 수행하고, 그 과정에서 문서가 적합한지와 그 판단 기준에 대해 기술하였다. 연구 결과 8개의 적합성 판단 기준과 비적합성 판단 기준, 그리고 검색 환경이 변화하여도 이용자가 적합성을 판단하는 기준들이 크게 변화하지는 않지만 데이터 증가와 이용자 요구의 고도화로 특수성과 구체성이 중요한 적합성 판단 기준으로 부각되는 점을 발견하였다.

Abstract

This study is an exploratory research on the user relevance criteria in Korean search service environments that provide integrated search results. Data were collected from 10 participants using a semi-structured interview technique. The participants conducted a web search using integrated search services, such as Naver or Daum on a self-selected topic. They were asked to judge the relevance of retrieved documents and to report their relevance criteria. As a result, the research indicated 8 user-defined relevance and non-relevance criteria. The research shows that specificity and richness are the two most important criteria yet, the user’s relevance criteria have not changed much despite the change in search environment.

정보관리학회지