바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 주제화, 검색결과: 14
1
김판준(신라대학교) ; 정영미(연세대학교) 2005, Vol.22, No.1, pp.191-208 https://doi.org/10.3743/KOSIM.2005.22.1.191
초록보기
초록

새로운 주제의 탐지를 위한 여러 접근법들을 지식 구조 표현 방법 중 하나인 디스크립터의 부여 및 갱신 과정에 적용하였다. 새로운 주제 탐지는, 특히 특정 학문 분야에서 새로운 주제의 출현 및 성장으로 인하여 지식 구조상의 변화가 발생하는 경우에, 기존의 색인어로는 이를 표현할 수 없거나 표현상의 제한이 따르는 문제를 해결하는 데 응용할 수 있다. 실험 결과, 정보학 내에서 긍정적 측면의 변화가 발생한 것으로 식별된 신흥 주제들은 상당수가 서로 밀접하게 연관되어 있으면서 동시에 성장발전의 단계에 있는 주제임을 확인하였다. 또한, 새로운 주제 탐지를 통한 후보 디스크립터 리스트의 사용이 색인자의 색인작업을 지원하는 효율적인 도구가 될 수 있다는 가능성을 보여 주었다. 특히, 적절한 디스크립터의 선정과 부여를 위한 후보 디스크립터 리스트의 제공은 색인작업의 효율성과 정확성을 향상시키는 데 기여할 수 있을 것이다.

Abstract

This study utilizes various approaches for new topic detection in the process of assigning and updating descriptors, which is a representation method of the knowledge structure. Particularly in the case of occurring changes on the knowledge structure due to the appearance and development of new topics in specific study areas, new topic detection can be applied to solving the impossibility or limitation of the existing index terms in representing subject concepts. This study confirms that the majority of newly developing topics in information science are closely associated with each other and are simultaneously in the phase of growth and development. Also, this study shows the possibility that the use of candidate descriptor lists generated by new topic detection methods can be an effective tool in assisting indexers. In particular, the provision of candidate descriptor lists to help assignment of appropriate descriptors will contribute to the improvement of the effectiveness and accuracy of indexing.

2
정영미(동의대학교) ; 이상기(한국과학기술정보연구원) 2010, Vol.27, No.4, pp.131-152 https://doi.org/10.3743/KOSIM.2010.27.4.131
초록보기
초록

본 연구는 세계의 실 운용중인 리포지터리 중 성공 사례들을 조사하고 그것의 실태와 운영정책을 분석하여 향후의 성공적인 리포지터리 구축과 운영시 유용한 전략적 토대를 마련하고자 하였다. 본 연구의 목적을 달성하기 위해 리포지터리의 성공 사례는 CSIC에서 제공하는 Ranking Web of World Repositories의 Top 10과 JISC에서 지원하는 Registry of Open Access Repositories을 통해 선정되었다. 성공적인 리포지터리의 운영정책 및 관련 자료는 주로 해당 사이트를 통해 수집하였고 큰 범주에서 주제 리포지터리와 기관 리포지터리로 나누었다. 운영정책은 운영 및 지원정책, 수집정책, 관리정책, 배포 및 이용활성화정책, 장기보존 정책, 기술정책, 그리고 저작권 정책으로 구분하여 분석하였다. 또한 성공적인 주제 리포지터리와 기관 리포지터리의 운영정책의 차이 및 국내와 국외 리포지터리간의 차이점도 살펴보았다.

Abstract

This study investigated and analyzed operating policies and status of the best practices repository in the world to propose the successful strategies of management and establishment of repository. The best practices were selected from the top 10 of the Ranking Web of World Repositories by CSIC and Registry of Open Access Repositories by JISC. These repositories fell into two rough classes, disciplinary and institutional repositories. Policies on operation and support, collection, management, distribution and information services, long-term preservation, technology and copyright were analyzed. Characteristic of disciplinary and institutional repository policies were also identified.

3
유재복(한국원자력연구원) ; 정영미(연세대학교) 2010, Vol.27, No.4, pp.239-258 https://doi.org/10.3743/KOSIM.2010.27.4.239
초록보기
초록

이 연구에서는 특허의 인용에 영향을 미치는 주요 변수들을 토대로 특허의 피인용횟수를 예측하기 위한 모형을 제시하였다. 이를 위해 미국특허를 대상으로 5개 주제분야에 걸쳐 특허의 피인용횟수와 일정 수준 이상의 상관관계, 즉 5% 이상의 설명력을 갖는 것으로 밝혀진 페이지 수, 청구항 수, 참고문헌 평균 피인용횟수, 서지결합도, 문헌간유사도 등 5개 변수들을 토대로 다중회귀분석을 실시하였다. 연구결과에 따르면, 제시된 5개 주제분야의 특허인용 예측모형의 설명력은 주제분야에 따라 58.3%~89.6%로 나타났으며, 예측변수로 사용된 5개의 독립변수 중 특허 피인용횟수에 가장 영향력이 높은 변수는 ‘문헌간유사도’로 나타났다. 또한 이 연구에서 추정된 주제분야별 예측모형을 토대로 산출한 특허 피인용횟수에 대한 예측값과 실제값을 비교한 결과 이들 예측모형은 5개 주제분야에서 모두 적합한 것으로 나타났다.

Abstract

The purpose of this study is to develop a prediction model of patent citation counts based on major factors which affect patent citation. To this end, we performed multiple regression analysis between the patent citation counts and five explanatory variables such as the number of pages, the number of claims, the reference-average-citation rate, the strength of bibliographic coupling, and the document similarity proved as having 5% or more standardized variances(r2) with patent citation counts, with a test dataset of U.S. patents in five subject fields. As a result, our prediction models showed 58.3% to 89.6% predictability depending on subject fields and revealed the document similarity has the highest impact on citation counts among the five predictive variables in all the subject fields. The result of comparison between the predicted citation counts and the actual ones confirmed the usefulness of the citation prediction models built for each subject field.

초록보기
초록

이 연구에서는 한국형 포털에 적합한 커뮤니티 기반 개인화 검색 서비스 모형을 제안하였다. 개인화 검색 서비스 모형은 이용자의 관심 주제를 파악하는 과정과 이를 반영한 검색 결과 재순위화 및 관련 주제 카테고리와 질의어 추천 과정으로 구성된다. 개인화 검색 모형의 유용성을 검증하기 위한 실험에서는 포털 사이트 다음에서 12일간 수집한 이용자 로그 데이터를 사용하였다. 실험 결과 개별 이용자의 주제 카테고리 선정에 사용한 카페 활동성 분석과 신지식 활동성 분석 데이터는 매우 유용한 것으로 나타났으며, 개인화 검색 결과와 추천 서비스에 대한 만족도도 비교적 높게 나타났다.

Abstract

This study proposes an expanded model of personalized search service based on community activities on a Korean Web portal. The model is composed of defining subject categories of users, providing personalized search results, and recommending additional subject categories and queries. Several experiments were performed to verify the feasibility and effectiveness of the proposed model. It was found that users’ activities on community services provide valuable data for identifying their interests, and the personalized search service increases users’ satisfaction.

5
심경(Systems R&D Center, Iris.Net) ; 정영미(연세대학교) 2006, Vol.23, No.2, pp.265-285 https://doi.org/10.3743/KOSIM.2006.23.2.265
초록보기
초록

문헌범주화에서는 학습문헌집합에 부여된 주제범주의 정확성이 일정 수준을 가진다고 가정한다. 그러나, 이는 실제 문헌집단에 대한 지식이 없이 이루어진 가정이다. 본 연구는 실제 문헌집단에서 기 부여된 주제범주의 정확성의 수준을 알아보고, 학습문헌집합에 기 부여된 주제범주의 정확도와 문헌범주화 성능과의 관계를 확인하려고 시도하였다. 특히, 학습문헌집합에 부여된 주제범주의 질을 수작업 재색인을 통하여 향상시킴으로써 어느 정도까지 범주화 성능을 향상시킬 수 있는가를 파악하고자 하였다. 이를 위하여 과학기술분야의 1,150 초록 레코드 1,150건을 전문가 집단을 활용하여 재색인한 후, 15개의 중복문헌을 제거하고 907개의 학습문헌집합과 227개의 실험문헌집합으로 나누었다. 이들을 초기문헌집단, Recat-1, Recat-2의 재 색인 이전과 이후 문헌집단의 범주화 성능을 kNN 분류기를 이용하여 비교하였다. 초기문헌집단의 범주부여 평균 정확성은 16%였으며, 이 문헌집단의 범주화 성능은 F1값으로 17%였다. 반면, 주제범주의 정확성을 향상시킨 Recat-1 집단은 F1값 61%로 초기문헌집단의 성능을 3.6배나 향상시켰다.

Abstract

In text categorization a certain level of correctness of labels assigned to training documents is assumed without solid knowledge on that of real-world collections. Our research attempts to explore the quality of pre-assigned subject categories in a real-world collection, and to identify the relationship between the quality of category assignment in training set and text categorization performance. Particularly, we are interested in to what extent the performance can be improved by enhancing the quality (i.e., correctness) of category assignment in training documents. A collection of 1,150 abstracts in computer science is re-classified by an expert group, and divided into 907 training documents and 227 test documents (15 duplicates are removed). The performances of before and after re-classification groups, called Initial set and Recat-1/Recat-2 sets respectively, are compared using a kNN classifier. The average correctness of subject categories in the Initial set is 16%, and the categorization performance with the Initial set shows 17% in F1 value. On the other hand, the Recat-1 set scores F1 value of 61%, which is 3.6 times higher than that of the Initial set.

6
박재신(연세대학교) ; 정영미(연세대학교) 2010, Vol.27, No.3, pp.83-102 https://doi.org/10.3743/KOSIM.2010.27.3.083
초록보기
초록

본 연구에서는 지구적 환경문제의 해결 방식으로서 환경과학 분야의 학술활동과 같은 학문적 접근 방식과 환경 NGO 중심의 환경운동과 같은 실천적 접근 방식을 두 가지 주요 흐름이라 보고, 이들 각각의 특성을 계량정보학적 분석을 통해 파악하고 비교하였다. 지난 10년 간 환경과학 분야에서 인용된 저널의 주제범주 간 동시인용 관계를 분석함으로써 이 분야의 지식 구조를 파악하였고, 환경 NGO의 웹 사이트에서 수집된 외부링크 데이터를 이용하여 이들의 관심 분야를 확인하였다. 또한 저널 논문과 NGO 뉴스에서 추출된 핵심어를 이용한 동시출현단어 분석을 통해 하위 주제를 파악하여 이들 간의 주제적 유사성과 상이성을 구체화하였다.

Abstract

This study aims to understand and compare the characteristics of two major approaches to solving global environmental problems-an academic approach including scholarly activities of environmental sciences and a practical approach of environmental movements led by NGOs-by employing informetric analysis methods. Knowledge structure of environmental sciences is depicted through co-citation networks of subject categories assigned to the cited journals in the discipline of environmental sciences for the 10-year period from 2000 to 2009. Furthermore, major interests of environmental NGOs are identified on the basis of external link data collected from web sites of the NGOs. Co-word analyses are also performed using the texts of journal papers in environmental sciences as well as news articles provided by NGO sites. Through the analyses, dominant subject areas of environmental sciences and environmental movements are identified demonstrating similarities and differences between the two approaches.

7
송성전(연세대학교) ; 정영미(연세대학교) 2012, Vol.29, No.2, pp.205-224 https://doi.org/10.3743/KOSIM.2012.29.2.205
초록보기
초록

자동 분류에서 문헌을 표현하는 일반적인 방식인 BOW는 용어를 독립적으로 처리하기 때문에 주변 문맥을 반영하지 못한다는 한계가 있다. 이에 본 연구는 각 용어마다 주제범주별 문맥적 특징을 파악해 프로파일로 정의하고, 이 프로파일과 실제 문헌에서의 문맥을 비교하는 과정을 통해 동일한 형태의 용어라도 그 의미나 주제적 배경에 따라 구분하고자 하였다. 이를 통해 주제가 서로 다름에도 불구하고 특정 용어의 출현만으로 잘못된 분류 판정을 하는 문제를 극복하고자 하였다. 본 연구에서는 이러한 문맥적 요소를 용어 가중치, 분류기 결합, 자질선정의 3가지 항목에 적용해 보고 그 분류 성능을 측정했다. 그 결과, 세 경우 모두 베이스라인보다 분류 성능이 향상되었고 가장 큰 성능 향상을 보인 것은 분류기 결합이었다. 또한 제안한 방법은 학습문헌 수가 많고 적음에 따라 발생하는 성능의 편향을 완화하는데도 효과적인 것으로 나타났다.

Abstract

One of the limitations of BOW method is that each term is recognized only by its form, failing to represent the term’s meaning or thematic background. To overcome the limitation, different profiles for each term were defined by thematic categories depending on contextual characteristics. In this study, a specific term was used as a classification feature based on its meaning or thematic background through the process of comparing the context in those profiles with the occurrences in an actual document. The experiment was conducted in three phases; term weighting, ensemble classifier implementation, and feature selection. The classification performance was enhanced in all the phases with the ensemble classifier showing the highest performance score. Also, the outcome showed that the proposed method was effective in reducing the performance bias caused by the total number of learning documents.

8
유재복(한국원자력연구원) ; 정영미(연세대학교) 2010, Vol.27, No.1, pp.103-118 https://doi.org/10.3743/KOSIM.2010.27.1.103
초록보기
초록

최근 특허기술의 가치평가가 크게 강조되고 있으며, 그 평가의 수단으로 특허의 피인용횟수가 매우 유용한 척도 중의 하나로 받아들여지고 있다. 그에 따라 이 연구에서는 특허의 피인용횟수와 이에 영향을 미칠만한 형태적․기술적․개념적 요인의 17개 변수들 간의 상관관계를 미국특허를 대상으로 5개 주제분야에 걸쳐 분석하였다. 분석결과 특허의 피인용횟수와 일정 수준 이상의 상관관계, 즉 5% 이상의 설명력을 갖는 변수는 페이지 수, 청구항 수, 참고문헌 평균 피인용횟수, 기술분야 특허증감율, 서지결합도, 동시인용도 및 문헌간유사도 등 7개로 나타났다. 또한 이들 변수에 대한 분산분석 결과 7개 변수 모두 전반적으로 대부분의 주제분야 간에 있어서 평균값의 차이가 있는 것으로 나타났다.

Abstract

Recently, the valuation of patented technology has been greatly emphasized, and patent citation has been accepted as a very useful index of this technology. In this study, we performed correlation analyses between the patent citation counts and 17 explanatory variables of morphological, technological, and conceptual factors with a test dataset of U.S. patents in five subject fields. Seven variables having 5% or more standardized variances(r2) with patent citation counts were identified; number of pages, number of claims, reference-average-citation rate, patent increase/decrease rate, strength of bibliographic coupling, co-citation counts and document similarity. The result of the ANOVA test shows that the mean values of these variables vary among most subject fields.

9
정영미(연세대학교) ; 김용광(연세대학교) 2008, Vol.25, No.4, pp.227-243 https://doi.org/10.3743/KOSIM.2008.25.4.227
초록보기
초록

이 연구에서는 사건중심 뉴스기사 요약문을 자동생성하기 위해 뉴스기사들을 SVM 분류기를 이용하여 사건 주제범주로 먼저 분류한 후, 각 주제범주 내에서 싱글패스 클러스터링 알고리즘을 통해 특정한 사건 관련 기사들을 탐지하는 기법을 제안하였다. 사건탐지 성능을 높이기 위해 고유명사에 가중치를 부여하고, 뉴스의 발생시간을 고려한 시간벌점함수를 제안하였다. 또한 일정 규모 이상의 클러스터를 분할하여 적절한 크기의 사건 클러스터를 생성하도록 수정된 싱글패스 알고리즘을 사용하였다. 이 연구에서 제안한 사건탐지 기법의 성능은 단순 싱글패스 클러스터링 기법에 비해 정확률, 재현율, F-척도에서 각각 37.1%, 0.1%, 35.4%의 성능 향상률을 보였고, 오보율과 탐지비용에서는 각각 74.7%, 11.3%의 향상률을 나타냈다.

Abstract

This study investigates an event detection method with the aim of generating an event-focused news summary from a set of news articles on a certain event using a multi-document summarization technique. The event detection method first classifies news articles into the event related topic categories by employing a SVM classifier and then creates event clusters containing news articles on an event by a modified single pass clustering algorithm. The clustering algorithm applies a time penalty function as well as cluster partitioning to enhance the clustering performance. It was found that the event detection method proposed in this study showed a satisfactory performance in terms of both the F-measure and the detection cost.

초록보기
초록

과학기술분야 국제협력은 국가 경쟁력 확보를 위해서 필수적이다. 한국은 과학기술의 인적․물적 자원의 한계를 극복하고자 연구의 국제화를 추진하고 있으며 최근 아시아 국가와 연구협력에서 높은 성장률을 보여주었다. 본 연구에서는 네트워크 분석을 이용하여 한국과의 공동연구가 크게 증가한 아시아 국가 간 공동연구 현황을 공저논문 수와 주제범주로 구분하여 실증적으로 파악하였다. 최근 5년간 아시아 국가 간 공저논문 수 기반 네트워크를 살펴보면, 일본, 중국, 한국 등 동북아시아 국가들이 네트워크 중심부에 있었으며 국가 상호 간 공동연구가 활발하게 이루어졌다. 또한 아시아 지역별로 공동연구의 주제범주를 분석한 결과, 동북아시아 지역은 기초과학 분야에서, 남부아시아, 동남아시아, 서남아시아 지역은 의학 분야에서 공동연구가 활발하게 이루어진 것으로 나타났다.

Abstract

Recently, research community in Korea has shown a rapid growth in collaborating with Asian countries. In this study, we analyzed research collaboration among Asian countries using network analysis of co-authored papers as well as subject categories. The network of co-authored papers among Asian countries over the 5-year period since 2005 revealed that Japan, China, and Korea were positioned at the central part of the network and highly productive in collaborative research. In the analysis of the subject categories of co-authored papers in four different Asian regions with 2009 data, physics and material science were found the most productive subject fields in collaborative research in Northeast Asia. On the other hand, medical science was the most collaborative subject field in the remaining Asian regions.

정보관리학회지