바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: collection, 검색결과: 11
1
심경(Systems R&D Center, Iris.Net) ; 정영미(연세대학교) 2006, Vol.23, No.2, pp.265-285 https://doi.org/10.3743/KOSIM.2006.23.2.265
초록보기
초록

문헌범주화에서는 학습문헌집합에 부여된 주제범주의 정확성이 일정 수준을 가진다고 가정한다. 그러나, 이는 실제 문헌집단에 대한 지식이 없이 이루어진 가정이다. 본 연구는 실제 문헌집단에서 기 부여된 주제범주의 정확성의 수준을 알아보고, 학습문헌집합에 기 부여된 주제범주의 정확도와 문헌범주화 성능과의 관계를 확인하려고 시도하였다. 특히, 학습문헌집합에 부여된 주제범주의 질을 수작업 재색인을 통하여 향상시킴으로써 어느 정도까지 범주화 성능을 향상시킬 수 있는가를 파악하고자 하였다. 이를 위하여 과학기술분야의 1,150 초록 레코드 1,150건을 전문가 집단을 활용하여 재색인한 후, 15개의 중복문헌을 제거하고 907개의 학습문헌집합과 227개의 실험문헌집합으로 나누었다. 이들을 초기문헌집단, Recat-1, Recat-2의 재 색인 이전과 이후 문헌집단의 범주화 성능을 kNN 분류기를 이용하여 비교하였다. 초기문헌집단의 범주부여 평균 정확성은 16%였으며, 이 문헌집단의 범주화 성능은 F1값으로 17%였다. 반면, 주제범주의 정확성을 향상시킨 Recat-1 집단은 F1값 61%로 초기문헌집단의 성능을 3.6배나 향상시켰다.

Abstract

In text categorization a certain level of correctness of labels assigned to training documents is assumed without solid knowledge on that of real-world collections. Our research attempts to explore the quality of pre-assigned subject categories in a real-world collection, and to identify the relationship between the quality of category assignment in training set and text categorization performance. Particularly, we are interested in to what extent the performance can be improved by enhancing the quality (i.e., correctness) of category assignment in training documents. A collection of 1,150 abstracts in computer science is re-classified by an expert group, and divided into 907 training documents and 227 test documents (15 duplicates are removed). The performances of before and after re-classification groups, called Initial set and Recat-1/Recat-2 sets respectively, are compared using a kNN classifier. The average correctness of subject categories in the Initial set is 16%, and the categorization performance with the Initial set shows 17% in F1 value. On the other hand, the Recat-1 set scores F1 value of 61%, which is 3.6 times higher than that of the Initial set.

2
민기은(진성고등학교) ; 정영미(연세대학교) 2007, Vol.24, No.4, pp.73-96 https://doi.org/10.3743/KOSIM.2007.24.4.073
초록보기
초록

이 연구에서는 웹과 학술지를 통한 학술 커뮤니케이션의 특성을 각각 분석하고, 웹상에서의 학술 커뮤니케이션 패턴이 학문 분야에 따라 어떤 차이를 보이는지 비교하였다. 경제학과 컴퓨터공학정보시스템 분야에서 키워드를 추출하여 이와 관련된 학술적 웹페이지와 학술지 논문을 수집하였고, 이를 학술적 웹페이지의 특성, 웹페이지 동시링크와 학술지 논문 동시인용 데이터의 다차원척도(MDS) 분석, 시간의 흐름에 따른 학술 활동의 변화 등 세 가지 측면에서 분석하였다. 분석 결과, 웹과 학술지를 통한 학술 커뮤니케이션에는 공통점과 차이점이 나타났으며, 이런 현상은 두 학문 분야에서 모두 확인되었다. 그리고 웹을 통한 학술 커뮤니케이션의 경우 같은 학문 분야 내의 세부 주제에 따라서 고유한 특성이 나타나는 것을 볼 수 있었다.

Abstract

In this study, the characteristics of scholarly communication through the Web and scientific journals are explored, and scholarly communication patterns in two scientific disciplines are compared to reveal the difference. Economics and Computer Science-Information Systems are selected as two disciplines to be analyzed. In the data collection process, 10 keywords are extracted from a database for each subject field, and scholarly Web pages and journal articles related to these keywords are collected and analyzed. Our investigation includes the characteristics of scholarly Web pages, Multi-Dimensional Scaling (MDS) analysis of co-linked Web pages as well as co-cited journal articles, and changes in the scholarly communication activities occurring on the Web and in scientific journals respectively over time. We found certain differences as well as common features in scholarly communication patterns between the Web and scientific journals for both fields of Economics and Computer Science. We also found that scholarly communication occurring on the Web displays unique features for each subtopic within the same field of study.

3
Hae-Young Kim(Yonsei University) ; 정영미(연세대학교) ; Ji-Hye Lee(Yonsei University) 2008, Vol.25, No.2, pp.143-155 https://doi.org/10.3743/KOSIM.2008.25.2.143
초록보기
초록

Abstract

Authoritative as well as objective information on ranking or dominant research areas of academic departments/schools in a certain discipline is essential for the graduate school applicants. In this study, we performed an informetric analysis to identify dominant research areas in the top 10 U.S. LIS schools. We used two different datasets of research productivity and research interests of the LIS faculty. The correspondence analysis method was employed to graphically display the association between research areas and the LIS schools. We found that the research productivity data collected from SSCI database generated a very informative map presenting which research areas were dominant in which LIS schools. We also found that for the two most productive subject areas in LIS over the past 10-year period, the proportion of research articles in information retrieval decreased to a great extent in the recent 5-year period, whereas that of information seeking behavior showed an almost same degree of increase.

초록보기
초록

본 연구의 목적은 이용자의 인지적 특성 중 하나인 성격 유형과 OPAC 탐색 과정에서 나타나는 이용자의 정보 탐색 성향 및 만족도의 관계를 파악하고자 하였다. 본 연구에서는 실험대상자들을 대상으로 KEPTI 에니어그램 검사를 통해 성격 유형을 파악하였고, 데이터는 실험-전 질문지, 태스크A 질문지, 태스크B 질문지, 그리고 실험-후 질문지로 수집되었다. 분석결과, 에니어그램의 힘의 중심에 의한 집단 간에는 탐색의 용이성, 탐색시간, 탐색시간의 충분성, 탐색결과의 유용성, 탐색과정의 쉬움에서 통계적으로 유의한 차이가 나타났고 호니비언 집단 간에는 질의에 대한 친숙성과 흥미에서 통계적으로 유의한 차이가 나타났다.

Abstract

This study examined the relation between personality types and users' searching trait and satisfaction when interacting with OPAC system. In this study, personality type was measured by the KEPTI Enneagram tools. Data was collected through four questionnaires, pre-test, TaskA, TaskB, and post-test survey. The results indicated that there was a statistically significant difference in perceptions on the expected ease of search, completion time, adequacy of search time, usefulness of search results, and performed ease of search within the Three Triads of Enneagram. Also a statistically significant difference was found on familiarity and interest in the selected queries within the Hornivian group.

5
정영미(동의대학교) ; 이상기(한국과학기술정보연구원) 2010, Vol.27, No.4, pp.131-152 https://doi.org/10.3743/KOSIM.2010.27.4.131
초록보기
초록

본 연구는 세계의 실 운용중인 리포지터리 중 성공 사례들을 조사하고 그것의 실태와 운영정책을 분석하여 향후의 성공적인 리포지터리 구축과 운영시 유용한 전략적 토대를 마련하고자 하였다. 본 연구의 목적을 달성하기 위해 리포지터리의 성공 사례는 CSIC에서 제공하는 Ranking Web of World Repositories의 Top 10과 JISC에서 지원하는 Registry of Open Access Repositories을 통해 선정되었다. 성공적인 리포지터리의 운영정책 및 관련 자료는 주로 해당 사이트를 통해 수집하였고 큰 범주에서 주제 리포지터리와 기관 리포지터리로 나누었다. 운영정책은 운영 및 지원정책, 수집정책, 관리정책, 배포 및 이용활성화정책, 장기보존 정책, 기술정책, 그리고 저작권 정책으로 구분하여 분석하였다. 또한 성공적인 주제 리포지터리와 기관 리포지터리의 운영정책의 차이 및 국내와 국외 리포지터리간의 차이점도 살펴보았다.

Abstract

This study investigated and analyzed operating policies and status of the best practices repository in the world to propose the successful strategies of management and establishment of repository. The best practices were selected from the top 10 of the Ranking Web of World Repositories by CSIC and Registry of Open Access Repositories by JISC. These repositories fell into two rough classes, disciplinary and institutional repositories. Policies on operation and support, collection, management, distribution and information services, long-term preservation, technology and copyright were analyzed. Characteristic of disciplinary and institutional repository policies were also identified.

초록보기
초록

XML 웹 문서 포맷은 문헌 내에 내용뿐만 아니라 의미 있는 논리적인 구조 정보를 포함할 수 있어, 검색에서 문서의 내용 뿐만 아니라 구조로 접근하는 것을 제공한다. 그래서 본 연구의 목적은 XML 검색에 있어 내용 검색에 추가적인 요소로 사용된 구조적인 제한이 얼마나 유용한지를 실험하기 위해 내용만으로 검색한 결과와 내용과 구조적인 제한을 가지고 검색한 결과간의 성능을 비교하였다. 이 실험은 자체 개발된 단말노드 언어모델기반의 XML 검색시스템을 사용하였고 INEX 2005의 ad-hoc트랙에 참여하여 모든 실험방법과 INEX 2005의 실험 문헌 집단을 사용하였다.

Abstract

XML documents format on the Web provides a mechanism to impose their content and logical structure information. Therefore, an XML processor provides access to their content and strucure. The purpose of this study is to investigate the usefulness of structural hints in the leaf node language model-based XML document retrieval. In order to this purpose, this experiment tested the performances of the leaf node language model-based XML retrieval system to compare the queries for a topic containing only content-only constraints and both content constrains and structure constraints. A newly designed and implemented leaf node language model-based XML retrieval system was used. And we participated in the ad-hoc track of INEX 2005 and conducted an experiment using a large-scale XML test collection provided by INEX 2005.

초록보기
초록

본 연구에서는 의견이나 감정을 담고 있는 의견 문서들의 자동 분류 성능을 향상시키기 위하여 개념색인의 하나인 잠재의미색인 기법을 사용한 분류 실험을 수행하였다. 실험을 위해 수집한 1,000개의 의견 문서는 500개씩의 긍정 문서와 부정 문서를 포함한다. 의견 문서 텍스트의 형태소 분석을 통해 명사 형태의 내용어 집합과 용언, 부사, 어기로 구성되는 의견어 집합을 생성하였다. 각기 다른 자질 집합들을 대상으로 의견 문서를 분류한 결과 용어색인에서는 의견어 집합, 잠재의미색인에서는 내용어와 의견어를 통합한 집합, 지도적 잠재의미색인에서는 내용어 집합이 가장 좋은 성능을 보였다. 전체적으로 의견 문서의 자동 분류에서 용어색인 보다는 잠재의미색인 기법의 분류 성능이 더 좋았으며, 특히 지도적 잠재의미색인 기법을 사용할 경우 최고의 분류 성능을 보였다.

Abstract

The aim of this study is to apply latent semantic indexing(LSI) techniques for efficient automatic classification of opinionated documents. For the experiments, we collected 1,000 opinionated documents such as reviews and news, with 500 among them labelled as positive documents and the remaining 500 as negative. In this study, sets of content words and sentiment words were extracted using a POS tagger in order to identify the optimal feature set in opinion classification. Findings addressed that it was more effective to employ LSI techniques than using a term indexing method in sentiment classification. The best performance was achieved by a supervised LSI technique.

초록보기
초록

본 연구는 인쇄형 해외학술지 원문제공서비스(DDS)의 경제성을 분석하기 위해 이용자 기반의 경제적 가치 평가 방법론 및 모델을 개발하고자 하였다. 본 연구를 위해 K기관의 구독중인 해외학술지 원문제공서비스의 데이터 중 일부가 분석을 위해 사용되었고 K기관 원문제공서비스 이용자를 대상으로 웹 서베이를 실시하였다. 해외학술지 원문제공서비스의 경제적 가치는 사용가치, 비사용가치, 그리고 기대가치가 고려되었고 사용가치 산출을 위해서는 소득접근법과 시장접근법을 제안하였다. 이용자에 의한 가치 산출을 위해, 본 연구는 조건부가치평가법을 적용하였고 이를 위해 가상 시나리오를 설정하였다.

Abstract

This study is to develope a user-based economic valuation methodology and model for the economic analysis on the DDS of foreign journals. For this study, the sampling data on the annual subscribed journals by K institution was used and the online questionnaire was used to collect data. There are three aspects of the economic value of DDS journals was classified as use value, non-use value, and expectancy value. We suggested the income and market approach to measure its economic use value. To estimate the its value by individual users, this study applied a contingent valuation method and designed the imaginary scenarios.

9
박재신(연세대학교) ; 정영미(연세대학교) 2010, Vol.27, No.3, pp.83-102 https://doi.org/10.3743/KOSIM.2010.27.3.083
초록보기
초록

본 연구에서는 지구적 환경문제의 해결 방식으로서 환경과학 분야의 학술활동과 같은 학문적 접근 방식과 환경 NGO 중심의 환경운동과 같은 실천적 접근 방식을 두 가지 주요 흐름이라 보고, 이들 각각의 특성을 계량정보학적 분석을 통해 파악하고 비교하였다. 지난 10년 간 환경과학 분야에서 인용된 저널의 주제범주 간 동시인용 관계를 분석함으로써 이 분야의 지식 구조를 파악하였고, 환경 NGO의 웹 사이트에서 수집된 외부링크 데이터를 이용하여 이들의 관심 분야를 확인하였다. 또한 저널 논문과 NGO 뉴스에서 추출된 핵심어를 이용한 동시출현단어 분석을 통해 하위 주제를 파악하여 이들 간의 주제적 유사성과 상이성을 구체화하였다.

Abstract

This study aims to understand and compare the characteristics of two major approaches to solving global environmental problems-an academic approach including scholarly activities of environmental sciences and a practical approach of environmental movements led by NGOs-by employing informetric analysis methods. Knowledge structure of environmental sciences is depicted through co-citation networks of subject categories assigned to the cited journals in the discipline of environmental sciences for the 10-year period from 2000 to 2009. Furthermore, major interests of environmental NGOs are identified on the basis of external link data collected from web sites of the NGOs. Co-word analyses are also performed using the texts of journal papers in environmental sciences as well as news articles provided by NGO sites. Through the analyses, dominant subject areas of environmental sciences and environmental movements are identified demonstrating similarities and differences between the two approaches.

10
이지숙(NHN㈜) ; 정영미(연세대학교) 2007, Vol.24, No.3, pp.201-218 https://doi.org/10.3743/KOSIM.2007.24.3.201
초록보기
초록

이 연구에서는 TREC이 제시한 토픽 검색의 정의에 따라 질의에 적합한 웹 사이트를 검색하는 효과적인 토픽 검색 알고리즘을 제안하고 실험을 통해 그 성능을 평가하였다. 이 연구의 토픽 검색 알고리즘은 먼저 질의에 대한 웹 페이지 검색 결과로부터 적합한 웹 사이트를 선정한 다음, 선정된 사이트의 구조를 이용하여 질의에 대한 적합성 점수를 산출한다. TREC의 .GOV 실험 문헌 집단과 TREC-2004 실험의 질의 및 적합문헌 리스트를 이용한 검색 실험 결과 이 토픽 검색 알고리즘은 상위 10위 안에 최소 2개 이상의 적합 사이트를 검색하여 비교적 높은 수준의 성능을 보였다. 또한 TREC-2004의 적합문헌 리스트 분석을 통해 적합문헌 선정에 토픽 검색의 정의가 엄격하게 적용되지 않은 경우가 있음을 확인하고, 수정된 적합문헌 리스트를 이용하여 토픽 검색 성능을 재평가한 결과 이 연구에서 제안한 토픽 검색 알고리즘의 성능이 월등히 향상되었다.

Abstract

This study proposes a topic distillation algorithm that ranks the relevant sites selected from retrieved web pages, and evaluates the performance of the algorithm. The algorithm calculates the topic score of a site using its hierarchical structure. The TREC .GOV test collection and a set of TREC-2004 queries for topic distillation task are used for the experiment. The experimental results showed the algorithm returned at least 2 relevant sites in top ten retrieval results. We performed an in-depth analysis of the relevant sites list provided by TREC-2004 to find out that the definition of topic distillation was not strictly applied in selecting relevant sites. When we re-evaluated the retrieved sites/sub-sites using the revised list of relevant sites, the performance of the proposed algorithm was improved significantly.

정보관리학회지