바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: text classification, 검색결과: 24
초록보기
초록

본 연구는 국내 해양전문정보센터에서 효율적인 정보서비스를 위해 필요한 멀티미디어 메타데이터베이스와 디지털도서관 통합정보시스템을 구현할 목적으로 선행연구를 조사하고 분석하였다. 연구대상자원은 해양분야의 인쇄매체, 네트워크자원, 원문화일, 동영상 등을 범위로 하였다. 본 연구에서는 인쇄매체를 포함한 각종 멀티미디어 컨텐츠 자원의 기술과 조직을 위해 LC표준으로 사용하고 있는 MODS를 기반으로 하여 통합정보검색서비스를 제공하고자 하였다. 이를 위해 본 연구에서는 해양분야 각종 정보자원 조사, 멀티미디어 정보처리, MODS 등 메타데이터 기술요소 분석, 메타데이터 분류체계, 시스템 구성 및 검색 구현방안의 연구를 수행하였다.

Abstract

A literature analysis for the planning and realization of the multimedia meta database and digital library's integrated information system was carried out to establish the various oceanographic resources in the Oceanographic Information Center, the first in Korea. The study targeted from printed matter, network resources, full-text and to VOD. The focus of the analysis lies in the providing practical integrated information retrieval service for oceanographic resources based on the framework of effective MODS metadata with network resources description. The analyses included oceanographic resources, multimedia information processing, MODS metadata descriptive elements, metadata classification, system organization, and retrieval for planning and implementation of the multimedia meta database system.

22
심경(Systems R&D Center, Iris.Net) ; 정영미(연세대학교) 2006, Vol.23, No.2, pp.265-285 https://doi.org/10.3743/KOSIM.2006.23.2.265
초록보기
초록

문헌범주화에서는 학습문헌집합에 부여된 주제범주의 정확성이 일정 수준을 가진다고 가정한다. 그러나, 이는 실제 문헌집단에 대한 지식이 없이 이루어진 가정이다. 본 연구는 실제 문헌집단에서 기 부여된 주제범주의 정확성의 수준을 알아보고, 학습문헌집합에 기 부여된 주제범주의 정확도와 문헌범주화 성능과의 관계를 확인하려고 시도하였다. 특히, 학습문헌집합에 부여된 주제범주의 질을 수작업 재색인을 통하여 향상시킴으로써 어느 정도까지 범주화 성능을 향상시킬 수 있는가를 파악하고자 하였다. 이를 위하여 과학기술분야의 1,150 초록 레코드 1,150건을 전문가 집단을 활용하여 재색인한 후, 15개의 중복문헌을 제거하고 907개의 학습문헌집합과 227개의 실험문헌집합으로 나누었다. 이들을 초기문헌집단, Recat-1, Recat-2의 재 색인 이전과 이후 문헌집단의 범주화 성능을 kNN 분류기를 이용하여 비교하였다. 초기문헌집단의 범주부여 평균 정확성은 16%였으며, 이 문헌집단의 범주화 성능은 F1값으로 17%였다. 반면, 주제범주의 정확성을 향상시킨 Recat-1 집단은 F1값 61%로 초기문헌집단의 성능을 3.6배나 향상시켰다.

Abstract

In text categorization a certain level of correctness of labels assigned to training documents is assumed without solid knowledge on that of real-world collections. Our research attempts to explore the quality of pre-assigned subject categories in a real-world collection, and to identify the relationship between the quality of category assignment in training set and text categorization performance. Particularly, we are interested in to what extent the performance can be improved by enhancing the quality (i.e., correctness) of category assignment in training documents. A collection of 1,150 abstracts in computer science is re-classified by an expert group, and divided into 907 training documents and 227 test documents (15 duplicates are removed). The performances of before and after re-classification groups, called Initial set and Recat-1/Recat-2 sets respectively, are compared using a kNN classifier. The average correctness of subject categories in the Initial set is 16%, and the categorization performance with the Initial set shows 17% in F1 value. On the other hand, the Recat-1 set scores F1 value of 61%, which is 3.6 times higher than that of the Initial set.

초록보기
초록

본 연구는 최근 7년간 문헌정보학분야에 게재된 논문 1,752건을 대상으로 빈도 분석과 네트워크텍스트 분석을 실시하여 다양한 주제 개념의 분포와 그 관계성을 도출하였다. 더불어 보다 최근의 연구 경향을 분석하고 변화 양상을 살펴보기 위해, 최근 2년 사이에 연구된 482건을 추출하여 2차 분석을 실시하였다. 분석 결과, 최근 7년간 문헌정보학 분야는 “공공도서관”과 “대학도서관” 개념을 중심으로 하는 연구가 가장 높은 출현 빈도를 보였으며, “평가”, “교육”, “웹”은 가장 높은 연결 중심성을 나타내 다양한 문헌정보학의 주제 개념들과 관련을 맺고 연구되고 있는 개념으로 파악할 수 있었다. 최근 2년간을 대상으로 한 2차 분석 결과에서는 “웹”, “분류” 개념이 종전보다 높은 상대 빈도를 보였으며, 네트워크 텍스트 분석 결과에서는 “이용자” 연구와 “공공도서관” 개념이 종전보다 더 다양한 주제 개념들과 관련을 맺고 수행되고 있음을 확인할 수 있었다.

Abstract

In this study, Network Text Analysis was performed on 1,752 articles which had been published in recent 7 years and drew the subject concept distribution and their relations in Library and Information Science research areas. Furthermore, for analyzing more recent trends and changing aspects, this study performed secondary analysis based on 482 articles published in recent 2 years. Results show that “public library”, and “academic library” concepts were most frequently studied in the field and “evaluation”, “education”, and “web” concepts showed the highest-degree centrality during the recent 7 years. In the result of recent two years analysis, “web”, and “classification” concepts showed high frequency and “user”, and “public library” showed an improvement in high degree centrality.

24
진설아(과학기술정책연구원) ; 송민(연세대학교) 2016, Vol.33, No.1, pp.7-32 https://doi.org/10.3743/KOSIM.2016.33.1.007
초록보기
초록

본 연구는 인용 정보와 주제범주 분류체계를 기반으로 한 기존 하향식 접근법과 달리 문헌에 출현한 단어정보를 기반으로 세부주제를 자동 추출하는 토픽 모델링을 사용하여 학제성을 측정하였다. JCR 2013의 Information & Library Science 주제범주에서 5년 영향력 지수 상위 20개 학술지의 최근 5년 동안의 논문 제목과 초록 텍스트를 분석대상으로 사용하였다. 학제성을 측정하기 위한 지수로 ‘분야적 다양성’을 나타내는 Shannon 엔트로피 지수와 Stirling 다양성 지수, ‘네트워크 응집성’을 나타내는 지수로는 토픽 네트워크의 평균 경로길이를 사용하였다. 계산된 다양성과 응집성 지수를 통해 학제성의 유형을 분류한 후 각 유형을 대표하는 학술지들의 토픽 네트워크를 비교하였다. 이를 통해 본 연구의 텍스트 기반 다양성 지수는 기존의 인용정보 기반 다양성 지수와 다른 양상을 보이고 있어 상호보완적으로 활용될 수 있으며, 다양성과 응집성을 모두 고려하여 분류된 각 학술지의 토픽 네트워크를 통해 개별 학술지가 다루는 세부주제의 특성과 연결 정도를 직관적으로 파악할 수 있었다. 이를 통해 토픽 모델링을 통한 텍스트 기반의 학제성 측정이 학술지의 학제성을 나타내는 데에 다양한 역할이 가능함을 확인하였다.

Abstract

This study has measured interdisciplinarity using a topic modeling, which automatically extracts sub-topics based on term information appeared in documents group unlike the traditional top-down approach employing the references and classification system as a basis. We used titles and abstracts of the articles published in top 20 journals for the past five years by the 5-year impact factor under the category of ‘Information & Library Science’ in JCR 2013. We applied ‘Discipline Diversity’ and ‘Network Coherence’ as factors in measuring interdisciplinarity; ‘Shannon Entropy Index’ and ‘Stirling Diversity Index’ were used as indices to gauge diversity of fields while topic network’s average path length was employed as an index representing network cohesion. After classifying the types of interdisciplinarity with the diversity and cohesion indices produced, we compared the topic networks of journals that represent each type. As a result, we found that the text-based diversity index showed different ranking when compared to the reference-based diversity index. This signifies that those two indices can be utilized complimentarily. It was also confirmed that the characteristics and interconnectedness of the sub-topics dealt with in each journal can be intuitively understood through the topic networks classified by considering both the diversity and cohesion. In conclusion, the topic modeling-based measurement of interdisciplinarity that this study proposed was confirmed to be applicable serving multiple roles in showing the interdisciplinarity of the journals.

정보관리학회지