바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: feature, 검색결과: 76
11
김용환(연세대학교) ; 정영미(연세대학교) 2012, Vol.29, No.2, pp.155-171 https://doi.org/10.3743/KOSIM.2012.29.2.155
초록보기
초록

텍스트 범주화에 있어서 일반적인 문제는 문헌을 표현하는 핵심적인 용어라도 학습문헌 집합에 나타나지 않으면 이 용어는 분류자질로 선정되지 않는다는 것과 형태가 다른 동의어들은 서로 다른 자질로 사용된다는 점이다. 이 연구에서는 위키피디아를 활용하여 문헌에 나타나는 동의어들을 하나의 분류자질로 변환하고, 학습문헌 집합에 출현하지 않은 입력문헌의 용어를 가장 유사한 학습문헌의 용어로 대체함으로써 범주화 성능을 향상시키고자 하였다. 분류자질 선정 실험에서는 (1) 비학습용어 추출 시 범주 정보의 사용여부, (2) 용어의 유사도 측정 방법(위키피디아 문서의 제목과 본문, 카테고리 정보, 링크 정보), (3) 유사도 척도(단순 공기빈도, 정규화된 공기빈도) 등 세 가지 조건을 결합하여 실험을 수행하였다. 비학습용어를 유사도 임계치 이상의 최고 유사도를 갖는 학습용어로 대체하여 kNN 분류기로 분류할 경우 모든 조건 결합에서 범주화 성능이 0.35%~1.85% 향상되었다. 실험 결과 범주화 성능이 크게 향상되지는 못하였지만 위키피디아를 활용하여 분류자질을 선정하는 방법이 효과적인 것으로 확인되었다.

Abstract

In text categorization, core terms of an input document are hardly selected as classification features if they do not occur in a training document set. Besides, synonymous terms with the same concept are usually treated as different features. This study aims to improve text categorization performance by integrating synonyms into a single feature and by replacing input terms not in the training document set with the most similar term occurring in training documents using Wikipedia. For the selection of classification features, experiments were performed in various settings composed of three different conditions: the use of category information of non-training terms, the part of Wikipedia used for measuring term-term similarity, and the type of similarity measures. The categorization performance of a kNN classifier was improved by 0.35~1.85% in F1 value in all the experimental settings when non-learning terms were replaced by the learning term with the highest similarity above the threshold value. Although the improvement ratio is not as high as expected, several semantic as well as structural devices of Wikipedia could be used for selecting more effective classification features.

초록보기
초록

국내 학술연구의 동향을 구체적으로 파악하여 연구개발 활동의 체계적인 지원 및 평가는 물론 현재와 미래의 연구 방향을 설정할 수 있는 기초 데이터로서, 개별 학술지 논문에 표준화된 주제 범주(통제키워드)를 부여할 수 있는 효율적인 방안을 모색하였다. 이를 위해 한국연구재단 「학술연구분야분류표」 상의 분류 범주를 국내 학술지 논문에 자동 할당하는 과정에서, 자질선정 기법을 중심으로 자동분류의 성능에 영향을 미치는 주요 요소들에 대한 다각적인 실험을 수행하였다. 그 결과, 실제 환경의 불균형 데이터세트(imbalanced dataset)인 국내 학술지 논문의 자동분류에서는 보다 단순한 분류기와 자질선정 기법, 그리고 비교적 소규모의 학습집합을 사용하여 상당히 좋은 수준의 성능을 기대할 수 있는 것으로 나타났다.

Abstract

As basic data that can systematically support and evaluate R&D activities as well as set current and future research directions by grasping specific trends in domestic academic research, I sought efficient ways to assign standardized subject categories (control keywords) to individual journal papers. To this end, I conducted various experiments on major factors affecting the performance of automatic classification, focusing on feature selection techniques, for the purpose of automatically allocating the classification categories on the National Research Foundation of Korea’s Academic Research Classification Scheme to domestic journal papers. As a result, the automatic classification of domestic journal papers, which are imbalanced datasets of the real environment, showed that a fairly good level of performance can be expected using more simple classifiers, feature selection techniques, and relatively small training sets.

13
이수상(부산대학교) ; 이순영(부산대학교) 2009, Vol.26, No.4, pp.93-112 https://doi.org/10.3743/KOSIM.2009.26.4.093
초록보기
초록

최근 정보검색 환경은 검색 2.0으로 대표되는 차세대 검색서비스에 대한 논의들이 활발해지고 있다. 따라서 이 연구에서는 정보검색의 발전과 진화에 대한 다양한 논의들을 토대로 정보검색의 발전 과정을 구분하였다. 그리고 현재 거론되고 있는 차세대 검색서비스의 등장 배경, 주요 개념, 그리고 관련 사례와 속성을 파악하였으며, 이러한 속성과 사례에 대한 데이터를 통해 차세대 검색서비스를 설명하는 핵심적인 키워드를 확인하기 위한 군집 분석을 수행하였다. 군집 분석의 결과 차세대 검색서비스를 대표하는 주요 키워드는 소셜 검색, 지능형 의미 검색, 그리고 관계기반 검색 등으로 나타났다.

Abstract

Recently in the area of the information environment, there are lively discussions about search 2.0 which is representative of the next generation search services. In this study, we divide information search model into matching and linking models according the developmental stages. Therefore, on the one hand, we analyze the background, main concepts, related attributes and cases of the next generation search services and the other, we identify the representative keywords by the group analysis of various attributes and cases of it. The result shows that the main keywords such as social search, artificial intelligence and semantic search, and relation/network based search are representative of the search 2.0.

14
심지영(연세대학교) ; 김태수(연세대학교) 2002, Vol.19, No.3, pp.5-30 https://doi.org/10.3743/KOSIM.2002.19.3.005
초록보기
초록

본 연구는 음악의 내용에 해당하는 음렬 패턴을 대상으로 분류자질을 선정하고 이를 기준으로 음렬간 유사도를 측정한 후 음렬간 군집을 형성하였다. 이는 내용기반음악검색 시스템에서 유사한 음렬을 검색 결과로 제시함으로써 이용자 탐색을 용이하게 하기 위함이다. 실험문헌집단으로는 「A Dictionary of Musical Themes」에 수록된 주제소절의 kern 형식 파일을 사용하였으며, 음렬 처리도구로는 Humdrum Toolkit version 1.0을 사용하였다. 음렬의 분절 여부와 시작 위치에 따른 네 가지 형태의 유사도 행렬을 대상으로 계층적 클러스터링 기법을 사용하여 유사한 음렬간 군집을 형성하였다. 이들 결과에 대한 평가는 외적 기준이 되는 수작업 분류표가 있는 경우 WACS 척도를 사용하였고, 음렬 내 임의의 위치에서부터 시작한 음렬을 대상으로 한 경우, 클러스터링 결과로부터 얻어낸 군집 내 공통 자질 패턴 분포를 통해 내적 기준을 마련하여 평가하였다. 평가 결과에 의하면 음렬의 시작 위치와 무관하게 분절한 자질을 사용하여 클러스터링한 결과가 그렇지 않은 것에 비해 뚜렷한 차이를 보이며 높게 나타났다.

Abstract

In this paper, classification feature is selected with focus of musical content, note sequences pattern, and measures similarity between note sequences followed by constructing clusters by similar note sequences, which is easier for users to search by showing the similar note sequences with the search result in the CBMR system. Experimental document was 「A Dictionary of Musical Themes」, the index of theme bar focused on classical music and obtained kern-type file. Humdrum Toolkit version 1.0 was used as note sequences treat tool. The hierarchical clustering method is by stages focused on four-type similarity matrices by whether the note sequences segmentation or not and where the starting point is. For the measurement of the result, WACS standard is used in the case of being manual classification and in the case of the note sequences starling from any point in the note sequences, there is used common feature pattern distribution in the cluster obtained from the clustering result. According to the result, clustering with segmented feature unconnected with the starting point Is higher with distinct difference compared with clustering with non-segmented feature.

초록보기
초록

한국의 dCollection이 학위논문 수집기로 활용되고 있는데 반해, 일본의 레포지토리는 다양한 학술 컨텐츠를 수집, 보존, 확산하고 오픈 엑세스를 실현하기 위한 개별 기관의 자발적인 운영 도구로 발전되고 있다. 본 연구는 일본의 기관 레포지토리 통계 DB인 IRDB를 통해 레포지토리의 특성을 통계적으로 분석하고 구축된 컨텐츠량, 종별 구축 비율, 그리고 종간 상관성을 살펴보았다. 또한 등록된 컨텐츠 특성을 변수로 K-means 군집 분석을 수행함으로써, 일본에 형성된 기관 레포지토리가 어떻게 유형화될 수 있는지 분석하였다. 분석 결과, 일본의 기관 레포지토리는 교내학술논문, 학위논문, 기술보고서, 의학자료, 학술잡지논문 등 다양한 컨텐츠를 수용하고 있을 뿐 아니라, 컨텐츠의 특징에 따라 5개의 차별화된 군집으로 유형화됨으로써 다양한 모습으로 발전되어 가고 있었다.

Abstract

While dCollections of Korea have been initiated by a government for metadata harvesting, institutional repositories of Japan have been managed as instituion’s independent tool for not only collectiong, archiving and distributing their intellecture assets, but also realizing open access. This study analyzes IRDB of Japanese statistically for understanding features of institutional repositories and by clustering the repository on the basis of types of contents, the differences have been brightened. According to analysis result, Japanese repository contains diverse types of contents, such as journal articles, scholarly papers, text books and technical reports. etc. and clustered by five distinguished group with different contents type.

16
김나연(이화여자대학교 일반대학원 문헌정보학과 박사과정) ; 정은경(이화여자대학교 문헌정보학과 교수) 2024, Vol.41, No.1, pp.537-560 https://doi.org/10.3743/KOSIM.2024.41.1.537
초록보기
초록

오픈 과학으로 진화하는 학문 생태계 속에서 개방형 동료심사는 학술 커뮤니케이션의 투명성과 개방성을 강화하는 방안으로 주목받고 있다. 본 연구는 개방형 동료심사를 도입한 오픈액세스 학술지 118건을 대상으로 개방형 동료심사 제도 구성요소의 채택 현황과 출판사 유형, 국가․대륙별, 언어별, 학문 분야별 특성을 살펴보았다. 개방형 동료심사는 심사 보고서 또는 심사 전 논고를 공개하거나 저자와 심사자의 신원을 상호 간에 공개하는 등 다양한 방식으로 구현되었다. 또한 학문 분야별로 채택된 구성요소 간에 차이를 발견할 수 있었다. 출판사 유형별 비중이 큰 상업 출판사가 대체로 많이 채택한 것으로 나타났으며, 주로 유럽에 속하는 국가에서 영어로 발행되는 현황이다. 분야별로 살펴보면, 전통적으로 개방적인 학술 커뮤니케이션을 지향하는 의약학, 자연과학 분야에서 더욱 활발한 개방형 동료심사 제도를 찾아볼 수 있었던 반면, 복합학, 인문학 분야에서는 소수의 학술지를 찾아볼 수 있다. 이를 통해 개방형 동료심사 제도의 학술지 채택 현황을 파악할 수 있으며, 개방형 동료심사 제도 채택에 따른 학술 커뮤니티의 특성에 대한 이해를 높일 수 있다.

Abstract

In an academic ecosystem evolving into open science, open peer review is gaining attention as a way to enhance transparency and openness in scholarly communication. This study examines the adoption of open peer review components in 118 open access journals that have implemented open peer review, and their characteristics by publisher type, country/continent, language, and discipline. Open peer review has been implemented in a variety of ways, including making review reports or pre-prints publicly available or disclosing the identities of authors and reviewers to each other. We also found differences in the components adopted across disciplines. It appears that commercial publishers, which account for a large proportion of publisher types, have generally adopted it, and it is mainly published in English in European countries. By discipline, we find more open peer review in the medical and natural sciences, which traditionally aim for open scholarly communication and fewer journals in the multidisciplinary and humanities. This provides insights into the adoption of open peer review by journals, as well as a better understanding of the characteristics of the academic community in terms of their adoption of open peer review.

초록보기
초록

로치오 알고리즘에 기반한 자동분류의 성능 향상을 위하여 두 개의 실험집단(LISA, Reuters-21578)을 대상으로 여러 가중치부여 기법들을 검토하였다. 먼저, 가중치 산출에 사용되는 요소를 크게 문헌요소(document factor), 문헌집합 요소(document set factor), 범주 요소(category factor)의 세 가지로 구분하여 각 요소별 단일 가중치부여 기법의 분류 성능을 살펴보았고, 다음으로 이들 가중치 요소들 간의 조합 가중치부여 기법에 따른 성능을 알아보았다. 그 결과, 각 요소별로는 범주 요소가 가장 좋은 성능을 보였고, 그 다음이 문헌집합 요소, 그리고 문헌 요소가 가장 낮은 성능을 나타냈다. 가중치 요소 간의 조합에서는 일반적으로 사용되는 문헌 요소와 문헌집합 요소의 조합 가중치(tfidf or ltfidf)와 함께 문헌 요소를 포함하는 조합(tf*cat or ltf*cat) 보다는, 오히려 문헌 요소를 배제하고 문헌 집합 요소를 범주 요소와 결합한 조합 가중치 기법(idf*cat)이 가장 좋은 성능을 보였다. 그러나 실험집단 측면에서 단일 가중치와 조합 가중치를 서로 비교한 결과에 따르면, LISA에서 범주 요소만을 사용한 단일 가중치(cat only)가 가장 좋은 성능을 보인 반면, Reuters-21578에서는 문헌집합 요소와 범주 요소간의 조합 가중치(idf*cat)의 성능이 가장 우수한 것으로 나타났다. 따라서 가중치부여 기법에 대한 실제 적용에서는, 분류 대상이 되는 문헌집단 내 범주들의 특성을 신중하게 고려할 필요가 있다.

Abstract

This study examines various weighting methods for improving the performance of automatic classification based on Rocchio algorithm on two collections(LISA, Reuters-21578). First, three factors for weighting are identified as document factor, document factor, category factor for each weighting schemes, the performance of each was investigated. Second, the performance of combined weighting methods between the single schemes were examined. As a result, for the single schemes based on each factor, category-factor-based schemes showed the best performance, document set-factor-based schemes the second, and document-factor-based schemes the worst. For the combined weighting schemes, the schemes(idf*cat) which combine document set factor with category factor show better performance than the combined schemes(tf*cat or ltf*cat) which combine document factor with category factor as well as the common schemes(tfidf or ltfidf) that combining document factor with document set factor. However, according to the results of comparing the single weighting schemes with combined weighting schemes in the view of the collections, while category-factor-based schemes(cat only) perform best on LISA, the combined schemes(idf*cat) which combine document set factor with category factor showed best performance on the Reuters-21578. Therefore for the practical application of the weighting methods, it needs careful consideration of the categories in a collection for automatic classification.

18
김지수(한남대학교 정보융합연구소) ; 천희수(한남대학교 정보융합연구소) ; 문서현(한남대학교 정보융합연구소) ; 권선영(한남대학교 문헌정보학과) 2022, Vol.39, No.1, pp.219-256 https://doi.org/10.3743/KOSIM.2022.39.1.219
초록보기
초록

지능정보사회에서 VR 기술은 차세대 기술로서 주목받으며 그 중요성이 더욱 강조되고 있다. 이러한 배경에서 도서관에서도 VR 기술을 접목해야 할 필요성이 대두되고 있다. 본 연구는 국내외 도서관에서 이용되고 있는 VR 콘텐츠를 조사하여 분류하고 유형과 특징을 분석하는 데 목적이 있다. 따라서 본 연구에서는 VR 기술이 적용되고 있는 국내외 도서관을 대상으로 VR 콘텐츠 사례를 수집하여 분석하였으며, 분석 결과가 시사하는 바를 바탕으로 향후 VR 콘텐츠를 도서관에 적용하고자 할 때 유의해야 할 사항들을 제언하였다. 본 연구는 기존의 연구에서 중점적으로 논의되지 않았던 VR 콘텐츠를 대상으로 실제 사례에 기반하여 연구를 진행하였다는 점에서 의의가 있다.

Abstract

In an intelligent information society, VR technology is attracting attention as next-generation technology, and its importance as been emphasized. Against this background, there is a need to incorporate VR technology in libraries. The purpose of this study is to investigate and classify VR contents used in domestic and foreign libraries, and to analyze their characteristics and status. Therefore, in this study, cases of VR content were collected and analyzed for domestic and foreign libraries to which VR technology is applied and based on the implications of the analysis results, matters to be noted when applying VR content to the library in the future were suggested. This study is meaningful in that it conducted a study based on actual cases targeting VR content that was not discussed intensively in previous studies.

19
육지희(연세대학교 일반대학원 문헌정보학과) ; 송민(연세대학교) 2018, Vol.35, No.2, pp.63-88 https://doi.org/10.3743/KOSIM.2018.35.2.063
초록보기
초록

본 연구는 LDA 토픽 모델과 딥 러닝을 적용한 단어 임베딩 기반의 Doc2Vec 기법을 활용하여 자질을 선정하고 자질집합의 크기와 종류 및 분류 알고리즘에 따른 분류 성능의 차이를 평가하였다. 또한 자질집합의 적절한 크기를 확인하고 문헌의 위치에 따라 종류를 다르게 구성하여 분류에 이용할 때 높은 성능을 나타내는 자질집합이 무엇인지 확인하였다. 마지막으로 딥 러닝을 활용한 실험에서는 학습 횟수와 문맥 추론 정보의 유무에 따른 분류 성능을 비교하였다. 실험문헌집단은 PMC에서 제공하는 생의학 학술문헌을 수집하고 질병 범주 체계에 따라 구분하여 Disease-35083을 구축하였다. 연구를 통하여 가장 높은 성능을 나타낸 자질집합의 종류와 크기를 확인하고 학습 시간에 효율성을 나타냄으로써 자질로의 확장 가능성을 가지는 자질집합을 제시하였다. 또한 딥 러닝과 기존 방법 간의 차이점을 비교하고 분류 환경에 따라 적합한 방법을 제안하였다.

Abstract

This research evaluated differences of classification performance for feature selection methods using LDA topic model and Doc2Vec which is based on word embedding using deep learning, feature corpus sizes and classification algorithms. In addition to find the feature corpus with high performance of classification, an experiment was conducted using feature corpus was composed differently according to the location of the document and by adjusting the size of the feature corpus. Conclusionally, in the experiments using deep learning evaluate training frequency and specifically considered information for context inference. This study constructed biomedical document dataset, Disease-35083 which consisted biomedical scholarly documents provided by PMC and categorized by the disease category. Throughout the study this research verifies which type and size of feature corpus produces the highest performance and, also suggests some feature corpus which carry an extensibility to specific feature by displaying efficiency during the training time. Additionally, this research compares the differences between deep learning and existing method and suggests an appropriate method by classification environment.

초록보기
초록

Abstract

As IT technology develops rapidly and the personal dissemination of smart devices increases, video material is especially used as a medium of information transmission among audiovisual materials. Video as an information service content has become an indispensable element, and it has been used in various ways such as unidirectional delivery through TV, interactive service through the Internet, and audiovisual library borrowing. Especially, in the Internet environment, the information provider tries to reduce the effort and cost for the processing of the provided information in view of the video service through the smart device. In addition, users want to utilize only the desired parts because of the burden on excessive network usage, time and space constraints. Therefore, it is necessary to enhance the usability of the video by automatically classifying, summarizing, and indexing similar parts of the contents. In this paper, we propose a method of automatically segmenting the shots that make up videos by analyzing the contents and characteristics of language education videos and indexing the detailed contents information of the linguistic videos by combining visual features. The accuracy of the semantic based shot segmentation is high, and it can be effectively applied to the summary service of language education videos.

정보관리학회지