바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 주제어 기반 분류, 검색결과: 18
11
노영희(건국대학교) ; 오의경(상명대학교) ; 정대근(전남대학교 문헌정보학과) 2018, Vol.35, No.2, pp.7-36 https://doi.org/10.3743/KOSIM.2018.35.2.007
초록보기
초록

본 연구는 기초학문자료센터가 인문자산 원스톱(One-Stop) 포털 서비스 구축에 있어 효과적인 데이터연계 방향성 제안을 목적으로 하였다. 이를 위해 인문자산을 보유한 국내 기관에 대한 현황을 수집하고 분석하였으며, 대상 기관이 보유한 데이터 분석을 통해 연계 방향성을 제시하였다. 본 연구에서는 첫째, 인문자산의 주제에 대하여 기존 분류체계 검토를 기반으로 인문자산의 분류체계를 제안하였다. 둘째, 조사 대상기관이 보유하고 있는 데이터의 주제와 유형에 대한 구체적인 분석을 통해 인문자산으로 편입될 수 있는 잠재적 데이터의 범주를 설정하였다. 셋째, 인문자산 원스톱 포털 서비스를 제공하고 있는 유사사례 기관의 플랫폼을 분석하였으며, 유사성을 중심으로 원스톱 시스템 구축 시, 적용 가능한 메타필드를 제시하였다.

Abstract

The purpose of this study is to propose an effective direction of data linkage for building the humanities assets one-stop portal service. For this purpose, We collected and analyzed the actual status of the domestic institution with humanities assets, and presented the linkage direction through analysis of the data held by the target organization. The results of this study are as follows: First, we proposed a classification system of humanities assets based on the reviewing the existing classification system on the subject of humanities assets. Second, we set up the categories of potential data that can be incorporated into humanities assets through a detailed analysis of the subject and type of data held by the subject institutions. Third, we analyzed the platforms of similar case organizations providing one-stop portal services for humanities assets and proposed the applicable meta fields when constructing one-stop system based on similarity.

12
정영미(연세대학교) ; 이용구(계명대학교) 2005, Vol.22, No.2, pp.125-145 https://doi.org/10.3743/KOSIM.2005.22.2.125
초록보기
초록

이 연구에서는 문헌 및 질의의 내용을 대표하는 주제어의 중의성 해소를 위해 대표적인 지도학습 모형인 나이브 베이즈 분류기와 비지도학습 모형인 EM 알고리즘을 각각 적용하여 검색 실험을 수행한 다음, 주제어의 중의성 해소를 통해 검색 성능의 향상을 가져올 수 있는지를 평가하였다. 실험문헌 집단은 약 12만 건에 달하는 한국어 신문기사로 구성하였으며, 중의성 해소 대상 단어로는 한국어 동형이의어 9개를 선정하였다. 검색 실험에는 각 중의성 단어를 포함하는 18개의 질의를 사용하였다. 중의성 해소 실험 결과 나이브 베이즈 분류기는 최적의 조건에서 평균 92%의 정확률을 보였으며, EM 알고리즘은 최적의 조건에서 평균 67% 수준의 클러스터링 성능을 보였다. 중의성 해소 알고리즘을 통합한 의미기반 검색에서는 나이브 베이즈 분류기 통합 검색이 약 39.6%의 정확률을 보였고, EM 알고리즘 통합 검색이 약 36%의 정확률을 보였다. 중의성 해소 모형을 적용하지 않은 베이스라인 검색의 정확률 37%와 비교하면 나이브 베이즈 통합 검색은 약 7.4%의 성능 향상률을 보인 반면 EM 알고리즘 통합 검색은 약 3%의 성능 저하율을 보였다.

Abstract

This paper presents a semantic vector space retrieval model incorporating a word sense disambiguation algorithm in an attempt to improve retrieval effectiveness. Nine Korean homonyms are selected for the sense disambiguation and retrieval experiments. The total of approximately 120,000 news articles comprise the raw test collection and 18 queries including homonyms as query words are used for the retrieval experiments. A Naive Bayes classifier and EM algorithm representing supervised and unsupervised learning algorithms respectively are used for the disambiguation process. The Naive Bayes classifier achieved 92% disambiguation accuracy, while the clustering performance of the EM algorithm is 67% on the average. The retrieval effectiveness of the semantic vector space model incorporating the Naive Bayes classifier showed 39.6% precision achieving about 7.4% improvement. However, the retrieval effectiveness of the EM algorithm-based semantic retrieval is 3% lower than the baseline retrieval without disambiguation. It is worth noting that the performances of disambiguation and retrieval depend on the distribution patterns of homonyms to be disambiguated as well as the characteristics of queries.

13
김은주(중앙대학교) ; 노성원(한양의대병원) ; 남태우(중앙대학교) 2016, Vol.33, No.1, pp.53-84 https://doi.org/10.3743/KOSIM.2016.33.1.053
초록보기
초록

이 연구는 한국의 정신의학 분야 국제공동연구 활성화를 위하여, 네트워크 분석에 중점을 두어 정신의학 분야 국제공동연구의 핵심 연구동향을 반영하는 지적구조를 규명하였다. 이를 위해 데이터는 Web of Science를 기반으로 수집하였으며, 검색 대상 기간은 2009년에서 2013년까지로 하였다. 고급검색 기능을 통해 정신의학 연구 분야를 의미하는 SU=“psychiatry”의 검색 식을 사용하였으며, 국제공동연구만을 선택해 총 18,590건의 논문을 수집하였다. 총 18,590건 논문의 저자 키워드와 WoS에서 부여한 키워드를 합쳐 최종 선정된 85개 키워드를 대상으로 분석한 결과는 다음과 같다. 첫째, 질환을 중심으로 총 8개의 세부 주제 영역을 확인하였다. 둘째, 높은 영향력을 가지며 다른 키워드들 간의 매개를 도모하여 주제영역을 확장시키는 총 6개의 핵심 키워드를 확인하였다. 셋째, 커뮤니티 분석을 통해 한국연구재단의 학문분류표를 이용하여 세부 주제영역으로 규명한 결과 총 15군집, 총 12세부 주제영역을 확인하였다.

Abstract

This study clarified the intellectual structure of international collaboration in psychiatry based on analyzing networks in order to vitalize for international collaboration in psychiatry in South Korea. The data set was collected from Web of Science citation database during the period from 2009 to 2013. SU=“psychiatry” search formulary (means field of psychiatric medical research) was used through advanced retrieval function and a total of 18,590 articles were selected among international collaborations. A total of 85 different keywords were selected from the 18,590 articles, and the results of analysis were as follows. First, this study examined 8 sub-subject areas focusing on disorders, and found that major subject areas could be divided into a total of 8 sub-subject areas. Second, this study examined 6 keywords that have a strong impact, and extend subject areas by promoting intermediation between other keywords Third, this study examined sub-subject areas by using the Knowledge Classification Scheme of the National Research Foundation of Korea through community analysis, and found a total of 15 clusters and a total of 12 sub-subject areas.

초록보기
초록

본 연구는 실재 시스템 환경에서 문헌 분류를 위해 범주화 기법을 적용할 경우, 범주화 성능이 어느 정도이며, 적정한 문헌범주화 성능의 달성을 위하여 분류기 학습에 필요한 범주당 가장 이상적인 학습문헌집합의 규모는 무엇인가를 파악하기 위하여 kNN 분류기를 사용하여 실험하였다. 실험문헌집단으로15만 여건의 실제 서비스되는 데이터베이스에서 2,556건 이상의 문헌을 가진 8개 범주를 선정하였다. 이들을 대상으로 범주당 학습문헌수 20개(Tr20)에서 2,000개(Tr2000)까지 단계별로 증가시키며 8개 학습문헌집합 규모를 갖도록 하위문헌집단을 구성한 후, 학습문헌집합 규모에 따른 하위문헌집단 간 범주화 성능을 비교하였다. 8개 하위문헌집단의 거시평균 성능은 F1 값 30%로 선행연구에서 발견된 kNN 분류기의 일반적인 성능에 미치지 못하는 낮은 성능을 보였다. 실험을 수행한 8개 대상문헌집단 중 학습문헌수가 100개인 Tr100 문헌집단이 F1 값 31%로 비용대 효과면에서 분류기 학습에 필요한 최적정의 실험문헌집합수로 판단되었다. 또한, 실험문헌집단에 부여된 주제범주 정확도를 수작업 재분류를 통하여 확인한 후, 이들의 범주별 범주화 성능과 관련성을 기반으로 위 결론의 신빙성을 높였다.

Abstract

This paper examines a level of categorization performance in a reallife collection of abstract articles in the fields of science and technology, and tests the optimal size of documents per category in a training set using a kNN classifier. The corpus is built by choosing categories that hold more than 2,556 documents first, and then 2,556 documents per category are randomly selected. It is further divided into eight subsets of different size of training documents: each set is randomly selected to build training documents ranging from 20 documents (Tr20) to 2,000 documents (Tr2000) per category. The categorization performances of the 8 subsets are compared. The average performance of the eight subsets is 30% in F1 measure which is relatively poor compared to the findings of previous studies. The experimental results suggest that among the eight subsets the Tr100 appears to be the most optimal size for training a kNN classifier. In addition, the correctness of subject categories assigned to the training sets is probed by manually reclassifying the training sets in order to support the above conclusion by establishing a relation between and the correctness and categorization performance.

15
김현희(명지대학교) ; 김용호(부경대학교) 2019, Vol.36, No.3, pp.131-148 https://doi.org/10.3743/KOSIM.2019.36.3.131
초록보기
초록

본 연구는 시청자가 사운드 자료의 주제를 파악하는 과정과 사운드의 특성을 이해하기 위한 인지적 정보처리 모형을 구성하였다. 이후 사건관련유발전위(event related potentials, ERP)의 두뇌의 전후측에 걸쳐서 발현하는 N400, P600 구성요소들을 인지적 정보처리 모형의 언어적 표상에 접목시켜 사운드 요약을 생성하는 방안을 제안하기 위해서 연구 가설들을 수립하였다. 뇌파 실험을 통해서 연구 가설들을 검증한 결과, P600이 사운드 요약의 핵심 구성 요소로 나타났다. 본 연구 결과는 분류 알고리즘 설계에 적용되어 내용 기반 메타데이터 즉, 일반적인 또는 개인화된 미디어 요약(사운드 요약, 비디오 스킴)을 생성하는 데에 활용될 수 있을 것이다.

Abstract

This study constructed a cognitive model of information processing to understand the topic of a sound material and its characteristics. It then proposed methods to generate sound summaries, by incorporating anterior-posterior N400/P600 components of event-related potential (ERP) response, into the language representation of the cognitive model of information processing. For this end, research hypotheses were established and verified them through ERP experiments, finding that P600 is crucial in screening topic-relevant shots from topic-irrelevant shots. The results of this study can be applied to the design of classification algorithm, which can then be used to generate the content-based metadata, such as generic or personalized sound summaries and video skims.

16
심지영(연세대학교) ; 김태수(연세대학교) 2002, Vol.19, No.3, pp.5-30 https://doi.org/10.3743/KOSIM.2002.19.3.005
초록보기
초록

본 연구는 음악의 내용에 해당하는 음렬 패턴을 대상으로 분류자질을 선정하고 이를 기준으로 음렬간 유사도를 측정한 후 음렬간 군집을 형성하였다. 이는 내용기반음악검색 시스템에서 유사한 음렬을 검색 결과로 제시함으로써 이용자 탐색을 용이하게 하기 위함이다. 실험문헌집단으로는 「A Dictionary of Musical Themes」에 수록된 주제소절의 kern 형식 파일을 사용하였으며, 음렬 처리도구로는 Humdrum Toolkit version 1.0을 사용하였다. 음렬의 분절 여부와 시작 위치에 따른 네 가지 형태의 유사도 행렬을 대상으로 계층적 클러스터링 기법을 사용하여 유사한 음렬간 군집을 형성하였다. 이들 결과에 대한 평가는 외적 기준이 되는 수작업 분류표가 있는 경우 WACS 척도를 사용하였고, 음렬 내 임의의 위치에서부터 시작한 음렬을 대상으로 한 경우, 클러스터링 결과로부터 얻어낸 군집 내 공통 자질 패턴 분포를 통해 내적 기준을 마련하여 평가하였다. 평가 결과에 의하면 음렬의 시작 위치와 무관하게 분절한 자질을 사용하여 클러스터링한 결과가 그렇지 않은 것에 비해 뚜렷한 차이를 보이며 높게 나타났다.

Abstract

In this paper, classification feature is selected with focus of musical content, note sequences pattern, and measures similarity between note sequences followed by constructing clusters by similar note sequences, which is easier for users to search by showing the similar note sequences with the search result in the CBMR system. Experimental document was 「A Dictionary of Musical Themes」, the index of theme bar focused on classical music and obtained kern-type file. Humdrum Toolkit version 1.0 was used as note sequences treat tool. The hierarchical clustering method is by stages focused on four-type similarity matrices by whether the note sequences segmentation or not and where the starting point is. For the measurement of the result, WACS standard is used in the case of being manual classification and in the case of the note sequences starling from any point in the note sequences, there is used common feature pattern distribution in the cluster obtained from the clustering result. According to the result, clustering with segmented feature unconnected with the starting point Is higher with distinct difference compared with clustering with non-segmented feature.

17
김아현(중앙대학교 일반대학원 문헌정보학과 석사과정) ; 이승민(중앙대학교 사회과학대학 문헌정보학과 교수) 2023, Vol.40, No.3, pp.55-76 https://doi.org/10.3743/KOSIM.2023.40.3.055
초록보기
초록

본 연구는 대학도서관의 주제가이드 개발 및 개선을 위한 고려사항을 도출하기 위해 대학도서관의 주 이용자인 대학생을 중심으로 학술정보 탐색행태를 분석하였다. 분석 결과, 대학생들은 자신의 주관적 정보탐색능력 수준을 높게 평가하고 있었으나, 구체적인 검색어의 설정을 어려워하는 것으로 나타났다. 학술정보 이용 목적은 구체적이며, 하나의 데이터베이스에서 모든 정보탐색행위를 수행하고자 하는 경향을 보이고 있다. 또한 정보자원 선택 시 신뢰성, 적합성, 최신성을 주로 고려하고 있으며, 대학도서관 및 주제가이드에 대한 인식은 전반적으로 낮게 나타났으나 이에 대한 신뢰성은 높은 것으로 분석되었다. 이를 기반으로 향후 대학도서관에서 주제가이드를 개발하거나 개선할 때는 구체적인 정보탐색 목적에 따른 정보원 분류, 정보자원의 유형별 구성, 정보자원 선택 기준 관련 설명 요소 기술, 종합 데이터베이스에 대한 안내, 주제 키워드 추천, 도서관 마케팅 및 내부 기관과의 긴밀한 협업 관계를 고려하는 것이 필요하다.

Abstract

This study analyzed academic information seeking behavior, focusing on university students, the main users of the university library, to derive considerations for the development and improvement of the subject guide of the university library. As a result of the analysis, university students highly evaluated their subjective information seeking ability, but it was found that it was difficult to set specific search terms. The purpose of using academic information is specific, and it has been shown that there is a tendency to perform all information search activities in one database. In addition, when selecting information resources, reliability, suitability, and recency are primarily taken into consideration. Awareness of university libraries and subject guides was generally low, but their reliability was found to be high. Based on this, it is necessary to consider the classification of information sources according to specific information seeking purposes, the composition of information resources, explanatory element technology related to information resource selection criteria, comprehensive database, topic keyword recommendation, library marketing, and close cooperation with internal institutions.

초록보기
초록

본 연구는 특정 영역 소규모 업무(Small Unit Operation) 수행을 지원하는 태스크 온톨로지 모형 개발에 관한 것이다. 기존 정보관리에서 효과적으로 진화된 지식시스템을 구축하기 위해서는 사전 작업인 온톨로지 개발이 필요하다. 대표적 SUO의 하나인 시민단체를 대상으로 선정하여 시민단체의 조직특성, 기대역할과 부진한 기능, 그리고 업무과정에서 발생되는 정보관리나 활용실태 등을 조사하였다. 그러나 온톨로지 구현의 기초 자료로 삼을 수 있는 시민운동이나 단체들에 대한 분류체계나 시소러스 등이 없는 상황에서 단체 특성 및 관련 업무 그리고 출판물 등의 생산정보나 사이트구성, 활동주제 및 내역 등의 기존 데이터만으로는 지식획득은 부족하다. 따라서 본 연구에서 채택된 모형 개발 방법론은 해당 분야 실무자 및 전문가와의 심도 높은 면담과 관찰이며 이를 통해 현장실무의 업무처리 과정에서 발생하는 지식을 추출하고 정보의 흐름 구조를 파악하여 그를 기반으로 시민단체의 역할 수행을 지원하는 태스크 온톨로지 모형을 구현하였다.

Abstract

This paper presents a model of Task-Ontology for small unit operations(SUO) such as non-government organizations. Despite the rapid development and extension of NGOs in domestic area, most has insufficient structural domain resources in existence and underestimates the importance of information management. To improve the citizen's participation and to activate the conjoint actions among the NGOs, which are critical to its social role-playing in global society, the modeling Task-Ontology is ultimately intended to implement the knowledge management system of NGO. In the perspective of ontology competency, not only the analysis of resources in vary, but also in-depth interviews with the NGO's practicing personnels and subject experts, and also the intensive observations of task-processing are required for the knowledge acquisition.

정보관리학회지