바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: distributional similarity, 검색결과: 4
초록보기
초록

이 연구에서는 분포 유사도를 문헌 클러스터링에 적용하여 전통적인 코사인 유사도 공식을 대체할 수 있는 가능성을 모색해보았다. 대표적인 분포 유사도인 KL 다이버전스 공식을 변형한 Jansen-Shannon 다이버전스, 대칭적 스큐 다이버전스, 최소 스큐 다이버전스의 세 가지 공식을 문헌 벡터에 적용하는 방안을 고안하였다. 분포 유사도를 적용한 문헌 클러스터링 성능을 검증하기 위해서 세 실험 집단을 대상으로 두 가지 실험을 준비하여 실행하였다. 첫 번째 문헌 클러스터링 실험에서는 최소 스큐 다이버전스가 코사인 유사도 뿐만 아니라 다른 다이버전스 공식의 성능도 확연히 앞서는 뛰어난 성능을 보였다. 두 번째 실험에서는 피어슨 상관계수를 이용하여 1차 유사도 행렬로부터 2차 분포 유사도를 산출하여 문헌 클러스터링을 수행하였다. 실험 결과는 2차 분포 유사도가 전반적으로 더 좋은 문헌 클러스터링 성능을 보이는 것으로 나타났다. 문헌 클러스터링에서 처리 시간과 분류 성능을 함께 고려한다면 이 연구에서 제안한 최소 스큐 다이버전스 공식을 사용하고, 분류 성능만 고려할 경우에는 2차 분포 유사도 방식을 사용하는 것이 바람직하다고 판단된다.

Abstract

In this study, measures of distributional similarity such as KL-divergence are applied to cluster documents instead of traditional cosine measure, which is the most prevalent vector similarity measure for document clustering. Three variations of KL-divergence are investigated; Jansen-Shannon divergence, symmetric skew divergence, and minimum skew divergence. In order to verify the contribution of distributional similarities to document clustering, two experiments are designed and carried out on three test collections. In the first experiment the clustering performances of the three divergence measures are compared to that of cosine measure. The result showed that minimum skew divergence outperformed the other divergence measures as well as cosine measure. In the second experiment second-order distributional similarities are calculated with Pearson correlation coefficient from the first-order similarity matrixes. From the result of the second experiment, second-order distributional similarities were found to improve the overall performance of document clustering. These results suggest that minimum skew divergence must be selected as document vector similarity measure when considering both time and accuracy, and second-order similarity is a good choice for considering clustering accuracy only.

2
심지영(연세대학교) ; 김태수(연세대학교) 2002, Vol.19, No.3, pp.5-30 https://doi.org/10.3743/KOSIM.2002.19.3.005
초록보기
초록

본 연구는 음악의 내용에 해당하는 음렬 패턴을 대상으로 분류자질을 선정하고 이를 기준으로 음렬간 유사도를 측정한 후 음렬간 군집을 형성하였다. 이는 내용기반음악검색 시스템에서 유사한 음렬을 검색 결과로 제시함으로써 이용자 탐색을 용이하게 하기 위함이다. 실험문헌집단으로는 「A Dictionary of Musical Themes」에 수록된 주제소절의 kern 형식 파일을 사용하였으며, 음렬 처리도구로는 Humdrum Toolkit version 1.0을 사용하였다. 음렬의 분절 여부와 시작 위치에 따른 네 가지 형태의 유사도 행렬을 대상으로 계층적 클러스터링 기법을 사용하여 유사한 음렬간 군집을 형성하였다. 이들 결과에 대한 평가는 외적 기준이 되는 수작업 분류표가 있는 경우 WACS 척도를 사용하였고, 음렬 내 임의의 위치에서부터 시작한 음렬을 대상으로 한 경우, 클러스터링 결과로부터 얻어낸 군집 내 공통 자질 패턴 분포를 통해 내적 기준을 마련하여 평가하였다. 평가 결과에 의하면 음렬의 시작 위치와 무관하게 분절한 자질을 사용하여 클러스터링한 결과가 그렇지 않은 것에 비해 뚜렷한 차이를 보이며 높게 나타났다.

Abstract

In this paper, classification feature is selected with focus of musical content, note sequences pattern, and measures similarity between note sequences followed by constructing clusters by similar note sequences, which is easier for users to search by showing the similar note sequences with the search result in the CBMR system. Experimental document was 「A Dictionary of Musical Themes」, the index of theme bar focused on classical music and obtained kern-type file. Humdrum Toolkit version 1.0 was used as note sequences treat tool. The hierarchical clustering method is by stages focused on four-type similarity matrices by whether the note sequences segmentation or not and where the starting point is. For the measurement of the result, WACS standard is used in the case of being manual classification and in the case of the note sequences starling from any point in the note sequences, there is used common feature pattern distribution in the cluster obtained from the clustering result. According to the result, clustering with segmented feature unconnected with the starting point Is higher with distinct difference compared with clustering with non-segmented feature.

초록보기
초록

이 연구는 우리나라 지자체가 운영하는 통합도서관들을 대상으로 통합검색 서비스의 기능적 특성을 분석하는 것을 목적으로 한다. 분석대상은 서울시의 25개 지자체에서 운영하는 통합도서관들이며, 분석항목은 통합검색과 관련된 12가지 영역의 서비스 기능들로 선택하였다. 연구의 결과는 다음과 같다. 첫째, 통합도서관은 자치구 내 공공도서관과 작은도서관의 연합체이며, 통합검색 서비스를 제공하고 있다. 제공되는 통합검색 서비스의 기능, 서지정보의 항목과 패싯의 유형이 다양하지 못하다. 둘째, 검색결과의 레코드는 타이틀 형식이 아니라, 대부분 아이템 형식이었다. 셋째, 도서정보를 보완하는 보강정보는 책에 대한 소개와 연관정보, 책과 관련된 키워드, 대출관련 정보 등으로 구성된다. 넷째, 통합검색이 디스커버리형 검색보다, 통합목록DB를 기반으로 하는 통합OPAC의 형태를 나타내고 있다. 자치구 내 공공도서관이나 작은도서관들에 분산되어 있는 소장목록DB들에 대한 통합검색을 제공하는데 집중하고 있다. 다섯째, 대부분의 통합도서관은 유사한 서비스 형태를 제공한다. 이 결과를 바탕으로 국내 공공도서관들이 디스커버리형 통합검색 서비스를 기대할 수 있는 개선방안을 제안하였다.

Abstract

The purpose of this study is to analyze the characteristics of the integrated search services for integrated libraries operated by local governments in Korea. The target of analysis was integrated libraries operated by 25 local governments in Seoul, and the analysis elements were selected from service functions in 12 areas related to integrated search. The results of the study are as follows. First, the integrated library is an association of public libraries and small libraries in autonomous districts and provides integrated search services. The provided integrated search service function, types of bibliographic information, and facets are not diverse. Second, the records in the search results were mostly item types, not title types. Third, enrichment information supplementing book information consists of book introductions, related information, book-related keywords, and loan-related information. Fourth, integrated search shows the form of integrated OPAC based on integrated catalog DB rather than discovery-type search. It concentrates on providing an integrated search for catalog DBs distributed in public libraries or small libraries in the autonomous district. Fifth, most integrated libraries provide similar service types. Based on these results, improvement plans were proposed for domestic public libraries to expect discovery-type integrated search services.

4
윤현수(성균관대학교 문헌정보학과 박사과정) ; 오상희(성균관대학교 문헌정보학과 부교수) ; 이영미(성균관대학교 문헌정보학과 석사과정) 2024, Vol.41, No.1, pp.389-409 https://doi.org/10.3743/KOSIM.2024.41.1.389
초록보기
초록

본 연구의 목적은 여대생들의 생식건강정보 탐색행위에 영향을 미치는 요인을 살펴보고 그 관계성을 살펴보는 것이다. 건강신념모델(HBM)과 계획된행동이론(TPB)을 기반으로 지각된 민감성, 지각된 심각성, 지각된 이익, 지각된 장애, 주관적 규범, 지각된 행동통제, 감정적 평가를 주요 요인으로 정의하고 연구를 설계하였다. 대학생 온라인 커뮤니티인 ‘에브리타임’을 통해 서울 소재 4년제 대학교의 여대생을 대상으로 온라인 설문을 실시하여 데이터를 수집하였다. 연구결과, 여대생들은 지각된 민감성, 지각된 이익, 주관적 규범이 높을수록, 반면에 지각된 장애는 낮을수록, 인터넷을 통해 생식건강정보를 탐색할 의도가 높은 것으로 나타났다. 또한 여대생들의 인터넷 생식건강 탐색에 영향을 미치는 요인들은 여대생들의 성경험 유무, 생식기계 질환 경험 유무, 건강관심도 등에 따른 그룹 간의 차이를 보이기도 했다. 본 연구결과는 여대생들을 대상으로 하는 대학도서관이나 보건기관 등이 온라인 건강정보 문해교육이나 관련 서비스 프로그램을 개발하는데 있어 여대생들의 생식건강 인식 정도를 파악하는데 기여할 수 있을 것으로 기대한다.

Abstract

The purpose of this study is to identify the factors affecting female college students’ behaviors in seeking reproductive health information on the Internet and to explore the relationships among these factors. Based on the Health Belief Model(HBM) and the Theory of Planned Behavior(TPB), perceived sensitivity, perceived severity, perceived benefit, perceived barriers, subjective norms, perceived behavioral control, and affective evaluation were defined as key factors, and the study was designed accordingly. An online survey was distributed to female college students in Seoul through the university student’s online community, ‘Everytime.’ The results showed that the intention of female college students to seek reproductive health information via the Internet was associated with higher perceived sensitivity, perceived benefit, and subjective norms, and lower perceived barriers. There were statistically significant differences between groups in terms of sexual experiences, experience with reproductive system disorders, and the level of health interest. We believe that this research outcome will contribute to assessing the level of awareness regarding reproductive health among female college students, thereby aiding in the development of online health information literacy education or related service programs by university libraries, health institutions, and similar entities targeting female college students.

정보관리학회지