바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 군집분석, 검색결과: 33
초록보기
초록

동일한 인명을 갖는 서로 다른 실세계 사람들이 존재하는 현실은 인터넷 세계에서 인명으로 표현된 개체의 신원을 식별해야 하는 문제를 발생시킨다. 상기의 문제가 학술정보 내의 저자명 개체로 제한된 경우를 저자식별이라 부른다. 저자식별은 식별 대상이 되는 저자명 개체 사이의 유사도 즉 저자유사도를 계산하는 단계와 이후 저자명 개체들을 군집화하는 단계로 이루어진다. 저자유사도는 공저자, 논문제목, 게재지정보 등의 저자식별자질들의 자질유사도로부터 계산되는데, 이를 위해 기존에 교사방법과 비교사방법들이 사용되었다. 저자식별된 학습샘플을 사용하는 교사방법은 비교사방법에 비해 다양한 저자식별자질들을 결합하는 최적의 저자유사도함수를 자동학습할 수 있다는 장점이 있다. 그러나, 기존 교사방법 연구에서는 SVM, MEM 등의 일부 기계학습기법만이 시도되었다. 이 논문은 다양한 기계학습기법들이 저자식별에 미치는 성능, 오류, 효율성을 비교하고, 공저자와 논문제목 자질에 대해 자질값 추출 및 자질 유사도 계산을 위한 여러 기법들의 비교분석을 제공한다.

Abstract

In bibliographic data, the use of personal names to indicate authors makes it difficult to specify a particular author since there are numerous authors whose personal names are the same. Resolving same-name author instances into different individuals is called author resolution, which consists of two steps: calculating author similarities and then clustering same-name author instances into different person groups. Author similarities are computed from similarities of author-related bibliographic features such as coauthors, titles of papers, publication information, using supervised or unsupervised methods. Supervised approaches employ machine learning techniques to automatically learn the author similarity function from author-resolved training samples. So far, however, a few machine learning methods have been investigated for author resolution. This paper provides a comparative evaluation of a variety of recent high-performing machine learning techniques on author disambiguation, and compares several methods of processing author disambiguation features such as coauthors and titles of papers.

32
김진원(명지대학교 문헌정보학과 석사과정) ; 이한슬(명지대학교 문헌정보학과 조교수) 2024, Vol.41, No.1, pp.411-438 https://doi.org/10.3743/KOSIM.2024.41.1.411
초록보기
초록

본 연구는 계량서지학적 분석 방법을 통해 여러 영역으로 나누어진 국내 건강정보 관련 연구를 통합적인 시각으로 보고자 하였다. 이를 위해 한국학술지인용색인 데이터베이스를 통해 2002년부터 2023년까지의 국내 ‘건강정보’ 관련 논문 1,193편을 수집하여 시기별 동향, 학문분야, 지적구조, 키워드 변화 시기를 분석하였다. 분석결과, 건강정보 관련 논문 수는 지속적으로 증가하였으며, 2021년 이후 감소하고 있다. 건강정보 관련 연구의 주요 학문분야는 ‘의공학’, ‘예방의학/직업환경의학’, ‘법학’, ‘간호학’, ‘문헌정보학’, ‘학제간연구’로 볼 수 있다. 건강정보 관련 연구의 지적구조를 파악하기 위해 단어동시출현분석을 시행하였다. 이후 도출된 네트워크의 구조와 군집파악을 위해 병렬최근접이웃클러스터링 알고리즘을 적용한 결과 ‘건강정보에 대한 의료공학적 관점’과 ‘건강정보에 대한 사회과학적 관점’이라는 2개의 대군집을 중심으로 그에 속한 4개의 중군집, 17개의 소군집을 파악할 수 있었다. 학문분야와 키워드의 변화 시기를 추적하기 위해 변곡점 분석을 시도하였으며 공통적으로 2010년과 2011년 사이에 변화가 있는 것으로 나타났다. 마지막으로 평균 출판년도와 단어출현빈도를 통해 전략 다이어그램을 도출하였으며 고빈도 키워드를 ‘유망’, ‘성장’, ‘성숙’ 영역으로 구분하여 제시하였다. 본 연구는 주로 내용분석 중심의 선행연구들과 다르게 여러 가지 계량서지학적 방법을 통해 건강정보 관련 연구영역을 통합적인 시각으로 바라보았다는 데 의의가 있다.

Abstract

This study aims to identify and comprehensively view health information-related research trends using a bibliometric analysis. To this end, 1,193 papers from 2002 to 2023 related to “health information” were collected through the Korea Citation Index (KCI) database and analyzed in diverse aspects: research trends by period, academic fields, intellectual structure, and keyword changes. Results indicated that the number of papers related to health information continued to increase and has been decreasing since 2021. The main academic fields of health information-related research included “biomedical engineering,” “preventive medicine/occupational environmental medicine,” “law,” “nursing,” “library and information science,” and “interdisciplinary research.” Moreover, a co-word analysis was performed to understand the intellectual structure of research related to health information. As a result of applying the parallel nearest neighbor clustering (PNNC) algorithm to identify the structure and cluster of the derived network, four clusters and 17 subgroups belonging to them could be identified, centering on two conglomerates: “medical engineering perspective on health information” and “social science perspective on health information.” An inflection point analysis was attempted to track the timing of change in the academic field and keywords, and common changes were observed between 2010 and 2011. Finally, a strategy diagram was derived through the average publication year and word frequency, and high-frequency keywords were presented by dividing them into “promising,” “growth,” and “mature.” Unlike previous studies that mainly focused on content analysis, this study is meaningful in that it viewed the research area related to health information from an integrated perspective using various bibliometric methods.

33
김효윤(연수청학도서관) ; 조재인(인천대학교) 2017, Vol.34, No.1, pp.51-71 https://doi.org/10.3743/KOSIM.2017.34.1.051
초록보기
초록

본 연구는 초등학교 저학년과 고학년, 학부모로 구성된 어린이 도서관 이용자들 200여명이 인지하는 별치 자료간 희망 인지 거리를 다차원척도법(Multi-Dimensional Scaling: MDS)과 K-means 군집분석을 활용해 비교 분석하고 이들의 인지 거리가 실제 어린이 도서관에 어떻게 투영되어 있는지 몇 가지 사례를 통하여 검토해 보았다. 다차원척도법은 분석 대상의 유사성이나 속성 등을 평가하여 공간상에 투영시키는 기법으로 마케팅에서 주로 시장 진단을 위해 활용되지만, 제품이나 시설에 대한 이용자의 인지적 거리를 분석하여 이상적인 물리적 배치 방안을 제시하는 데에도 적용할 수 있다. 분석 결과, 별치 자료간 인지 거리에 있어 초등학교 저학년과 고학년 그리고 학부모 집단간에 각각 차이가 나타났으며, 특히 유․아동자료와 컴퓨터자료 그리고 유아자료와 아동자료간의 인지 거리에 있어 큰 차이가 존재하는 것으로 분석되었다. 한편, Y구의 3개 어린이도서관을 대상으로 분석된 인지 거리 체계가 어떻게 투영되어 있는지 확인해 본 결과, 특정 집단의 인지 체계에 완벽히 부합하는 공간 구조를 지닌 도서관은 존재하지 않았으나, 공통적으로 유․아동자료와 컴퓨터자료, 그리고 유아자료와 아동자료가 분리 배치되어 있다는 점에서 학부모와 초등학생들의 인지 거리가 부분적으로 투영되어 있는 것으로 검토되었다.

Abstract

This study conducted a survey to measure recognition distance between the materials which are located separately in a children’s library targeting 200 elementary school lower grade students, higher grade students, and school parents(adults). And compared recognition distance between the elements of materials of individual visitor group with multidimensional scaling and K-mean group analysis. Multidimensional Scaling (MDS) is a technique for projecting the cognitive state in space by evaluating the similarity or attribute of the analysis target. Even though it is mainly used for market diagnosis in marketing, It can also be applied to present an ideal physical layout plan by analyzing the distance. As a result of analysis, the main discoveries are as follows. First, elementary school students cognize child, baby and computer materials should be adjacent as a same group. But recognition of adults(school parents) is reflected by differing from elementary school students vastly. They cognize that computer materials should be formed as a special group separated from child and baby’s materials. Second, elementary school higher graders and adults(school parents) groups also want to separate their main reading materials from baby’s book, therefore They both want to secure silent reading space separating from baby. Third, as a result to confirming how this recognition distance system of materials is reflected in a real children’s library through three children’s libraries in Y-gu, Incheon, there is no library with structure according perfectly with a recognition system of a particular class, but a recognition system of adults and elementary school students is partially reflected because baby, child and computer materials, and baby and child materials are commonly separated and placed. It is difficult to insist that a recognition system of a visitor group, especially a recognition system of children is absolute consideration conditions in material placement of a children’s library. However, understanding cognition of the user groups can be an important evidentiary factors to offer differentiated service space according to visitors and effective placement of the elements of library resources.

정보관리학회지