바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 문헌유사도, 검색결과: 23
11
김선욱(경북대학교 사회과학대학 문헌정보학과) ; 양기덕(영남고문헌아카이브센터) 2022, Vol.39, No.3, pp.99-132 https://doi.org/10.3743/KOSIM.2022.39.3.099
초록보기
초록

본 연구의 목적은 LDA 토픽모델링 결과와 BERTopic 토픽모델링 결과를 합성하는 방법론인 Augmented and Extended Topics(AET)를 제안하고, 이를 사용해 문헌정보학 분야의 연구주제를 분석하는 데 있다. AET의 실제 적용결과를 확인하기 위해 2001년 1월부터 2021년 10월까지의 Web of Science 내 문헌정보학 학술지 85종에 게재된 학술논문 서지 데이터 55,442건을 분석하였다. AET는 서로 다른 토픽모델링 결과의 관계를 WORD2VEC 기반 코사인 유사도 매트릭스로 구축하고, 매트릭스 내 의미적 관계가 유효한 범위 내에서 매트릭스 재정렬 및 분할 과정을 반복해 증강토픽(Augmented Topics, 이하 AT)을 추출한 뒤, 나머지 영역에서 코사인 유사도 평균값 순위와 BERTopic 토픽 규모 순위에 대한 조화평균을 통해 확장토픽(Extended Topics, 이하 ET)을 결정한다. 최적 표준으로 도출된 LDA 토픽모델링 결과와 AET 결과를 비교한 결과, AT는 LDA 토픽모델링 토픽을 한층 더 구체화하고 세분화하였으며 ET는 유효한 토픽을 발견하였다. AT(Augmented Topics)의 성능은 LDA 이상이었으며 ET(Extended Topics)는 일부 경우를 제외하고 대부분 LDA와 유사한 수준의 성능을 나타내었다.

Abstract

The purpose of this study is to propose AET (Augmented and Extended Topics), a novel method of synthesizing both LDA and BERTopic results, and to analyze the recently published LIS articles as an experimental approach. To achieve the purpose of this study, 55,442 abstracts from 85 LIS journals within the WoS database, which spans from January 2001 to October 2021, were analyzed. AET first constructs a WORD2VEC-based cosine similarity matrix between LDA and BERTopic results, extracts AT (Augmented Topics) by repeating the matrix reordering and segmentation procedures as long as their semantic relations are still valid, and finally determines ET (Extended Topics) by removing any LDA related residual subtopics from the matrix and ordering the rest of them by (BERTopic topic size rank, Inverse cosine similarity rank). AET, by comparing with the baseline LDA result, shows that AT has effectively concretized the original LDA topic model and ET has discovered new meaningful topics that LDA didn’t. When it comes to the qualitative performance evaluation, AT performs better than LDA while ET shows similar performances except in a few cases.

12
정유경(한남대학교 문헌정보학과) 2023, Vol.40, No.4, pp.259-277 https://doi.org/10.3743/KOSIM.2023.40.4.259
초록보기
초록

본 연구는 국내 문헌정보학 분야의 4대 학술지를 대상으로 구조적토픽모델과 문헌 네트워크 분석을 사용하여 연구영역을 분석하고, 각 학술지의 공통 및 특화된 연구영역을 식별하여 문헌정보학 분야의 학술 지형을 파악하는 것을 목적으로 한다. 연구결과, 문헌정보학 분야의 학술지들이 각기 다른 연구영역에 중점을 두고 있는 것으로 나타났는데, 한국문헌정보학회지는 문헌정보학 분야의 전반적인 연구영역을 가장 포괄적으로 다루고 있으며, 한국비블리아학회지 또한 유사한 연구경향을 보였으나 도서관경영 및 도서관프로그램과 관련된 주제 선호도가 높았다. 한국도서관․정보학회지는 문헌정보학 전반의 연구주제 및 타 학술지에 비해 학교도서관이나 독서교육과 관련된 분야에 특화된 주제들을 많이 다루고 있으며, 정보관리학회지는 정보기술 및 정보학 전반에 대한 주제적 비중이 높아 다른 세 학술지와 비교했을 때 주제적 차별성이 있었다. 본 연구는 학술지별 주요 연구영역을 파악함으로써 연구자들의 논문투고와 학술지의 주제 특성화 및 다양화를 위한 기초자료로 활용될 수 있을 것이다.

Abstract

This study aims to identify the academic landscape of the field of Library and Information Science by analyzing the research areas of the four major domestic journals using structural topic modeling and network analysis. The results show that each journal focuses on different research areas. The Journal of the Korean Society for Library and Information Science covers the most comprehensive range of research areas in the field, while the Journal of the Korean Biblia Society for Library and Information Science shows a similar research trend but with a higher preference for research areas related to library management and library programs. The Journal of Korean Library and Information Science Society deals more with topics related to school libraries and reading education and the Journal of the Korean Society for Information Management focuses more on information technology and information science. This study is able to provide valuable foundational data for researchers in submitting their papers and for the topical specialization and diversification of the journals in the field of Library and Information Science.

13
이용구(계명대학교) ; 우윤희(계명대학교) 2015, Vol.32, No.2, pp.167-192 https://doi.org/10.3743/KOSIM.2015.32.2.167
초록보기
초록

이 연구의 목적은 아시아 지역의 여러 나라 중 대만을 대상으로 문헌정보학 분야의 특성을 연구하는데 있다. 이를 위해 대만 문헌정보학 분야의 주요 학술지 8개를 대상으로 연구 통계와 공저 네트워크를 분석하고, 이를 한국과 비교하였다. 그 결과 연구 통계 측면에서 우리나라와 유사하게 단독 저술이 가장 많으며, 공저 논문의 경우 저자가 2-3인이 가장 많았다. 중심성 분석에서는 대만 국립대 교수를 주축으로 주요 저자별로 공저의 범위와 강도가 높았으며, 이들과 공저한 저자들은 대학원생 또는 대학도서관 사서 등이 주류를 이루었다. 대만 문헌정보학 분야의 고유한 특징으로, 현장과 밀접히 관련된 연구가 주로 게재되는 학술지가 존재하며, 이러한 학술지를 중심으로 현장 사서들의 연구 참여가 활발히 진행되고 있음을 알 수 있다.

Abstract

The purpose of this research was to investigate the characteristics of library and information science (LIS) field in Asian countries, focusing on the case of Taiwan. In order to conduct this study, the obtained statistical data and co-authorship networks based on eight major LIS journals in Taiwan were analyzed and compared to the case of South Korea. In Taiwan like Korea, papers published by a single-author and 2 to 3 co-authors were the most common. The centrality analysis showed that leading professors in the national-level university in Taiwan have strong and distinctive ties in the network. Additional unique characteristics pertaining to collaboration in Taiwan include the existence of journals focused on practical aspects in the field of LIS and active research participation involving librarians who publish papers in these journals.

14
심지영(연세대학교) ; 김태수(연세대학교) 2002, Vol.19, No.3, pp.5-30 https://doi.org/10.3743/KOSIM.2002.19.3.005
초록보기
초록

본 연구는 음악의 내용에 해당하는 음렬 패턴을 대상으로 분류자질을 선정하고 이를 기준으로 음렬간 유사도를 측정한 후 음렬간 군집을 형성하였다. 이는 내용기반음악검색 시스템에서 유사한 음렬을 검색 결과로 제시함으로써 이용자 탐색을 용이하게 하기 위함이다. 실험문헌집단으로는 「A Dictionary of Musical Themes」에 수록된 주제소절의 kern 형식 파일을 사용하였으며, 음렬 처리도구로는 Humdrum Toolkit version 1.0을 사용하였다. 음렬의 분절 여부와 시작 위치에 따른 네 가지 형태의 유사도 행렬을 대상으로 계층적 클러스터링 기법을 사용하여 유사한 음렬간 군집을 형성하였다. 이들 결과에 대한 평가는 외적 기준이 되는 수작업 분류표가 있는 경우 WACS 척도를 사용하였고, 음렬 내 임의의 위치에서부터 시작한 음렬을 대상으로 한 경우, 클러스터링 결과로부터 얻어낸 군집 내 공통 자질 패턴 분포를 통해 내적 기준을 마련하여 평가하였다. 평가 결과에 의하면 음렬의 시작 위치와 무관하게 분절한 자질을 사용하여 클러스터링한 결과가 그렇지 않은 것에 비해 뚜렷한 차이를 보이며 높게 나타났다.

Abstract

In this paper, classification feature is selected with focus of musical content, note sequences pattern, and measures similarity between note sequences followed by constructing clusters by similar note sequences, which is easier for users to search by showing the similar note sequences with the search result in the CBMR system. Experimental document was 「A Dictionary of Musical Themes」, the index of theme bar focused on classical music and obtained kern-type file. Humdrum Toolkit version 1.0 was used as note sequences treat tool. The hierarchical clustering method is by stages focused on four-type similarity matrices by whether the note sequences segmentation or not and where the starting point is. For the measurement of the result, WACS standard is used in the case of being manual classification and in the case of the note sequences starling from any point in the note sequences, there is used common feature pattern distribution in the cluster obtained from the clustering result. According to the result, clustering with segmented feature unconnected with the starting point Is higher with distinct difference compared with clustering with non-segmented feature.

15
윤재혁(성균관대학교 일반대학원 문헌정보학과) ; 도슬기(성균관대학교 일반대학원 문헌정보학과) ; 오삼균(성균관대학교 문헌정보학과) 2020, Vol.37, No.2, pp.197-223 https://doi.org/10.3743/KOSIM.2020.37.2.197
초록보기
초록

본 연구는 통합서지용 한국문헌자동화목록(KORMARC)으로 작성된 서지레코드를 FRBR의 저작(Work) 단위로 군집화 하는 과정에서 나타난 이슈사항들을 분석하고, 이에 대한 해결방안을 고안하였다. 특히 기존의 연구에서는 대표저작자를 식별하고 처리하는 기준이 명확하게 드러나지 않거나 파생저작 레코드의 대표저작자를 선정하는 방법에 대한 논의가 충분히 이루어지지 않았다. 따라서 본 연구는 저작을 창작하는 데 기여한 사람이 다수일 때 대표저작자를 명확하게 식별하기 위한 방법을 고안하는 데 초점을 맞추었다. 이를 위해 책임표시사항(245) 필드의 책임표시 태그(▼d, ▼e)에서 추출한 역할용어를 토대로 표준화된 저자역할용어사전을 개발하여 대표저작자 판별에 활용하는 방안을 마련하였다. 또한 저자명의 유사도와 표제의 유사도를 각각 계산하여 유사도가 일정 수준 이상인 경우 동일한 저작으로 군집화 하는 방법을 채택하였다. 각각의 유사도를 계산하여 동일 저작을 판단하므로 공백, 관제처리, 괄호제거와 같은 데이터 정제 조건을 조정하여 6가지 패턴에 따른 군집화의 정확도를 비교하였고, 저자명과 표제의 유사도가 모두 80퍼센트 이상일 때의 정확도가 가장 높게 나타났다. 본 연구는 대표저작자 선정을 위한 역할용어사전 개발, 대표저작자와 표제의 유사도를 별도로 측정하여 저작군집화를 시도한 실험연구이며 후속 연구에서는 표제 간 유사도 측정의 정확도를 향상시키는 방안과 FRBR 1그룹의 다른 개체(표현형, 구현형, 개별자료) 수준으로 확대하여 활용하는 방안, 국내에서 사용하고 있는 다른 형태의 MARC 데이터에 적용하는 방안을 고안할 예정이다.

Abstract

The purpose of this study is to analyze the issues resulted from the process of grouping KORMARC records using FRBR WORK concept and to suggest a new method. The previous studies did not sufficiently address the criteria or processes for identifying representative authors of records and their derivatives. Therefore, our study focused on devising a method of identifying the representative author when there are multiple contributors in a work. The study developed a method of identifying representative authors using an author role dictionary constructed by extracting role-terms from the statement of responsibility field (245). We also designed another way to group records as a work by calculating similarity measures of authors and titles. The accuracy rate of WORK grouping was the highest when blank spaces, parentheses, and controling processes were removed from titles and the measured similarity rates of authors and titles were higher than 80 percent. This was an experiment study where we developed an author-role dictionary that can be utilized in selecting a representative author and measured the similarity rate of authors and titles in order to achieve effective WORK grouping of KORMARC records. The future study will attempt to devise a way to improve the similarity measure of titles, incorporate FRBR Group 1 entities such as expression, manifestation and item data into the algorithm, and a method of improving the algorithm by utilizing other forms of MARC data that are widely used in Korea.

16
유재복(한국원자력연구원) ; 정영미(연세대학교) 2010, Vol.27, No.1, pp.103-118 https://doi.org/10.3743/KOSIM.2010.27.1.103
초록보기
초록

최근 특허기술의 가치평가가 크게 강조되고 있으며, 그 평가의 수단으로 특허의 피인용횟수가 매우 유용한 척도 중의 하나로 받아들여지고 있다. 그에 따라 이 연구에서는 특허의 피인용횟수와 이에 영향을 미칠만한 형태적․기술적․개념적 요인의 17개 변수들 간의 상관관계를 미국특허를 대상으로 5개 주제분야에 걸쳐 분석하였다. 분석결과 특허의 피인용횟수와 일정 수준 이상의 상관관계, 즉 5% 이상의 설명력을 갖는 변수는 페이지 수, 청구항 수, 참고문헌 평균 피인용횟수, 기술분야 특허증감율, 서지결합도, 동시인용도 및 문헌간유사도 등 7개로 나타났다. 또한 이들 변수에 대한 분산분석 결과 7개 변수 모두 전반적으로 대부분의 주제분야 간에 있어서 평균값의 차이가 있는 것으로 나타났다.

Abstract

Recently, the valuation of patented technology has been greatly emphasized, and patent citation has been accepted as a very useful index of this technology. In this study, we performed correlation analyses between the patent citation counts and 17 explanatory variables of morphological, technological, and conceptual factors with a test dataset of U.S. patents in five subject fields. Seven variables having 5% or more standardized variances(r2) with patent citation counts were identified; number of pages, number of claims, reference-average-citation rate, patent increase/decrease rate, strength of bibliographic coupling, co-citation counts and document similarity. The result of the ANOVA test shows that the mean values of these variables vary among most subject fields.

17
김인후(중앙대학교 문헌정보학과 대학원) ; 김성희(중앙대학교 문헌정보학과) 2022, Vol.39, No.3, pp.293-310 https://doi.org/10.3743/KOSIM.2022.39.3.293
초록보기
초록

본 연구에서는 한국어 데이터로 학습된 BERT 모델을 기반으로 문헌정보학 분야의 문서를 자동으로 분류하여 성능을 분석하였다. 이를 위해 문헌정보학 분야의 7개 학술지의 5,357개 논문의 초록 데이터를 학습된 데이터의 크기에 따라서 자동분류의 성능에 어떠한 차이가 있는지를 분석, 평가하였다. 성능 평가척도는 정확률(Precision), 재현율(Recall), F 척도를 사용하였다. 평가결과 데이터의 양이 많고 품질이 높은 주제 분야들은 F 척도가 90% 이상으로 높은 수준의 성능을 보였다. 반면에 데이터 품질이 낮고 내용적으로 다른 주제 분야들과 유사도가 높고 주제적으로 확실히 구별되는 자질이 적을 경우 유의미한 높은 수준의 성능 평가가 도출되지 못하였다. 이러한 연구는 미래 학술 문헌에서 지속적으로 활용할 수 있는 사전학습모델의 활용 가능성을 제시하기 위한 기초자료로 활용될 수 있을 것으로 기대한다.

Abstract

In this study, we analyzed the performance of the BERT-based document classification model by automatically classifying documents in the field of library and information science based on the KoBERT. For this purpose, abstract data of 5,357 papers in 7 journals in the field of library and information science were analyzed and evaluated for any difference in the performance of automatic classification according to the size of the learned data. As performance evaluation scales, precision, recall, and F scale were used. As a result of the evaluation, subject areas with large amounts of data and high quality showed a high level of performance with an F scale of 90% or more. On the other hand, if the data quality was low, the similarity with other subject areas was high, and there were few features that were clearly distinguished thematically, a meaningful high-level performance evaluation could not be derived. This study is expected to be used as basic data to suggest the possibility of using a pre-trained learning model to automatically classify the academic documents.

18
김성진(Syarcuse University, USA) ; 정동열(이화여자대학교) 2006, Vol.23, No.2, pp.21-37 https://doi.org/10.3743/KOSIM.2006.23.2.021
초록보기
초록

학문의 지식체계를 형성하는데 있어서 하나의 일련과정으로 밀접하게 상호연관된 이론개발 및 이론활용 연구가 뒷받침되어야 한다는 전제 하에, 본 연구는 문헌정보학 연구논문의 이론개발 및 이론활용 사례의 양적/질적 측면을 조사함으로써 문헌정보학의 이론적 기반을 분석하고자 하였다. 특히, 본 연구는 세부주제영역에 따른 이론개발 및 이론활용 연구의 특성에 주목함으로써 문헌정보학의 이론적 기반 형성에 기여한 세부주제영역을 보다 구체적으로 파악하고자 하였다. 이를 위해 1984년부터 2003년에 출판된 1,661편의 연구논문을 대상으로 내용분석을 실시하였다. 분석결과, 22개의 세부주제영역 중에서 정보이용탐색, 정보검색, 도서관경영, 학술커뮤니케이션 영역이 이론개발과 이론활용의 모든 측면에 가장 큰 기여를 한것으로 나타났다. 또한 주제영역별로 생산된 논문 수에 따른 이론적 연구의 비율을 살펴보았을 때, 계량정보학과 전문직 영역에 대한 연구가 매우 이론적인 특성을 보였다. 이 외에 각 세부주제영역별로 사용된 이론을 분석하였을 때, 일부 세부주제영역 간에 유사한 이론적 기반을 공유하고 있는 것으로 나타났다.

Abstract

Based upon the assumption that both theory building and theory use are intertwined to construct a cohesive body of knowledge in the filed, this study attempts to identify the state of theoretical framework by examining the number and the quality of theoretical articles by subfield. Theoretical article is characterized as an incident in which in which the author contributes to the development or the use of theory in his/her own paper. Theoretical incidents were identified by a content analysis of 1,661 articles in four LIS journals from 1984 to 2003. The findings suggest that the four subfields, such as information seeking/use, information retrieval, library management, and scholar communication had great contributions to both theory building and theory use. Also, two research areas such as bibliometrics and professionals are very likely to be theoretical. Further, the analysis of the name of theories used by subfields could give an insight into the understanding of how the theoretical frameworks of each subfield are related.

초록보기
초록

이 연구에서는 연구자의 연구 이력을 분석하기 위해서 White(2000)가 제안한 인용 정체성과 Hellsten 등(2007)이 제안한 자기 인용 네트워크의 두 가지 최신 기법을 비교해보았다. 국내 대표적인 정보학자인 정영미의 연구 성과물을 대상으로 실험적인 분석을 수행해본 결과 두 기법에서 구분한 연구 시기가 동일하게 나뉘었으며 주요 연구 주제도 유사하게 파악되었다. 그러나 인용 정체성 지도에서는 주제영역별로 영향받은 주요 저자를 파악할 수 있는 반면에 자기 인용 네트워크에서는 시기별 핵심 문헌과 선도 문헌이 식별되었다. 따라서 이 두 가지 기법을 상호보완적으로 사용할 때 연구자의 연구 이력에 대해서 풍부한 정보를 획득할 수 있다는 결론을 얻었다.

Abstract

This paper compares two recent methods for exploring a scientist's research history: citation identity and self-citation network. The former is proposed by White(2000), while the latter is suggested by Hellsten et al.(2007). An experimental citation analysis was carried out on the research output of Young Mee Chung, a renouned Korean information scientist. The result shows that the two methods divided the research period into two sub-periods in the same way. They also identified the major research themes very similarly. In the analysis of each method's performance in depth, the two methods revealed different functions to understand a researcher's history. Citation identity was useful to identify authors who have affected Chung's research in terms of research topics. whereas, self-citation network was successful to identify the core papers and leading papers of the research sub-periods. This study indicates the combination of two methods can provide rich information on a scientist's research history.

초록보기
초록

본 연구는 Zeithaml과 Bitner모형을 도서관 E-Service품질 연구를 위해 수정 제안하고자 하는데 그 목적이 있다. 연구 목적을 달성하기 위해 문헌조사방법을 사용하였으며 연구결과 ‘환경적 품질’이 도서관 E-Service품질에 대한 소비자인식을 결정하는데 있어서 가장 중요한 요소임이 밝혀졌다. 이와 더불어 기존의 E-Service 관련연구와 사용성연구와의 비교 분석을 통해 도서관 E-Service를 위한 ‘환경적 품질’의 하부차원들을 제시하였다. 도서관 E-Service의 ‘환경적 품질’에 영향을 미치는 요소로서는 ‘기술적 요소에 대한 개인적 인식’과 ‘과거의 유사서비스 사용경험’이 중요한 것으로 나타났다.

Abstract

The purpose of this study is to suggest a revised model for library e-service quality research based on Zeithaml & Bitner's model. To achieve this purpose, this study reviews the previous literature related to the study of service quality and e-service. According to the study results, ‘physical quality’ is the most important factor which influences on the customer perceptions of library e-service quality. Furthermore, this study suggests eight service quality dimensions of ‘physical quality’ for library e-service. In addition, customer's personal factors and previous experiences with similar services can be regarded as important factors which influence on the ‘physical quality’ of library e-service.

정보관리학회지