바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: classifier, 검색결과: 7
1
김인후(중앙대학교 문헌정보학과 대학원) ; 김성희(중앙대학교 문헌정보학과) 2022, Vol.39, No.3, pp.293-310 https://doi.org/10.3743/KOSIM.2022.39.3.293
초록보기
초록

본 연구에서는 한국어 데이터로 학습된 BERT 모델을 기반으로 문헌정보학 분야의 문서를 자동으로 분류하여 성능을 분석하였다. 이를 위해 문헌정보학 분야의 7개 학술지의 5,357개 논문의 초록 데이터를 학습된 데이터의 크기에 따라서 자동분류의 성능에 어떠한 차이가 있는지를 분석, 평가하였다. 성능 평가척도는 정확률(Precision), 재현율(Recall), F 척도를 사용하였다. 평가결과 데이터의 양이 많고 품질이 높은 주제 분야들은 F 척도가 90% 이상으로 높은 수준의 성능을 보였다. 반면에 데이터 품질이 낮고 내용적으로 다른 주제 분야들과 유사도가 높고 주제적으로 확실히 구별되는 자질이 적을 경우 유의미한 높은 수준의 성능 평가가 도출되지 못하였다. 이러한 연구는 미래 학술 문헌에서 지속적으로 활용할 수 있는 사전학습모델의 활용 가능성을 제시하기 위한 기초자료로 활용될 수 있을 것으로 기대한다.

Abstract

In this study, we analyzed the performance of the BERT-based document classification model by automatically classifying documents in the field of library and information science based on the KoBERT. For this purpose, abstract data of 5,357 papers in 7 journals in the field of library and information science were analyzed and evaluated for any difference in the performance of automatic classification according to the size of the learned data. As performance evaluation scales, precision, recall, and F scale were used. As a result of the evaluation, subject areas with large amounts of data and high quality showed a high level of performance with an F scale of 90% or more. On the other hand, if the data quality was low, the similarity with other subject areas was high, and there were few features that were clearly distinguished thematically, a meaningful high-level performance evaluation could not be derived. This study is expected to be used as basic data to suggest the possibility of using a pre-trained learning model to automatically classify the academic documents.

2
박서정(연세대학교 문헌정보학과) ; 이수빈(연세대학교 문헌정보학과) ; 김우정(연세대학교 의과대학 용인세브란스병원 정신건강의학교실) ; 송민(연세대학교 문헌정보학과) 2022, Vol.39, No.1, pp.91-117 https://doi.org/10.3743/KOSIM.2022.39.1.091
초록보기
초록

국내를 비롯하여 전 세계적으로 우울증 환자 수가 매년 증가하는 추세이다. 그러나 대다수의 정신질환 환자들은 자신이 질병을 앓고 있다는 사실을 인식하지 못해서 적절한 치료가 이루어지지 않고 있다. 우울 증상이 방치되면 자살과 불안, 기타 심리적인 문제로 발전될 수 있기에 우울증의 조기 발견과 치료는 정신건강 증진에 있어 매우 중요하다. 이러한 문제점을 개선하기 위해 본 연구에서는 한국어 소셜 미디어 텍스트를 활용한 딥러닝 기반의 우울 경향 모델을 제시하였다. 네이버 지식인, 네이버 블로그, 하이닥, 트위터에서 데이터 수집을 한 뒤 DSM-5 주요 우울 장애 진단 기준을 활용하여 우울 증상 개수에 따라 클래스를 구분하여 주석을 달았다. 이후 구축한 말뭉치의 클래스 별 특성을 살펴보고자 TF-IDF 분석과 동시 출현 단어 분석을 실시하였다. 또한, 다양한 텍스트 특징을 활용하여 우울 경향 분류 모델을 생성하기 위해 단어 임베딩과 사전 기반 감성 분석, LDA 토픽 모델링을 수행하였다. 이를 통해 문헌 별로 임베딩된 텍스트와 감성 점수, 토픽 번호를 산출하여 텍스트 특징으로 사용하였다. 그 결과 임베딩된 텍스트에 문서의 감성 점수와 토픽을 모두 결합하여 KorBERT 알고리즘을 기반으로 우울 경향을 분류하였을 때 가장 높은 정확률인 83.28%를 달성하는 것을 확인하였다. 본 연구는 다양한 텍스트 특징을 활용하여 보다 성능이 개선된 한국어 우울 경향 분류 모델을 구축함에 따라, 한국 온라인 커뮤니티 이용자 중 잠재적인 우울증 환자를 조기에 발견해 빠른 치료 및 예방이 가능하도록 하여 한국 사회의 정신건강 증진에 도움을 줄 수 있는 기반을 마련했다는 점에서 의의를 지닌다.

Abstract

The number of depressed patients in Korea and around the world is rapidly increasing every year. However, most of the mentally ill patients are not aware that they are suffering from the disease, so adequate treatment is not being performed. If depressive symptoms are neglected, it can lead to suicide, anxiety, and other psychological problems. Therefore, early detection and treatment of depression are very important in improving mental health. To improve this problem, this study presented a deep learning-based depression tendency model using Korean social media text. After collecting data from Naver KonwledgeiN, Naver Blog, Hidoc, and Twitter, DSM-5 major depressive disorder diagnosis criteria were used to classify and annotate classes according to the number of depressive symptoms. Afterwards, TF-IDF analysis and simultaneous word analysis were performed to examine the characteristics of each class of the corpus constructed. In addition, word embedding, dictionary-based sentiment analysis, and LDA topic modeling were performed to generate a depression tendency classification model using various text features. Through this, the embedded text, sentiment score, and topic number for each document were calculated and used as text features. As a result, it was confirmed that the highest accuracy rate of 83.28% was achieved when the depression tendency was classified based on the KorBERT algorithm by combining both the emotional score and the topic of the document with the embedded text. This study establishes a classification model for Korean depression trends with improved performance using various text features, and detects potential depressive patients early among Korean online community users, enabling rapid treatment and prevention, thereby enabling the mental health of Korean society. It is significant in that it can help in promotion.

3
김지수(한남대학교 정보융합연구소) ; 천희수(한남대학교 정보융합연구소) ; 문서현(한남대학교 정보융합연구소) ; 권선영(한남대학교 문헌정보학과) 2022, Vol.39, No.1, pp.219-256 https://doi.org/10.3743/KOSIM.2022.39.1.219
초록보기
초록

지능정보사회에서 VR 기술은 차세대 기술로서 주목받으며 그 중요성이 더욱 강조되고 있다. 이러한 배경에서 도서관에서도 VR 기술을 접목해야 할 필요성이 대두되고 있다. 본 연구는 국내외 도서관에서 이용되고 있는 VR 콘텐츠를 조사하여 분류하고 유형과 특징을 분석하는 데 목적이 있다. 따라서 본 연구에서는 VR 기술이 적용되고 있는 국내외 도서관을 대상으로 VR 콘텐츠 사례를 수집하여 분석하였으며, 분석 결과가 시사하는 바를 바탕으로 향후 VR 콘텐츠를 도서관에 적용하고자 할 때 유의해야 할 사항들을 제언하였다. 본 연구는 기존의 연구에서 중점적으로 논의되지 않았던 VR 콘텐츠를 대상으로 실제 사례에 기반하여 연구를 진행하였다는 점에서 의의가 있다.

Abstract

In an intelligent information society, VR technology is attracting attention as next-generation technology, and its importance as been emphasized. Against this background, there is a need to incorporate VR technology in libraries. The purpose of this study is to investigate and classify VR contents used in domestic and foreign libraries, and to analyze their characteristics and status. Therefore, in this study, cases of VR content were collected and analyzed for domestic and foreign libraries to which VR technology is applied and based on the implications of the analysis results, matters to be noted when applying VR content to the library in the future were suggested. This study is meaningful in that it conducted a study based on actual cases targeting VR content that was not discussed intensively in previous studies.

초록보기
초록

국내 학술연구의 동향을 구체적으로 파악하여 연구개발 활동의 체계적인 지원 및 평가는 물론 현재와 미래의 연구 방향을 설정할 수 있는 기초 데이터로서, 개별 학술지 논문에 표준화된 주제 범주(통제키워드)를 부여할 수 있는 효율적인 방안을 모색하였다. 이를 위해 한국연구재단 「학술연구분야분류표」 상의 분류 범주를 국내 학술지 논문에 자동 할당하는 과정에서, 자질선정 기법을 중심으로 자동분류의 성능에 영향을 미치는 주요 요소들에 대한 다각적인 실험을 수행하였다. 그 결과, 실제 환경의 불균형 데이터세트(imbalanced dataset)인 국내 학술지 논문의 자동분류에서는 보다 단순한 분류기와 자질선정 기법, 그리고 비교적 소규모의 학습집합을 사용하여 상당히 좋은 수준의 성능을 기대할 수 있는 것으로 나타났다.

Abstract

As basic data that can systematically support and evaluate R&D activities as well as set current and future research directions by grasping specific trends in domestic academic research, I sought efficient ways to assign standardized subject categories (control keywords) to individual journal papers. To this end, I conducted various experiments on major factors affecting the performance of automatic classification, focusing on feature selection techniques, for the purpose of automatically allocating the classification categories on the National Research Foundation of Korea’s Academic Research Classification Scheme to domestic journal papers. As a result, the automatic classification of domestic journal papers, which are imbalanced datasets of the real environment, showed that a fairly good level of performance can be expected using more simple classifiers, feature selection techniques, and relatively small training sets.

5
김성훈(성균관대학교) ; 도슬기(성균관대학교 문헌정보학과) ; 한상은(카이스트 디지털인문사회과학센터) ; 김재훈(한국과학기술정보연구원) ; 임석종(한국과학기술정보연구원) ; 박진호(한성대학교) 2022, Vol.39, No.4, pp.269-306 https://doi.org/10.3743/KOSIM.2022.39.4.269
초록보기
초록

본 연구는 성숙도 모델 개념을 활용하여 디지털 전환 성과를 측정할 수 있는 지표 개발을 시도하였다. 디지털 전환을 위해서는 단순한 서비스 개선이 아니라 조직, 업무 변화까지를 고려할 필요가 있다. 여기서는 우리나라의 대표적인 과학기술정보서비스 기관인 KISTI의 디지털 전환 측정을 위한 모델 개발을 목표로 하였다. KSITI는 이미 디지털 전환을 위한 BPR 작업을 수행한 바 있으며, 성숙도 모델 개념을 차용하였다. 단, BPR에서는 해당 결과를 측정할 수 있는 방법은 존재하지 않는다. 본 논문에서는 성숙모 모델을 기반으로 디지털 전환을 측정할 수 있는 지표를 개발하였다. 지표개발은 모델 개발과 평가 두 가지 방법으로 수행하였다. 모델 구성을 위한 사례는 기존 KISTI에서 수행한 관련 연구, 다양한 국내․외 사례를 통해 이루어졌다. 검증 전 모델은 대분류를 기준으로 기술(37개), 데이터(45개), 전략(18개), 조직(인력)(36개), (사회적)영향력(14개)이었다. 검증 후에 최종 모델은 기술(20개/17개 지표 탈락), 데이터(36개/9개 지표 탈락), 전략(18개/유지), 조직(인력)(30개/6개 지표 탈락), (사회적)영향력(13개/1개 지표 탈락)으로 구성되었다.

Abstract

This study aimed to develop indicators that can measure the digital transformation performance of science and technology information construction and sharing systems by utilizing the Digital Curation Maturity Models. For digital transformation, it is necessary to consider not only simple service improvement but also organizational and business changes. In this study, we aimed to develop a model for measuring the digital transformation of KISTI, Korea’s representative science and technology information service organization. KISTI has already carried out BPR work for digital transformation and borrowed the concept of a maturity model. However, in BPR, there is no method to measure the result. Therefore, in this paper, we developed an index to measure digital transformation based on the maturity model. Indicator development was carried out in two ways: model development and evaluation. Cases for model construction were made through a comprehensive review of existing KISTI and various domestic and foreign cases. The models before verification were technology (37), data (45), strategy (18), organization (36), and (social)influence (14) based on the major categories. After verification using confirmatory factor analysis, the model is classified as technology (20 / 17 indicators dropped), data (36 / 9 indicators dropped), strategy (18 / maintenance), organization(30 / 6 indicators dropped), and (social) influence (13 indicators / 1 indicator dropped).

6
장수현(중앙대학교 문헌정보학과) ; 남영준(중앙대학교) 2022, Vol.39, No.3, pp.263-292 https://doi.org/10.3743/KOSIM.2022.39.3.263
초록보기
초록

본 연구는 문헌정보학 현장인 도서관에서 제공되는 서비스인 이용자 교육의 관련 개념인 리터러시가 각종 문헌정보학 연구 분야에서 어떠한 연구 주제를 다루는지 확인하는 것을 목적으로 한다. 이를 위해 WoS와 KCI 데이터베이스에서 문헌정보학 분야 리터러시 관련 논문을 수집하여 키워드 분석 및 토픽 모델링 분석 기법을 상호보완적으로 사용해 분석하였다. 분석 결과, WoS와 KCI의 문헌정보학 분야 리티러시 관련 연구 동향은 저자 키워드, 주요 주제 등에서 차이가 있는 것으로 나타났으며, 토픽 모델링을 통해 KCI의 리터러시 관련 연구를 3개의 토픽으로 분류하였다. 또한, 연구에서 확인한 국내 문헌정보학 분야 리터러시 연구 동향은 전체 리터러시 관련 연구 동향과 연구량 급증 시기, 핵심 다빈출 키워드 차이가 있음을 분석하였다. 특히, 전체 분야 리터러시 연구는 ‘리터러시’, ‘교육’, ‘미디어’, ‘디지털’ 등의 단어가 다수 도출되었지만 문헌정보학 분야의 리터러시 연구는 ‘정보활용능력’, ‘학교도서관’ 등의 키워드가 다수 등장하였다. 이를 바탕으로 향후 국내에서도 정보가 급증하는 오늘날의 정보화 환경에 맞춰 정보에 대한 평가적인 안목을 기를 수 있는 능력에 관한 연구가 필요하다는 결론을 도출하였다.

Abstract

The purpose of this study is to identify the topics of research related to the concepts of literacy in the field of Library and Information Science which is related to user education in libraries. Data were collected from the WoS and KCI databases, and complementary keyword analysis and topic modeling analysis techniques were used to identify topics of literature-related research articles in the field of Library and Information Science. Findings presented that there was a difference in keywords and topics between the two databases. Literacy-related topics identified from the KCI database were classified into three groups through topic modeling. Also, it was analyzed that there is a difference between the overall literacy-related research trend, the timing of the surge in research volume, and key frequent keywords in the Library and Information Science field confirmed in the study. In particular, in the study of literacy in all fields, a number of words such as ‘literacy’, ‘education’, ‘media’, and ‘digital’ were derived. However, in literature research in the field of Library and Information Science, keywords such as ‘information utilization ability’ and ‘school library’ appeared. Based on this, it was concluded that research on the ability to develop an evaluative eye for information is needed in line with today’s information environment, where information is rapidly increasing in Korea in the future.

7
남동인(연세대학교 문헌정보학과 석사과정) ; 박지홍(연세대학교 문헌정보학과) 2022, Vol.39, No.2, pp.203-232 https://doi.org/10.3743/KOSIM.2022.39.2.203
초록보기
초록

약물중독 혹은 약물사용장애(substance use disorder)는 세계적으로 그 위험성과 유행성이 지속적으로 관측 되고 있다. 이러한 배경에서 수많은 관련 연구들이 진행이 되어왔지만, 이와 관련한 계량서지학적 분석은 미진한 상황이다. 특히, 약물중독과 관련된 다양한 특성들을 종합적으로 반영한 거시적 차원의 계량서지학적 접근법을 활용한 연구는 찾아보기가 힘든 상황이다. 이 연구에서는 이러한 약물중독의 다차원적 특성을 반영하기 위해 사회과학, 자연과학기술, 융복합 분야에서의 약물중독 연구 동향을 비교 분석하였다. 이 연구는 2002년부터 2021년까지의 약물중독 연구 논문을 Web of Science로부터 검색 후 수집하였으며, SCI(E) 및 SSCI 정보를 토대로 학문 분야를 분류하였다. 저자 키워드 동시출현 분석을 수행한 결과, 자연과학기술은 신경정신약물과 보상시스템에 관한 연구가 주를 이루었고, 사회과학 분야에서는 이보다는 인구학적 특성이 반영된 약물중독 연구가 수행되어 왔음을 알 수 있었고, 융복합 분야에서는 이러한 동향을 모두 아우르고 있는 것을 확인할 수 있었다. 저자 동시인용 분석도 수행을 하였는데, 이를 통해 자연과학기술 분야는 슈퍼 저자들이 관측된 반면, 사회과학 분야에서는 개인 저자뿐 아니라 기관 저자까지도 인용이 많이 되는 것으로 확인이 되었다.

Abstract

Drug addiction or substance use disorder is continuously observed worldwide for its risks and prevalence. In this context, numerous studies have been conducted regarding this issue. However, bibliometric analysis related to drug addiction is insufficient. In particular, it is difficult to find research that utilizes a macro-level bibliographic approach that comprehensively reflects various characteristics related to drug addiction. In this study, to reflect the multidimensional features of drug addiction, research trends in drug addiction in social science, natural science, and multidisciplinary studies were compared and analyzed. This study collected drug addiction research articles from 2002 to 2021 by searching from the Web of Science, and classified academic disciplines based on SCI(E) and SSCI information. Author keyword co-occurrence analysis was also conducted, which provided confirmation that natural science mainly studied psychoactive substances and the reward system in the brain, while drug addiction studies reflecting demographic characteristics were conducted in the domain of social science. In the multidisciplinary field, all of the above topics were covered. Author co-citation analysis was also employed, which showed that there are superstars (i.e., authors who receive a rigorous amount of citation) in the field of natural science, while in the social science domain, authors were highly cited not only at the individual level but also at the institutional level.

정보관리학회지