바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: Data Modeling, 검색결과: 10
1
송성전(독립연구자) ; 심지영(연세대학교 대학도서관발전연구소) 2022, Vol.39, No.3, pp.311-336 https://doi.org/10.3743/KOSIM.2022.39.3.311
초록보기
초록

본 연구는 도서관 정보서비스 환경에서 도서 이용자의 도서추천에 영향을 미치는 선호요인을 파악하기 위해 전 세계 도서 이용자의 참여로 이루어지는 사회적 목록 서비스인 Goodreads 리뷰 데이터를 대상으로 내용분석하였다. 이용자 선호의 내용을 보다 세부적인 관점에서 파악하기 위해 샘플 선정 과정에서 평점 그룹별, 도서별, 이용자별 하위 데이터 집합을 구성하였으며, 다양한 토픽을 고루 반영하기 위해 리뷰 텍스트의 토픽모델링 결과에 기반하여 층화 샘플링을 수행하였다. 그 결과, ‘내용’, ‘캐릭터’, ‘글쓰기’, ‘읽기’, ‘작가’, ‘스토리’, ‘형식’의 7개 범주에 속하는 총 90개 선호요인 관련 개념을 식별하는 한편, 평점에 따라 드러나는 일반적인 선호요인은 물론 호불호가 분명한 도서와 이용자에서 드러나는 선호요인의 양상을 파악하였다. 본 연구의 결과는 이용자 선호요인의 구체적 양상을 파악하여 향후 추천시스템 등에서 보다 정교한 추천에 기여할 수 있을 것으로 보인다.

Abstract

This study analyzed the contents of Goodreads review data, which is a social cataloging service with the participation of book users around the world, to identify the preference factors that affect book users’ book recommendations in the library information service environment. To understand user preferences from a more detailed point of view, sub-datasets for each rating group, each book, and each user were constructed in the sample selection process. Stratified sampling was also performed based on the result of topic modeling of review text data to include various topics. As a result, a total of 90 preference factors belonging to 7 categories(‘Content’, ‘Character’, ‘Writing’, ‘Reading’, ‘Author’, ‘Story’, ‘Form’) were identified. Also, the general preference factors revealed according to the ratings, as well as the patterns of preference factors revealed in books and users with clear likes and dislikes were identified. The results of this study are expected to contribute to more sophisticated recommendations in future recommendation systems by identifying specific aspects of user preference factors.

2
정재민(한국과학기술정보연구원 오픈액세스센터 AccessON개발팀) ; 김완종(한국과학기술정보연구원 오픈액세스센터 AccessON개발팀) 2022, Vol.39, No.4, pp.75-97 https://doi.org/10.3743/KOSIM.2022.39.4.075
초록보기
초록

전통적인 학술 커뮤니케이션 체제의 문제점을 해결하기 위한 대안으로 오픈액세스 패러다임에 대한 국제적 관심과 확산이 지속되고 있다. 하지만 데이터 기반의 정량적인 방법을 통해 오픈액세스 분야의 글로벌한 동향이나 성장 추세를 파악하려는 노력은 아직까지 부족한 실정이다. 본 연구는 오픈액세스 분야의 학술논문 데이터에 토픽 모델링을 적용하여 세부 연구토픽을 식별하고, 성장곡선을 적합하여 각 연구토픽의 성숙도와 예상 잔여수명을 계산한다. 본 연구는 오픈 사이언스의 세 가지 핵심요소인 오픈액세스, 오픈데이터, 오픈협업과 관련된 14개 토픽들을 식별하였으며, 오픈액세스 분야가 앞으로 약 65년간 꾸준히 성장할 것으로 예상하였다. 본 연구의 분석 결과는 연구자들과 정책 의사결정자들이 오픈액세스 분야의 동향과 성장 추세를 이해하는 데 도움을 줄 수 있을 것으로 기대된다.

Abstract

To solve the problems of the traditional scholarly communication system, global interest in the open access paradigm continues. Nevertheless, there is still a lack of research to understand global research and growth trends in the field of open access through data-based quantitative methods. This study aims to identify which sub-fields exist in open access and analyze how long each research field will grow in the future. To this end, topic modeling and growth curve analysis were applied to global academic papers in the field of open access. This study identified 14 research topics related to open access, open data, and open collaboration, which are three key elements of open science, and foresaw that the field of open access will grow over the next 65 years. The results of this study are expected to support researchers and policymakers in understanding global research trends of open access.

3
김성훈(성균관대학교) ; 도슬기(성균관대학교 문헌정보학과) ; 한상은(카이스트 디지털인문사회과학센터) ; 김재훈(한국과학기술정보연구원) ; 임석종(한국과학기술정보연구원) ; 박진호(한성대학교) 2022, Vol.39, No.4, pp.269-306 https://doi.org/10.3743/KOSIM.2022.39.4.269
초록보기
초록

본 연구는 성숙도 모델 개념을 활용하여 디지털 전환 성과를 측정할 수 있는 지표 개발을 시도하였다. 디지털 전환을 위해서는 단순한 서비스 개선이 아니라 조직, 업무 변화까지를 고려할 필요가 있다. 여기서는 우리나라의 대표적인 과학기술정보서비스 기관인 KISTI의 디지털 전환 측정을 위한 모델 개발을 목표로 하였다. KSITI는 이미 디지털 전환을 위한 BPR 작업을 수행한 바 있으며, 성숙도 모델 개념을 차용하였다. 단, BPR에서는 해당 결과를 측정할 수 있는 방법은 존재하지 않는다. 본 논문에서는 성숙모 모델을 기반으로 디지털 전환을 측정할 수 있는 지표를 개발하였다. 지표개발은 모델 개발과 평가 두 가지 방법으로 수행하였다. 모델 구성을 위한 사례는 기존 KISTI에서 수행한 관련 연구, 다양한 국내․외 사례를 통해 이루어졌다. 검증 전 모델은 대분류를 기준으로 기술(37개), 데이터(45개), 전략(18개), 조직(인력)(36개), (사회적)영향력(14개)이었다. 검증 후에 최종 모델은 기술(20개/17개 지표 탈락), 데이터(36개/9개 지표 탈락), 전략(18개/유지), 조직(인력)(30개/6개 지표 탈락), (사회적)영향력(13개/1개 지표 탈락)으로 구성되었다.

Abstract

This study aimed to develop indicators that can measure the digital transformation performance of science and technology information construction and sharing systems by utilizing the Digital Curation Maturity Models. For digital transformation, it is necessary to consider not only simple service improvement but also organizational and business changes. In this study, we aimed to develop a model for measuring the digital transformation of KISTI, Korea’s representative science and technology information service organization. KISTI has already carried out BPR work for digital transformation and borrowed the concept of a maturity model. However, in BPR, there is no method to measure the result. Therefore, in this paper, we developed an index to measure digital transformation based on the maturity model. Indicator development was carried out in two ways: model development and evaluation. Cases for model construction were made through a comprehensive review of existing KISTI and various domestic and foreign cases. The models before verification were technology (37), data (45), strategy (18), organization (36), and (social)influence (14) based on the major categories. After verification using confirmatory factor analysis, the model is classified as technology (20 / 17 indicators dropped), data (36 / 9 indicators dropped), strategy (18 / maintenance), organization(30 / 6 indicators dropped), and (social) influence (13 indicators / 1 indicator dropped).

4
김인후(중앙대학교 문헌정보학과 대학원) ; 김성희(중앙대학교 문헌정보학과) 2022, Vol.39, No.3, pp.293-310 https://doi.org/10.3743/KOSIM.2022.39.3.293
초록보기
초록

본 연구에서는 한국어 데이터로 학습된 BERT 모델을 기반으로 문헌정보학 분야의 문서를 자동으로 분류하여 성능을 분석하였다. 이를 위해 문헌정보학 분야의 7개 학술지의 5,357개 논문의 초록 데이터를 학습된 데이터의 크기에 따라서 자동분류의 성능에 어떠한 차이가 있는지를 분석, 평가하였다. 성능 평가척도는 정확률(Precision), 재현율(Recall), F 척도를 사용하였다. 평가결과 데이터의 양이 많고 품질이 높은 주제 분야들은 F 척도가 90% 이상으로 높은 수준의 성능을 보였다. 반면에 데이터 품질이 낮고 내용적으로 다른 주제 분야들과 유사도가 높고 주제적으로 확실히 구별되는 자질이 적을 경우 유의미한 높은 수준의 성능 평가가 도출되지 못하였다. 이러한 연구는 미래 학술 문헌에서 지속적으로 활용할 수 있는 사전학습모델의 활용 가능성을 제시하기 위한 기초자료로 활용될 수 있을 것으로 기대한다.

Abstract

In this study, we analyzed the performance of the BERT-based document classification model by automatically classifying documents in the field of library and information science based on the KoBERT. For this purpose, abstract data of 5,357 papers in 7 journals in the field of library and information science were analyzed and evaluated for any difference in the performance of automatic classification according to the size of the learned data. As performance evaluation scales, precision, recall, and F scale were used. As a result of the evaluation, subject areas with large amounts of data and high quality showed a high level of performance with an F scale of 90% or more. On the other hand, if the data quality was low, the similarity with other subject areas was high, and there were few features that were clearly distinguished thematically, a meaningful high-level performance evaluation could not be derived. This study is expected to be used as basic data to suggest the possibility of using a pre-trained learning model to automatically classify the academic documents.

5
나경식(건국대학교 문헌정보학과) ; 정용선(동신대학교) 2022, Vol.39, No.2, pp.35-60 https://doi.org/10.3743/KOSIM.2022.39.2.035
초록보기
초록

Abstract

This study reports on the motivational use of special libraries from a user’s perspective that investigated four motivational components: attention, relevance, confidence, and satisfaction (ARCS) of the library users. Even though special libraries received relatively little attention compared to public libraries, special libraries could fill the niche of public libraries for the special and specific needs of the community in the current library environments in South Korea. Qualitative data were collected through individual interviews and forty people participated in the project. The findings of this study show the four themes (ARCS) that users need motivation as a way to start using a special library, thereby staying focused and revisiting the library. It is possible that the ARCS model will contribute to the implementation, application, and practice of both special libraries and their services in the library environment. The results are expected to expand our knowledge on the motivational ARCS use of special libraries and to serve as basic data when designing motivational strategies and plans of the systems for special libraries.

6
고영수(연세대학교 문헌정보학과 석사과정) ; 이수빈(연세대학교 문헌정보학과 박사과정) ; 차민정(연세대학교 소셜오믹스 연구센터) ; 김성덕(연세대학교 문헌정보학과 석사과정) ; 이주희(연세대학교 문헌정보학과 석사과정) ; 한지영(연세대학교 문헌정보학과 석사과정) ; 송민(연세대학교 문헌정보학과) 2022, Vol.39, No.2, pp.111-129 https://doi.org/10.3743/KOSIM.2022.39.2.111
초록보기
초록

불면증은 최근 5년 새 환자가 20% 이상 증가하고 있는 현대 사회의 만성적인 질병이다. 수면이 부족할 경우 나타나는 개인 및 사회적 문제가 심각하고 불면증의 유발 요인이 복합적으로 작용하고 있어서 진단 및 치료가 중요한 질환이다. 본 연구는 자유롭게 의견을 표출하는 소셜 미디어 ‘Reddit’의 불면증 커뮤니티인 ‘insomnia’를 대상으로 5,699개의 데이터를 수집하였고 이를 국제수면장애분류 ICSD-3 기준과 정신의학과 전문의의 자문을 받은 가이드라인을 바탕으로 불면증 경향 문헌과 비경향 문헌으로 태깅하여 불면증 말뭉치를 구축하였다. 구축된 불면증 말뭉치를 학습데이터로 하여 5개의 딥러닝 언어모델(BERT, RoBERTa, ALBERT, ELECTRA, XLNet)을 훈련시켰고 성능 평가 결과 RoBERTa가 정확도, 정밀도, 재현율, F1점수에서 가장 높은 성능을 보였다. 불면증 소셜 데이터를 심층적으로 분석하기 위해 기존에 많이 사용되었던 LDA의 약점을 보완하며 새롭게 등장한 BERTopic 방법을 사용하여 토픽 모델링을 진행하였다. 계층적 클러스터링 분석 결과 8개의 주제군(‘부정적 감정’, ‘조언 및 도움과 감사’, ‘불면증 관련 질병’, ‘수면제’, ‘운동 및 식습관’, ‘신체적 특징’, ‘활동적 특징’, ‘환경적 특징’)을 확인할 수 있었다. 이용자들은 불면증 커뮤니티에서 부정 감정을 표현하고 도움과 조언을 구하는 모습을 보였다. 또한, 불면증과 관련된 질병들을 언급하고 수면제 사용에 대한 담론을 나누며 운동 및 식습관에 관한 관심을 표현하고 있었다. 발견된 불면증 관련 특징으로는 호흡, 임신, 심장 등의 신체적 특징과 좀비, 수면 경련, 그로기상태 등의 활동적 특징, 햇빛, 담요, 온도, 낮잠 등의 환경적 특징이 확인되었다.

Abstract

Insomnia is a chronic disease in modern society, with the number of new patients increasing by more than 20% in the last 5 years. Insomnia is a serious disease that requires diagnosis and treatment because the individual and social problems that occur when there is a lack of sleep are serious and the triggers of insomnia are complex. This study collected 5,699 data from ‘insomnia’, a community on ‘Reddit’, a social media that freely expresses opinions. Based on the International Classification of Sleep Disorders ICSD-3 standard and the guidelines with the help of experts, the insomnia corpus was constructed by tagging them as insomnia tendency documents and non-insomnia tendency documents. Five deep learning language models (BERT, RoBERTa, ALBERT, ELECTRA, XLNet) were trained using the constructed insomnia corpus as training data. As a result of performance evaluation, RoBERTa showed the highest performance with an accuracy of 81.33%. In order to in-depth analysis of insomnia social data, topic modeling was performed using the newly emerged BERTopic method by supplementing the weaknesses of LDA, which is widely used in the past. As a result of the analysis, 8 subject groups (‘Negative emotions’, ‘Advice and help and gratitude’, ‘Insomnia-related diseases’, ‘Sleeping pills’, ‘Exercise and eating habits’, ‘Physical characteristics’, ‘Activity characteristics’, ‘Environmental characteristics’) could be confirmed. Users expressed negative emotions and sought help and advice from the Reddit insomnia community. In addition, they mentioned diseases related to insomnia, shared discourse on the use of sleeping pills, and expressed interest in exercise and eating habits. As insomnia-related characteristics, we found physical characteristics such as breathing, pregnancy, and heart, active characteristics such as zombies, hypnic jerk, and groggy, and environmental characteristics such as sunlight, blankets, temperature, and naps.

7
박서정(연세대학교 문헌정보학과) ; 이수빈(연세대학교 문헌정보학과) ; 김우정(연세대학교 의과대학 용인세브란스병원 정신건강의학교실) ; 송민(연세대학교 문헌정보학과) 2022, Vol.39, No.1, pp.91-117 https://doi.org/10.3743/KOSIM.2022.39.1.091
초록보기
초록

국내를 비롯하여 전 세계적으로 우울증 환자 수가 매년 증가하는 추세이다. 그러나 대다수의 정신질환 환자들은 자신이 질병을 앓고 있다는 사실을 인식하지 못해서 적절한 치료가 이루어지지 않고 있다. 우울 증상이 방치되면 자살과 불안, 기타 심리적인 문제로 발전될 수 있기에 우울증의 조기 발견과 치료는 정신건강 증진에 있어 매우 중요하다. 이러한 문제점을 개선하기 위해 본 연구에서는 한국어 소셜 미디어 텍스트를 활용한 딥러닝 기반의 우울 경향 모델을 제시하였다. 네이버 지식인, 네이버 블로그, 하이닥, 트위터에서 데이터 수집을 한 뒤 DSM-5 주요 우울 장애 진단 기준을 활용하여 우울 증상 개수에 따라 클래스를 구분하여 주석을 달았다. 이후 구축한 말뭉치의 클래스 별 특성을 살펴보고자 TF-IDF 분석과 동시 출현 단어 분석을 실시하였다. 또한, 다양한 텍스트 특징을 활용하여 우울 경향 분류 모델을 생성하기 위해 단어 임베딩과 사전 기반 감성 분석, LDA 토픽 모델링을 수행하였다. 이를 통해 문헌 별로 임베딩된 텍스트와 감성 점수, 토픽 번호를 산출하여 텍스트 특징으로 사용하였다. 그 결과 임베딩된 텍스트에 문서의 감성 점수와 토픽을 모두 결합하여 KorBERT 알고리즘을 기반으로 우울 경향을 분류하였을 때 가장 높은 정확률인 83.28%를 달성하는 것을 확인하였다. 본 연구는 다양한 텍스트 특징을 활용하여 보다 성능이 개선된 한국어 우울 경향 분류 모델을 구축함에 따라, 한국 온라인 커뮤니티 이용자 중 잠재적인 우울증 환자를 조기에 발견해 빠른 치료 및 예방이 가능하도록 하여 한국 사회의 정신건강 증진에 도움을 줄 수 있는 기반을 마련했다는 점에서 의의를 지닌다.

Abstract

The number of depressed patients in Korea and around the world is rapidly increasing every year. However, most of the mentally ill patients are not aware that they are suffering from the disease, so adequate treatment is not being performed. If depressive symptoms are neglected, it can lead to suicide, anxiety, and other psychological problems. Therefore, early detection and treatment of depression are very important in improving mental health. To improve this problem, this study presented a deep learning-based depression tendency model using Korean social media text. After collecting data from Naver KonwledgeiN, Naver Blog, Hidoc, and Twitter, DSM-5 major depressive disorder diagnosis criteria were used to classify and annotate classes according to the number of depressive symptoms. Afterwards, TF-IDF analysis and simultaneous word analysis were performed to examine the characteristics of each class of the corpus constructed. In addition, word embedding, dictionary-based sentiment analysis, and LDA topic modeling were performed to generate a depression tendency classification model using various text features. Through this, the embedded text, sentiment score, and topic number for each document were calculated and used as text features. As a result, it was confirmed that the highest accuracy rate of 83.28% was achieved when the depression tendency was classified based on the KorBERT algorithm by combining both the emotional score and the topic of the document with the embedded text. This study establishes a classification model for Korean depression trends with improved performance using various text features, and detects potential depressive patients early among Korean online community users, enabling rapid treatment and prevention, thereby enabling the mental health of Korean society. It is significant in that it can help in promotion.

8
장수현(중앙대학교 문헌정보학과) ; 남영준(중앙대학교) 2022, Vol.39, No.3, pp.263-292 https://doi.org/10.3743/KOSIM.2022.39.3.263
초록보기
초록

본 연구는 문헌정보학 현장인 도서관에서 제공되는 서비스인 이용자 교육의 관련 개념인 리터러시가 각종 문헌정보학 연구 분야에서 어떠한 연구 주제를 다루는지 확인하는 것을 목적으로 한다. 이를 위해 WoS와 KCI 데이터베이스에서 문헌정보학 분야 리터러시 관련 논문을 수집하여 키워드 분석 및 토픽 모델링 분석 기법을 상호보완적으로 사용해 분석하였다. 분석 결과, WoS와 KCI의 문헌정보학 분야 리티러시 관련 연구 동향은 저자 키워드, 주요 주제 등에서 차이가 있는 것으로 나타났으며, 토픽 모델링을 통해 KCI의 리터러시 관련 연구를 3개의 토픽으로 분류하였다. 또한, 연구에서 확인한 국내 문헌정보학 분야 리터러시 연구 동향은 전체 리터러시 관련 연구 동향과 연구량 급증 시기, 핵심 다빈출 키워드 차이가 있음을 분석하였다. 특히, 전체 분야 리터러시 연구는 ‘리터러시’, ‘교육’, ‘미디어’, ‘디지털’ 등의 단어가 다수 도출되었지만 문헌정보학 분야의 리터러시 연구는 ‘정보활용능력’, ‘학교도서관’ 등의 키워드가 다수 등장하였다. 이를 바탕으로 향후 국내에서도 정보가 급증하는 오늘날의 정보화 환경에 맞춰 정보에 대한 평가적인 안목을 기를 수 있는 능력에 관한 연구가 필요하다는 결론을 도출하였다.

Abstract

The purpose of this study is to identify the topics of research related to the concepts of literacy in the field of Library and Information Science which is related to user education in libraries. Data were collected from the WoS and KCI databases, and complementary keyword analysis and topic modeling analysis techniques were used to identify topics of literature-related research articles in the field of Library and Information Science. Findings presented that there was a difference in keywords and topics between the two databases. Literacy-related topics identified from the KCI database were classified into three groups through topic modeling. Also, it was analyzed that there is a difference between the overall literacy-related research trend, the timing of the surge in research volume, and key frequent keywords in the Library and Information Science field confirmed in the study. In particular, in the study of literacy in all fields, a number of words such as ‘literacy’, ‘education’, ‘media’, and ‘digital’ were derived. However, in literature research in the field of Library and Information Science, keywords such as ‘information utilization ability’ and ‘school library’ appeared. Based on this, it was concluded that research on the ability to develop an evaluative eye for information is needed in line with today’s information environment, where information is rapidly increasing in Korea in the future.

9
이소현(부산대학교 도서관) ; 구본진(부산대학교) 2022, Vol.39, No.2, pp.275-298 https://doi.org/10.3743/KOSIM.2022.39.2.275
초록보기
초록

본 연구는 잊힐 권리와 관련한 뉴스 기사와 학술지 게재 논문을 대상으로 텍스트마이닝 분석을 활용해 각 문서 내에 나타난 논점과 특성을 살펴보았다. 분석을 위해 ‘잊힐 권리’와 ‘잊혀질 권리’ 키워드를 검색어로 하여 2010년부터 2020년까지의 데이터를 수집하였다. 수집된 데이터를 대상으로 키워드 분석과 토픽모델링 분석을 수행한 결과, 지난 10년간 뉴스 기사와 학술지 논문에서 다루어진 쟁점은 크게 다르지 않으며, 접근 방법 또한 유사한 것으로 나타났다. 다만 뉴스 기사와 학술지 논문 간 비교를 통해 이들 간 공통적으로 나타나는 쟁점과 부분적인 쟁점의 차이가 있음을 확인하였다. 따라서 본 연구에서 도출된 쟁점을 중심으로 기록관리학 분야에서도 적극적인 논의가 이루어져야 할 필요가 있으며, 공통적인 쟁점들을 우선적으로 고려하되, 쟁점 상 이견이 존재하는 경우, 이를 다각적으로 논의하는 것이 필요하다고 볼 수 있다. 본 연구는 국내 기록관리학계에서 잊힐 권리와 관련된 논의가 이루어지고 있지 않은 현재의 상황에서 기록관리학 분야에서 잊힐 권리의 의미와 향후 발생할 수 있는 이슈를 도출해볼 수 있었다는데 의의가 있으며, 본 연구의 결과를 중심으로 기록관리학 분야에서 잊힐 권리에 대한 다양한 논의가 이루어지기를 기대한다.

Abstract

This study examined the issues and characteristics that appeared in news and journal articles related to the ‘right to be forgotten’ using text mining analysis. Data for analysis were collected from 2010 to 2020 with the keyword ‘right to be forgotten’. Keyword analysis and topic modeling analysis were performed on the collected data. As a result, in the last 10 years the issues about ‘right to be forgotten’ are not much different in news and journal articles and the approaches also are similar. However, it confirmed common issues and the partial difference between news and journal articles through comparison. Therefore in Archives and Records Management Studies, it is necessary to discuss derived in this study. In particular common issues are considered first but if there are differences in issues, it is needed to discuss them in various ways. This study is meaningful to understand the meaning and to draw issues that may arise in the future of the ‘right to be forgotten’. The results of this study will contribute to be variously discussed on the ‘right to be forgotten’ in Archives and Records Management Studies.

10
김규리(성균관대학교 문헌정보학과 석사과정) ; 오찬희(성균관대학교 문헌정보학과 석사과정) ; 주영준(연세대학교 문헌정보학과) 2022, Vol.39, No.1, pp.331-350 https://doi.org/10.3743/KOSIM.2022.39.1.331
초록보기
초록

본 연구는 코로나바이러스감염증-19 (이하 코로나19)로 인해 생겨난 코로나19 반시민성 주제와 코로나19 혐오 정서를 파악하기 위해 소셜 미디어 중 하나인 트위터의 코로나19 관련 게시물을 분석하였다. 2019년 12월 1일부터 2021년 8월 31일까지 21개월 동안 작성된 코로나19 관련 혐오 대상별(지역, 공공시설 혐오, 특정 인구 집단 혐오, 종교 혐오) 게시물 수집 및 전처리를 진행하여 총 63,802개의 게시물을 분석하였다. 혐오 대상별 빈도 분석, 다이나믹 토픽 모델링, 키워드 동시 출현 네트워크 분석 기법을 통하여 혐오 대상별 반시민성 주제와 혐오 키워드를 파악하였다. 첫째, 빈도 분석 결과, 지역, 공공시설 혐오는 상대적으로 증가하는 추세를 보이고 특정 인구 집단과 종교 혐오는 상대적으로 감소하는 추세를 확인할 수 있었다. 둘째, 다이나믹 토픽 모델링 분석 결과, 지역, 공공시설 혐오는 ‘대구, 경북지방 혐오’, ‘지역 간 혐오’, ‘공공시설 혐오’로 나타났고, 특정 인구 집단 혐오는 ‘중국 혐오’, ‘바이러스 전파자’, ‘실외(야외)활동 제재’로 나타났으며, 종교 혐오는 ‘신천지’, ‘기독교’, ‘종교 내 감염’, ‘방역 의무 거부’, ‘확진자 동선 비난’으로 나타났다. 셋째, 키워드 동시 출현 네트워크 분석 결과, 지역, 공공시설 혐오(코로나, 대구, 확진자, 신천지, 경북, 지역), 특정 인구 집단 혐오(코로나바이러스, 우한폐렴, 우한, 중국, 중국인, 사람, 입국, 금지), 종교 혐오(신천지, 코로나, 교회, 대구, 확진자, 감염) 등을 핵심 키워드로 확인할 수 있었다. 본 연구는 소셜 미디어를 활용한 국내 코로나19 혐오 대상 및 키워드 파악을 통해 코로나19 관련한 대중의 반시민성 여론을 파악하고자 하였다. 특히 기존의 선행연구에서 시도하지 않았던 주제인 코로나19 관련 혐오에 데이터 마이닝 기법을 이용하여 소셜 미디어에서 표출하는 대중의 반시민성 주제와 혐오 정서 탐색은 대중들의 여론을 파악하는 것이 의의가 있다. 더불어 본 연구 결과는 포스트 코로나 시대를 대비하는 문화적 소통 방안의 제도 및 정책 수립 기여를 위한 기본 자료에 기초할 수 있다는 점에서 실질적 함의를 시사한다.

Abstract

This study aims to understand topics of incivility related to COVID-19 from analyzing Twitter posts including COVID-19-related hate speech. To achieve the goal, a total of 63,802 tweets that were created between December 1st, 2019, and August 31st, 2021, covering three targets of hate speech including region and public facilities, groups of people, and religion were analyzed. Frequency analysis, dynamic topic modeling, and keyword co-occurrence network analysis were used to explore topics and keywords. 1) Results of frequency analysis revealed that hate against regions and public facilities showed a relatively increasing trend while hate against specific groups of people and religion showed a relatively decreasing trend. 2) Results of dynamic topic modeling analysis showed keywords of each of the three targets of hate speech. Keywords of the region and public facilities included “Daegu, Gyeongbuk local hate”, “interregional hate”, and “public facility hate”; groups of people included “China hate”, “virus spreaders”, and “outdoor activity sanctions”; and religion included “Shincheonji”, “Christianity”, “religious infection”, “refusal of quarantine”, and “places visited by confirmed cases”. 3) Similarly, results of keyword co-occurrence network analysis revealed keywords of three targets: region and public facilities (Corona, Daegu, confirmed cases, Shincheonji, Gyeongbuk, region); specific groups of people (Coronavirus, Wuhan pneumonia, Wuhan, China, Chinese, People, Entry, Banned); and religion (Corona, Church, Daegu, confirmed cases, infection). This study attempted to grasp the public’s anti-citizenship public opinion related to COVID-19 by identifying domestic COVID-19 hate targets and keywords using social media. In particular, it is meaningful to grasp public opinion on incivility topics and hate emotions expressed on social media using data mining techniques for hate-related to COVID-19, which has not been attempted in previous studies. In addition, the results of this study suggest practical implications in that they can be based on basic data for contributing to the establishment of systems and policies for cultural communication measures in preparation for the post-COVID-19 era.

정보관리학회지