바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: Topic Modeling, 검색결과: 11
1
고영수(연세대학교 문헌정보학과 석사과정) ; 이수빈(연세대학교 문헌정보학과 박사과정) ; 차민정(연세대학교 소셜오믹스 연구센터) ; 김성덕(연세대학교 문헌정보학과 석사과정) ; 이주희(연세대학교 문헌정보학과 석사과정) ; 한지영(연세대학교 문헌정보학과 석사과정) ; 송민(연세대학교 문헌정보학과) 2022, Vol.39, No.2, pp.111-129 https://doi.org/10.3743/KOSIM.2022.39.2.111
초록보기
초록

불면증은 최근 5년 새 환자가 20% 이상 증가하고 있는 현대 사회의 만성적인 질병이다. 수면이 부족할 경우 나타나는 개인 및 사회적 문제가 심각하고 불면증의 유발 요인이 복합적으로 작용하고 있어서 진단 및 치료가 중요한 질환이다. 본 연구는 자유롭게 의견을 표출하는 소셜 미디어 ‘Reddit’의 불면증 커뮤니티인 ‘insomnia’를 대상으로 5,699개의 데이터를 수집하였고 이를 국제수면장애분류 ICSD-3 기준과 정신의학과 전문의의 자문을 받은 가이드라인을 바탕으로 불면증 경향 문헌과 비경향 문헌으로 태깅하여 불면증 말뭉치를 구축하였다. 구축된 불면증 말뭉치를 학습데이터로 하여 5개의 딥러닝 언어모델(BERT, RoBERTa, ALBERT, ELECTRA, XLNet)을 훈련시켰고 성능 평가 결과 RoBERTa가 정확도, 정밀도, 재현율, F1점수에서 가장 높은 성능을 보였다. 불면증 소셜 데이터를 심층적으로 분석하기 위해 기존에 많이 사용되었던 LDA의 약점을 보완하며 새롭게 등장한 BERTopic 방법을 사용하여 토픽 모델링을 진행하였다. 계층적 클러스터링 분석 결과 8개의 주제군(‘부정적 감정’, ‘조언 및 도움과 감사’, ‘불면증 관련 질병’, ‘수면제’, ‘운동 및 식습관’, ‘신체적 특징’, ‘활동적 특징’, ‘환경적 특징’)을 확인할 수 있었다. 이용자들은 불면증 커뮤니티에서 부정 감정을 표현하고 도움과 조언을 구하는 모습을 보였다. 또한, 불면증과 관련된 질병들을 언급하고 수면제 사용에 대한 담론을 나누며 운동 및 식습관에 관한 관심을 표현하고 있었다. 발견된 불면증 관련 특징으로는 호흡, 임신, 심장 등의 신체적 특징과 좀비, 수면 경련, 그로기상태 등의 활동적 특징, 햇빛, 담요, 온도, 낮잠 등의 환경적 특징이 확인되었다.

Abstract

Insomnia is a chronic disease in modern society, with the number of new patients increasing by more than 20% in the last 5 years. Insomnia is a serious disease that requires diagnosis and treatment because the individual and social problems that occur when there is a lack of sleep are serious and the triggers of insomnia are complex. This study collected 5,699 data from ‘insomnia’, a community on ‘Reddit’, a social media that freely expresses opinions. Based on the International Classification of Sleep Disorders ICSD-3 standard and the guidelines with the help of experts, the insomnia corpus was constructed by tagging them as insomnia tendency documents and non-insomnia tendency documents. Five deep learning language models (BERT, RoBERTa, ALBERT, ELECTRA, XLNet) were trained using the constructed insomnia corpus as training data. As a result of performance evaluation, RoBERTa showed the highest performance with an accuracy of 81.33%. In order to in-depth analysis of insomnia social data, topic modeling was performed using the newly emerged BERTopic method by supplementing the weaknesses of LDA, which is widely used in the past. As a result of the analysis, 8 subject groups (‘Negative emotions’, ‘Advice and help and gratitude’, ‘Insomnia-related diseases’, ‘Sleeping pills’, ‘Exercise and eating habits’, ‘Physical characteristics’, ‘Activity characteristics’, ‘Environmental characteristics’) could be confirmed. Users expressed negative emotions and sought help and advice from the Reddit insomnia community. In addition, they mentioned diseases related to insomnia, shared discourse on the use of sleeping pills, and expressed interest in exercise and eating habits. As insomnia-related characteristics, we found physical characteristics such as breathing, pregnancy, and heart, active characteristics such as zombies, hypnic jerk, and groggy, and environmental characteristics such as sunlight, blankets, temperature, and naps.

2
김선욱(경북대학교 사회과학대학 문헌정보학과) ; 양기덕(영남고문헌아카이브센터) 2022, Vol.39, No.3, pp.99-132 https://doi.org/10.3743/KOSIM.2022.39.3.099
초록보기
초록

본 연구의 목적은 LDA 토픽모델링 결과와 BERTopic 토픽모델링 결과를 합성하는 방법론인 Augmented and Extended Topics(AET)를 제안하고, 이를 사용해 문헌정보학 분야의 연구주제를 분석하는 데 있다. AET의 실제 적용결과를 확인하기 위해 2001년 1월부터 2021년 10월까지의 Web of Science 내 문헌정보학 학술지 85종에 게재된 학술논문 서지 데이터 55,442건을 분석하였다. AET는 서로 다른 토픽모델링 결과의 관계를 WORD2VEC 기반 코사인 유사도 매트릭스로 구축하고, 매트릭스 내 의미적 관계가 유효한 범위 내에서 매트릭스 재정렬 및 분할 과정을 반복해 증강토픽(Augmented Topics, 이하 AT)을 추출한 뒤, 나머지 영역에서 코사인 유사도 평균값 순위와 BERTopic 토픽 규모 순위에 대한 조화평균을 통해 확장토픽(Extended Topics, 이하 ET)을 결정한다. 최적 표준으로 도출된 LDA 토픽모델링 결과와 AET 결과를 비교한 결과, AT는 LDA 토픽모델링 토픽을 한층 더 구체화하고 세분화하였으며 ET는 유효한 토픽을 발견하였다. AT(Augmented Topics)의 성능은 LDA 이상이었으며 ET(Extended Topics)는 일부 경우를 제외하고 대부분 LDA와 유사한 수준의 성능을 나타내었다.

Abstract

The purpose of this study is to propose AET (Augmented and Extended Topics), a novel method of synthesizing both LDA and BERTopic results, and to analyze the recently published LIS articles as an experimental approach. To achieve the purpose of this study, 55,442 abstracts from 85 LIS journals within the WoS database, which spans from January 2001 to October 2021, were analyzed. AET first constructs a WORD2VEC-based cosine similarity matrix between LDA and BERTopic results, extracts AT (Augmented Topics) by repeating the matrix reordering and segmentation procedures as long as their semantic relations are still valid, and finally determines ET (Extended Topics) by removing any LDA related residual subtopics from the matrix and ordering the rest of them by (BERTopic topic size rank, Inverse cosine similarity rank). AET, by comparing with the baseline LDA result, shows that AT has effectively concretized the original LDA topic model and ET has discovered new meaningful topics that LDA didn’t. When it comes to the qualitative performance evaluation, AT performs better than LDA while ET shows similar performances except in a few cases.

3
박서정(연세대학교 문헌정보학과) ; 이수빈(연세대학교 문헌정보학과) ; 김우정(연세대학교 의과대학 용인세브란스병원 정신건강의학교실) ; 송민(연세대학교 문헌정보학과) 2022, Vol.39, No.1, pp.91-117 https://doi.org/10.3743/KOSIM.2022.39.1.091
초록보기
초록

국내를 비롯하여 전 세계적으로 우울증 환자 수가 매년 증가하는 추세이다. 그러나 대다수의 정신질환 환자들은 자신이 질병을 앓고 있다는 사실을 인식하지 못해서 적절한 치료가 이루어지지 않고 있다. 우울 증상이 방치되면 자살과 불안, 기타 심리적인 문제로 발전될 수 있기에 우울증의 조기 발견과 치료는 정신건강 증진에 있어 매우 중요하다. 이러한 문제점을 개선하기 위해 본 연구에서는 한국어 소셜 미디어 텍스트를 활용한 딥러닝 기반의 우울 경향 모델을 제시하였다. 네이버 지식인, 네이버 블로그, 하이닥, 트위터에서 데이터 수집을 한 뒤 DSM-5 주요 우울 장애 진단 기준을 활용하여 우울 증상 개수에 따라 클래스를 구분하여 주석을 달았다. 이후 구축한 말뭉치의 클래스 별 특성을 살펴보고자 TF-IDF 분석과 동시 출현 단어 분석을 실시하였다. 또한, 다양한 텍스트 특징을 활용하여 우울 경향 분류 모델을 생성하기 위해 단어 임베딩과 사전 기반 감성 분석, LDA 토픽 모델링을 수행하였다. 이를 통해 문헌 별로 임베딩된 텍스트와 감성 점수, 토픽 번호를 산출하여 텍스트 특징으로 사용하였다. 그 결과 임베딩된 텍스트에 문서의 감성 점수와 토픽을 모두 결합하여 KorBERT 알고리즘을 기반으로 우울 경향을 분류하였을 때 가장 높은 정확률인 83.28%를 달성하는 것을 확인하였다. 본 연구는 다양한 텍스트 특징을 활용하여 보다 성능이 개선된 한국어 우울 경향 분류 모델을 구축함에 따라, 한국 온라인 커뮤니티 이용자 중 잠재적인 우울증 환자를 조기에 발견해 빠른 치료 및 예방이 가능하도록 하여 한국 사회의 정신건강 증진에 도움을 줄 수 있는 기반을 마련했다는 점에서 의의를 지닌다.

Abstract

The number of depressed patients in Korea and around the world is rapidly increasing every year. However, most of the mentally ill patients are not aware that they are suffering from the disease, so adequate treatment is not being performed. If depressive symptoms are neglected, it can lead to suicide, anxiety, and other psychological problems. Therefore, early detection and treatment of depression are very important in improving mental health. To improve this problem, this study presented a deep learning-based depression tendency model using Korean social media text. After collecting data from Naver KonwledgeiN, Naver Blog, Hidoc, and Twitter, DSM-5 major depressive disorder diagnosis criteria were used to classify and annotate classes according to the number of depressive symptoms. Afterwards, TF-IDF analysis and simultaneous word analysis were performed to examine the characteristics of each class of the corpus constructed. In addition, word embedding, dictionary-based sentiment analysis, and LDA topic modeling were performed to generate a depression tendency classification model using various text features. Through this, the embedded text, sentiment score, and topic number for each document were calculated and used as text features. As a result, it was confirmed that the highest accuracy rate of 83.28% was achieved when the depression tendency was classified based on the KorBERT algorithm by combining both the emotional score and the topic of the document with the embedded text. This study establishes a classification model for Korean depression trends with improved performance using various text features, and detects potential depressive patients early among Korean online community users, enabling rapid treatment and prevention, thereby enabling the mental health of Korean society. It is significant in that it can help in promotion.

4
윤지혜(한남대학교 교육학과) ; 정유경(한남대학교) 2022, Vol.39, No.4, pp.1-21 https://doi.org/10.3743/KOSIM.2022.39.4.001
초록보기
초록

본 연구는 정보활용교육 분야의 연구주제들을 파악하여 정보활용교육에 제안할 수 있는 요소들이 있는지를 살펴보는데 연구의 목적이 있다. 우선, 정보활용교육과 관련된 문헌정보학 분야의 논문 97편을 대상으로 토픽모델링을 적용하여 ‘미디어 리터러시’, ‘정보활용교육의 교수학습방법’, ‘정보원 이용 및 판단’ 등의 주요 주제를 파악하였다. 분석 결과를 바탕으로, 교육내용 측면에서는 Big 6 정보모형, 교육방법과 관련해서는 미국 사서교사협회의 정보활용 능력기준과 미국 대학 및 연구도서관협회의 정보활용교육 개발지침을 고려하여 정보활용교육 교육내용을 제안하였다. 본 연구는 정보활용교육 전반의 연구주제와 연관된 교육 요소들을 파악하였으며, 이를 바탕으로 ‘정보원 이용 및 판단’, ‘정보윤리’와 관련된 교육내용을 보다 강조하였다는 점에서 의의가 있다.

Abstract

The aim of this study is to identify the research topics and suggest an information literacy curriculum by analyzing research articles on information literacy. For this purpose, we applied the topic modeling technique to 97 scientific articles and identified the core contents of information literacy education, such as media literacy, information literacy instruction, and the use of information resources. Based on the analysis results, we suggested an information literacy curriculum by considering the Big 6 model, information literacy standards of American Association of School Library, and Association of College and Research Libraries’s information literacy competencies. This study is significant in that it considered ‘use of information resources’ and ‘information ethics’ to suggest information literacy education.

초록보기
초록

본 연구는 키워드 네트워크 분석과 토픽모델링을 활용하여 국내 정보활용교육 연구의 흐름을 살펴보고 향후 정보활용교육의 방향성을 모색하는데 목적이 있다. 이를 위하여 국내 문헌정보학 분야의 학술지에 게재된 정보활용교육과 관련된 논문 306편을 선정하고, 논문의 초록을 대상으로 전처리 과정을 거쳐 전체 키워드 출현 빈도, 시기별 키워드 출현 빈도, 키워드 동시출현 빈도분석을 수행하였다. 이어서 키워드 네트워크 분석을 통해 키워드의 연결중심성과 매개중심성, 위세중심성을 분석하였다. 또한 구조적 토픽모델링 분석을 활용하여 15개의 토픽(교육과정, 정보활용교육 효과, 정보활용교육 내용, 학교도서관 교육, 정보매체활용, 정보활용능력 평가 지표, 도서관 불안, 공공도서관 프로그램, 대학도서관 이용자교육, 건강정보 활용능력, 정보격차, 도서관활용수업 개선, 연구 동향, 정보활용교육 모델, 교사 역할)을 도출하고, 토픽별로 비중의 변화를 확인하기 위해 연도별 토픽 추이를 분석하였다. 이러한 결과를 바탕으로 정보활용교육의 방향성과 후속 연구에 대한 제언을 제시하였다.

Abstract

The purpose of this study is to investigate the flow of domestic information literacy education research using keyword network analysis and topic modeling and to explore the direction of information literacy education in the future. For this reason, 306 academic papers related to information literacy education published in academic journals of the library and information science field in Korea were chosen. And through the preprocessing process for abstracts of the paper, total keyword appearance frequency, keyword appearance frequency by period, and keyword simultaneous occurrence frequency were analyzed. Subsequently, keyword network analysis analyzed the degree centrality, between centrality, and eigenvector centrality of keywords. Using structural topic modeling analysis, 15 topics -curriculum, information literacy effect, contents of information literacy education, school library education, information media literacy, information literacy ability evaluation index, library anxiety, public library program, health information literacy ability, digital divide, library assisted instruction improvement, research trend, information literacy model, and teacher role-were derived. In addition, the trend of topics by year was analyzed to confirm the change in relative weight by topic. Based on these results, the direction of information literacy education and the suggestions for follow-up research were presented.

6
장수현(중앙대학교 문헌정보학과) ; 남영준(중앙대학교) 2022, Vol.39, No.3, pp.263-292 https://doi.org/10.3743/KOSIM.2022.39.3.263
초록보기
초록

본 연구는 문헌정보학 현장인 도서관에서 제공되는 서비스인 이용자 교육의 관련 개념인 리터러시가 각종 문헌정보학 연구 분야에서 어떠한 연구 주제를 다루는지 확인하는 것을 목적으로 한다. 이를 위해 WoS와 KCI 데이터베이스에서 문헌정보학 분야 리터러시 관련 논문을 수집하여 키워드 분석 및 토픽 모델링 분석 기법을 상호보완적으로 사용해 분석하였다. 분석 결과, WoS와 KCI의 문헌정보학 분야 리티러시 관련 연구 동향은 저자 키워드, 주요 주제 등에서 차이가 있는 것으로 나타났으며, 토픽 모델링을 통해 KCI의 리터러시 관련 연구를 3개의 토픽으로 분류하였다. 또한, 연구에서 확인한 국내 문헌정보학 분야 리터러시 연구 동향은 전체 리터러시 관련 연구 동향과 연구량 급증 시기, 핵심 다빈출 키워드 차이가 있음을 분석하였다. 특히, 전체 분야 리터러시 연구는 ‘리터러시’, ‘교육’, ‘미디어’, ‘디지털’ 등의 단어가 다수 도출되었지만 문헌정보학 분야의 리터러시 연구는 ‘정보활용능력’, ‘학교도서관’ 등의 키워드가 다수 등장하였다. 이를 바탕으로 향후 국내에서도 정보가 급증하는 오늘날의 정보화 환경에 맞춰 정보에 대한 평가적인 안목을 기를 수 있는 능력에 관한 연구가 필요하다는 결론을 도출하였다.

Abstract

The purpose of this study is to identify the topics of research related to the concepts of literacy in the field of Library and Information Science which is related to user education in libraries. Data were collected from the WoS and KCI databases, and complementary keyword analysis and topic modeling analysis techniques were used to identify topics of literature-related research articles in the field of Library and Information Science. Findings presented that there was a difference in keywords and topics between the two databases. Literacy-related topics identified from the KCI database were classified into three groups through topic modeling. Also, it was analyzed that there is a difference between the overall literacy-related research trend, the timing of the surge in research volume, and key frequent keywords in the Library and Information Science field confirmed in the study. In particular, in the study of literacy in all fields, a number of words such as ‘literacy’, ‘education’, ‘media’, and ‘digital’ were derived. However, in literature research in the field of Library and Information Science, keywords such as ‘information utilization ability’ and ‘school library’ appeared. Based on this, it was concluded that research on the ability to develop an evaluative eye for information is needed in line with today’s information environment, where information is rapidly increasing in Korea in the future.

7
이소현(부산대학교 도서관) ; 구본진(부산대학교) 2022, Vol.39, No.2, pp.275-298 https://doi.org/10.3743/KOSIM.2022.39.2.275
초록보기
초록

본 연구는 잊힐 권리와 관련한 뉴스 기사와 학술지 게재 논문을 대상으로 텍스트마이닝 분석을 활용해 각 문서 내에 나타난 논점과 특성을 살펴보았다. 분석을 위해 ‘잊힐 권리’와 ‘잊혀질 권리’ 키워드를 검색어로 하여 2010년부터 2020년까지의 데이터를 수집하였다. 수집된 데이터를 대상으로 키워드 분석과 토픽모델링 분석을 수행한 결과, 지난 10년간 뉴스 기사와 학술지 논문에서 다루어진 쟁점은 크게 다르지 않으며, 접근 방법 또한 유사한 것으로 나타났다. 다만 뉴스 기사와 학술지 논문 간 비교를 통해 이들 간 공통적으로 나타나는 쟁점과 부분적인 쟁점의 차이가 있음을 확인하였다. 따라서 본 연구에서 도출된 쟁점을 중심으로 기록관리학 분야에서도 적극적인 논의가 이루어져야 할 필요가 있으며, 공통적인 쟁점들을 우선적으로 고려하되, 쟁점 상 이견이 존재하는 경우, 이를 다각적으로 논의하는 것이 필요하다고 볼 수 있다. 본 연구는 국내 기록관리학계에서 잊힐 권리와 관련된 논의가 이루어지고 있지 않은 현재의 상황에서 기록관리학 분야에서 잊힐 권리의 의미와 향후 발생할 수 있는 이슈를 도출해볼 수 있었다는데 의의가 있으며, 본 연구의 결과를 중심으로 기록관리학 분야에서 잊힐 권리에 대한 다양한 논의가 이루어지기를 기대한다.

Abstract

This study examined the issues and characteristics that appeared in news and journal articles related to the ‘right to be forgotten’ using text mining analysis. Data for analysis were collected from 2010 to 2020 with the keyword ‘right to be forgotten’. Keyword analysis and topic modeling analysis were performed on the collected data. As a result, in the last 10 years the issues about ‘right to be forgotten’ are not much different in news and journal articles and the approaches also are similar. However, it confirmed common issues and the partial difference between news and journal articles through comparison. Therefore in Archives and Records Management Studies, it is necessary to discuss derived in this study. In particular common issues are considered first but if there are differences in issues, it is needed to discuss them in various ways. This study is meaningful to understand the meaning and to draw issues that may arise in the future of the ‘right to be forgotten’. The results of this study will contribute to be variously discussed on the ‘right to be forgotten’ in Archives and Records Management Studies.

8
송성전(독립연구자) ; 심지영(연세대학교 대학도서관발전연구소) 2022, Vol.39, No.3, pp.311-336 https://doi.org/10.3743/KOSIM.2022.39.3.311
초록보기
초록

본 연구는 도서관 정보서비스 환경에서 도서 이용자의 도서추천에 영향을 미치는 선호요인을 파악하기 위해 전 세계 도서 이용자의 참여로 이루어지는 사회적 목록 서비스인 Goodreads 리뷰 데이터를 대상으로 내용분석하였다. 이용자 선호의 내용을 보다 세부적인 관점에서 파악하기 위해 샘플 선정 과정에서 평점 그룹별, 도서별, 이용자별 하위 데이터 집합을 구성하였으며, 다양한 토픽을 고루 반영하기 위해 리뷰 텍스트의 토픽모델링 결과에 기반하여 층화 샘플링을 수행하였다. 그 결과, ‘내용’, ‘캐릭터’, ‘글쓰기’, ‘읽기’, ‘작가’, ‘스토리’, ‘형식’의 7개 범주에 속하는 총 90개 선호요인 관련 개념을 식별하는 한편, 평점에 따라 드러나는 일반적인 선호요인은 물론 호불호가 분명한 도서와 이용자에서 드러나는 선호요인의 양상을 파악하였다. 본 연구의 결과는 이용자 선호요인의 구체적 양상을 파악하여 향후 추천시스템 등에서 보다 정교한 추천에 기여할 수 있을 것으로 보인다.

Abstract

This study analyzed the contents of Goodreads review data, which is a social cataloging service with the participation of book users around the world, to identify the preference factors that affect book users’ book recommendations in the library information service environment. To understand user preferences from a more detailed point of view, sub-datasets for each rating group, each book, and each user were constructed in the sample selection process. Stratified sampling was also performed based on the result of topic modeling of review text data to include various topics. As a result, a total of 90 preference factors belonging to 7 categories(‘Content’, ‘Character’, ‘Writing’, ‘Reading’, ‘Author’, ‘Story’, ‘Form’) were identified. Also, the general preference factors revealed according to the ratings, as well as the patterns of preference factors revealed in books and users with clear likes and dislikes were identified. The results of this study are expected to contribute to more sophisticated recommendations in future recommendation systems by identifying specific aspects of user preference factors.

9
정재민(한국과학기술정보연구원 오픈액세스센터 AccessON개발팀) ; 김완종(한국과학기술정보연구원 오픈액세스센터 AccessON개발팀) 2022, Vol.39, No.4, pp.75-97 https://doi.org/10.3743/KOSIM.2022.39.4.075
초록보기
초록

전통적인 학술 커뮤니케이션 체제의 문제점을 해결하기 위한 대안으로 오픈액세스 패러다임에 대한 국제적 관심과 확산이 지속되고 있다. 하지만 데이터 기반의 정량적인 방법을 통해 오픈액세스 분야의 글로벌한 동향이나 성장 추세를 파악하려는 노력은 아직까지 부족한 실정이다. 본 연구는 오픈액세스 분야의 학술논문 데이터에 토픽 모델링을 적용하여 세부 연구토픽을 식별하고, 성장곡선을 적합하여 각 연구토픽의 성숙도와 예상 잔여수명을 계산한다. 본 연구는 오픈 사이언스의 세 가지 핵심요소인 오픈액세스, 오픈데이터, 오픈협업과 관련된 14개 토픽들을 식별하였으며, 오픈액세스 분야가 앞으로 약 65년간 꾸준히 성장할 것으로 예상하였다. 본 연구의 분석 결과는 연구자들과 정책 의사결정자들이 오픈액세스 분야의 동향과 성장 추세를 이해하는 데 도움을 줄 수 있을 것으로 기대된다.

Abstract

To solve the problems of the traditional scholarly communication system, global interest in the open access paradigm continues. Nevertheless, there is still a lack of research to understand global research and growth trends in the field of open access through data-based quantitative methods. This study aims to identify which sub-fields exist in open access and analyze how long each research field will grow in the future. To this end, topic modeling and growth curve analysis were applied to global academic papers in the field of open access. This study identified 14 research topics related to open access, open data, and open collaboration, which are three key elements of open science, and foresaw that the field of open access will grow over the next 65 years. The results of this study are expected to support researchers and policymakers in understanding global research trends of open access.

10
오찬희(성균관대학교 문헌정보학과 석사과정) ; 김규리(성균관대학교 문헌정보학과 석사과정) ; 주영준(연세대학교 문헌정보학과) 2022, Vol.39, No.1, pp.257-280 https://doi.org/10.3743/KOSIM.2022.39.1.257
초록보기
초록

본 연구에서는 대한민국 정부가 지정한 국가전략기술 사업인 반도체, 이차전지, 바이오 산업에 대한 여론을 파악하고 여론의 변화와 주가 흐름의 연관성을 분석하기 위해 각 산업별 대표 기업에 대한 기사의 댓글을 분석하였다. 반도체 산업에서 ‘삼성전자’, ‘SK하이닉스’, 이차전지 산업에서 ‘삼성SDI’, ‘LG화학’, 바이오 산업에서 ‘삼성바이오로직스’, ‘셀트리온’을 선정하여 이를 제목에 포함하고 있는 2020년 1월 1일부터 2020년 12월 31일까지 발행된 네이버 뉴스 기사의 댓글 47,452개를 수집하고 분석하였다. 먼저, 해당 댓글을 긍정, 중립, 부정의 감성으로 나누고 각 감성 그룹에서의 시간의 흐름에 따른 댓글의 동적인 주제를 분석하여 각 산업별 여론의 트렌드를 파악하였다. 분석 결과 반도체 산업 분야의 경우 투자, 코로나19관련 이슈, 삼성전자라는 대기업에 대한 신뢰, 정부 정책 변화로 인한 타격에 대한 언급이 주제 토픽으로 나타났다. 이차전지 산업체의 경우 투자, 배터리, 기업 이슈에 대한 언급이 주제 토픽으로 나타났다. 바이오 산업체의 경우 투자, 코로나19 관련 이슈 및 기업 이슈에 대한 언급이 주제 토픽으로 나타났다. 다음으로, 댓글의 감성이 실제 주가와 연관성이 있는지를 알아보고자 각 대표 기업 별 주가의 변화와 댓글의 감성 점수 변화를 시각적 분석기법을 이용하여 비교 분석하였다. 분석 결과, 댓글의 감성 점수와 주가의 변화 흐름이 매우 유사하게 나타남을 통해 여론의 감성 점수 변화와 주가의 흐름에는 연관성이 있음을 확인하였다. 본 연구는 주가와의 연관성이 높은 뉴스 기사 댓글을 분석했다는 점, 수집 시기를 코로나19로 선정하여 코로나19라는 특수한 상황에서의 여론 트렌드 변화를 파악했다는 점, 국가전략기술제도에 속하는 산업 기업에 대한 여론을 분석하여 정부기관의 관련 정책 제정에 객관적인 근거를 제공하였다는 점에서 의의를 지닌다.

Abstract

In this study, we analyzed comments on news articles of representative companies of the three industries (i.e., semiconductor, secondary battery, and bio industries) that had been listed as national strategic technology projects of South Korea to identify public opinions towards them. In addition, we analyzed the relationship between changes in public opinion and stock price. ‘Samsung Electronics’ and ‘SK Hynix’ in the semiconductor industry, ‘Samsung SDI’ and ‘LG Chem’ in the secondary battery industry, and ‘Samsung Biologics’ and ‘Celltrion’ in the bio-industry were selected as the representative companies and 47,452 comments of news articles about the companies that had been published from January 1, 2020, to December 31, 2020, were collected from Naver News. The comments were grouped into positive, neutral, and negative emotions, and the dynamic topics of comments over time in each group were analyzed to identify the trends of public opinion in each industry. As a result, in the case of the semiconductor industry, investment, COVID-19 related issues, trust in large companies such as Samsung Electronics, and mention of the damage caused by changes in government policy were the topics. In the case of secondary battery industries, references to investment, battery, and corporate issues were the topics. In the case of bio-industries, references to investment, COVID-19 related issues, and corporate issues were the topics. Next, to understand whether the sentiment of the comments is related to the actual stock price, for each company, the changes in the stock price and the sentiment values of the comments were compared and analyzed using visual analytics. As a result, we found a clear relationship between the changes in the sentiment value of public opinion and the stock price through the similar patterns shown in the change graphs. This study analyzed comments on news articles that are highly related to stock price, identified changes in public opinion trends in the COVID-19 era, and provided objective feedback to government agencies’ policymaking.

정보관리학회지