바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 토픽모델링, 검색결과: 29
초록보기
초록

본 연구는 토픽 모델링 및 네트워크 분석 기법을 활용하여 여대생들의 웨어러블 디바이스에 대한 인식 및 선호도 분석, 건강관리에 대한 요구를 분석함으로써 여대생에게 맞는 웨어러블 디바이스 개발 방안을 제시하였다. 이를 위하여 S여자대학교 재학생들이 사용하는 커뮤니티에서 건강관리 및 웨어러블 디바이스와 관련된 게시글 2,457건을 수집하였고. 수집된 게시글과 댓글 데이터를 전처리한 뒤 LDA 기반의 토픽 모델링을 실시하였다. 토픽 모델링 기법을 통해 건강관리 및 웨어러블 디바이스와 관련하여 여대생들의 주요 쟁점들을 도출하고, 관련 키워드가 포함된 포스팅에 대해 바이그램 분석과 네트워크 분석을 수행하여 여대생들이 웨어러블 기기에 대해 가지고 있는 견해를 파악하고자 한다.

Abstract

This study proposed a plan to develop wearable devices suitable for female college students by analyzing female college students’ perceptions and preferences for wearable devices and their needs for health care using topic modeling and network analysis techniques. To this end, 2,457 posts related to health care and wearable devices were collected from the community used by S Women’s University students. After preprocessing the collected posts and comment data, LDA-based topic modeling was performed. Through topic modeling techniques, major issues of female college students related to health care and wearable devices are derived, and bi-gram analysis and network analysis are performed on posts containing related keywords to understand female college students’ views on wearable devices.

초록보기
초록

본 논문에서는 온라인 뉴스 기사에서 자동으로 추출된 키워드 집합을 활용하여 특정 시점에서의 세부 주제별 토픽을 추출하고 정형화하는 새로운 방법론을 제시한다. 이를 위해서, 우선 다량의 텍스트 집합에 존재하는 개별 단어들의 중요도를 측정할 수 있는 복수의 통계적 가중치 모델들에 대한 비교 실험을 통해 TF-IDF 모델을 선정하였고 이를 활용하여 주요 키워드 집합을 추출하였다. 또한 추출된 키워드들 간의 의미적 연관성을 효과적으로 계산하기 위해서 별도로 수집된 약 1,000,000건 규모의 뉴스 기사를 활용하여 단어 임베딩 벡터 집합을 구성하였다. 추출된 개별 키워드들은 임베딩 벡터 형태로 수치화되고 K-평균 알고리즘을 통해 클러스터링 된다. 최종적으로 도출된 각각의 키워드 군집에 대한 정성적인 심층 분석 결과, 대부분의 군집들이 레이블을 쉽게 부여할 수 있을 정도로 충분한 의미적 집중성을 가진 토픽들로 평가되었다.

Abstract

In this paper, we propose a new methodology for extracting and formalizing subjective topics at a specific time using a set of keywords extracted automatically from online news articles. To do this, we first extracted a set of keywords by applying TF-IDF methods selected by a series of comparative experiments on various statistical weighting schemes that can measure the importance of individual words in a large set of texts. In order to effectively calculate the semantic relation between extracted keywords, a set of word embedding vectors was constructed by using about 1,000,000 news articles collected separately. Individual keywords extracted were quantified in the form of numerical vectors and clustered by K-means algorithm. As a result of qualitative in-depth analysis of each keyword cluster finally obtained, we witnessed that most of the clusters were evaluated as appropriate topics with sufficient semantic concentration for us to easily assign labels to them.

초록보기
초록

본 연구는 키워드 네트워크 분석과 토픽모델링을 활용하여 국내 정보활용교육 연구의 흐름을 살펴보고 향후 정보활용교육의 방향성을 모색하는데 목적이 있다. 이를 위하여 국내 문헌정보학 분야의 학술지에 게재된 정보활용교육과 관련된 논문 306편을 선정하고, 논문의 초록을 대상으로 전처리 과정을 거쳐 전체 키워드 출현 빈도, 시기별 키워드 출현 빈도, 키워드 동시출현 빈도분석을 수행하였다. 이어서 키워드 네트워크 분석을 통해 키워드의 연결중심성과 매개중심성, 위세중심성을 분석하였다. 또한 구조적 토픽모델링 분석을 활용하여 15개의 토픽(교육과정, 정보활용교육 효과, 정보활용교육 내용, 학교도서관 교육, 정보매체활용, 정보활용능력 평가 지표, 도서관 불안, 공공도서관 프로그램, 대학도서관 이용자교육, 건강정보 활용능력, 정보격차, 도서관활용수업 개선, 연구 동향, 정보활용교육 모델, 교사 역할)을 도출하고, 토픽별로 비중의 변화를 확인하기 위해 연도별 토픽 추이를 분석하였다. 이러한 결과를 바탕으로 정보활용교육의 방향성과 후속 연구에 대한 제언을 제시하였다.

Abstract

The purpose of this study is to investigate the flow of domestic information literacy education research using keyword network analysis and topic modeling and to explore the direction of information literacy education in the future. For this reason, 306 academic papers related to information literacy education published in academic journals of the library and information science field in Korea were chosen. And through the preprocessing process for abstracts of the paper, total keyword appearance frequency, keyword appearance frequency by period, and keyword simultaneous occurrence frequency were analyzed. Subsequently, keyword network analysis analyzed the degree centrality, between centrality, and eigenvector centrality of keywords. Using structural topic modeling analysis, 15 topics -curriculum, information literacy effect, contents of information literacy education, school library education, information media literacy, information literacy ability evaluation index, library anxiety, public library program, health information literacy ability, digital divide, library assisted instruction improvement, research trend, information literacy model, and teacher role-were derived. In addition, the trend of topics by year was analyzed to confirm the change in relative weight by topic. Based on these results, the direction of information literacy education and the suggestions for follow-up research were presented.

14
육지희(연세대학교 일반대학원 문헌정보학과) ; 송민(연세대학교) 2018, Vol.35, No.2, pp.63-88 https://doi.org/10.3743/KOSIM.2018.35.2.063
초록보기
초록

본 연구는 LDA 토픽 모델과 딥 러닝을 적용한 단어 임베딩 기반의 Doc2Vec 기법을 활용하여 자질을 선정하고 자질집합의 크기와 종류 및 분류 알고리즘에 따른 분류 성능의 차이를 평가하였다. 또한 자질집합의 적절한 크기를 확인하고 문헌의 위치에 따라 종류를 다르게 구성하여 분류에 이용할 때 높은 성능을 나타내는 자질집합이 무엇인지 확인하였다. 마지막으로 딥 러닝을 활용한 실험에서는 학습 횟수와 문맥 추론 정보의 유무에 따른 분류 성능을 비교하였다. 실험문헌집단은 PMC에서 제공하는 생의학 학술문헌을 수집하고 질병 범주 체계에 따라 구분하여 Disease-35083을 구축하였다. 연구를 통하여 가장 높은 성능을 나타낸 자질집합의 종류와 크기를 확인하고 학습 시간에 효율성을 나타냄으로써 자질로의 확장 가능성을 가지는 자질집합을 제시하였다. 또한 딥 러닝과 기존 방법 간의 차이점을 비교하고 분류 환경에 따라 적합한 방법을 제안하였다.

Abstract

This research evaluated differences of classification performance for feature selection methods using LDA topic model and Doc2Vec which is based on word embedding using deep learning, feature corpus sizes and classification algorithms. In addition to find the feature corpus with high performance of classification, an experiment was conducted using feature corpus was composed differently according to the location of the document and by adjusting the size of the feature corpus. Conclusionally, in the experiments using deep learning evaluate training frequency and specifically considered information for context inference. This study constructed biomedical document dataset, Disease-35083 which consisted biomedical scholarly documents provided by PMC and categorized by the disease category. Throughout the study this research verifies which type and size of feature corpus produces the highest performance and, also suggests some feature corpus which carry an extensibility to specific feature by displaying efficiency during the training time. Additionally, this research compares the differences between deep learning and existing method and suggests an appropriate method by classification environment.

초록보기
초록

본 연구에서는 커뮤니티 기반 질의응답 서비스에서의 질의할당을 위하여, 해당 커뮤니티에 축적된 질의응답 데이터 세트를 이용하여 해당 카테고리내의 토픽을 분석하고 이를 바탕으로 해당 토픽에 관심을 가지는 이용자의 관심 토픽을 분석하고자 하였다. 특정 카테고리 내의 토픽을 분석하기 위해서 LDA기법을 사용하였고 이를 이용하여 이용자의 관심 토픽을 모델링하였다. 나아가, 커뮤니티에 새롭게 유입되는 질의에 대한 토픽을 분석한 후, 이를 바탕으로 해당 토픽에 대해 관심을 가지고 있는 이용자를 추천하기 위한 일련의 방법들을 실험하였다.

Abstract

The main goal of this study is to investigate how to route a question to some relevant users who have interest in the topic of the question based on users’ topic interest. In order to assess users’ topic interest, archived question-answer pairs in the community were used to identify latent topics in the chosen categories using LDA. Then, these topic models were used to identify users’ topic interest. Furthermore, the topics of newly submitted questions were analyzed using the topic models in order to recommend relevant answerers to the question. This study introduces the process of topic modeling to investigate relevant users based on their topic interest.

16
장수현(중앙대학교 문헌정보학과) ; 남영준(중앙대학교) 2022, Vol.39, No.3, pp.263-292 https://doi.org/10.3743/KOSIM.2022.39.3.263
초록보기
초록

본 연구는 문헌정보학 현장인 도서관에서 제공되는 서비스인 이용자 교육의 관련 개념인 리터러시가 각종 문헌정보학 연구 분야에서 어떠한 연구 주제를 다루는지 확인하는 것을 목적으로 한다. 이를 위해 WoS와 KCI 데이터베이스에서 문헌정보학 분야 리터러시 관련 논문을 수집하여 키워드 분석 및 토픽 모델링 분석 기법을 상호보완적으로 사용해 분석하였다. 분석 결과, WoS와 KCI의 문헌정보학 분야 리티러시 관련 연구 동향은 저자 키워드, 주요 주제 등에서 차이가 있는 것으로 나타났으며, 토픽 모델링을 통해 KCI의 리터러시 관련 연구를 3개의 토픽으로 분류하였다. 또한, 연구에서 확인한 국내 문헌정보학 분야 리터러시 연구 동향은 전체 리터러시 관련 연구 동향과 연구량 급증 시기, 핵심 다빈출 키워드 차이가 있음을 분석하였다. 특히, 전체 분야 리터러시 연구는 ‘리터러시’, ‘교육’, ‘미디어’, ‘디지털’ 등의 단어가 다수 도출되었지만 문헌정보학 분야의 리터러시 연구는 ‘정보활용능력’, ‘학교도서관’ 등의 키워드가 다수 등장하였다. 이를 바탕으로 향후 국내에서도 정보가 급증하는 오늘날의 정보화 환경에 맞춰 정보에 대한 평가적인 안목을 기를 수 있는 능력에 관한 연구가 필요하다는 결론을 도출하였다.

Abstract

The purpose of this study is to identify the topics of research related to the concepts of literacy in the field of Library and Information Science which is related to user education in libraries. Data were collected from the WoS and KCI databases, and complementary keyword analysis and topic modeling analysis techniques were used to identify topics of literature-related research articles in the field of Library and Information Science. Findings presented that there was a difference in keywords and topics between the two databases. Literacy-related topics identified from the KCI database were classified into three groups through topic modeling. Also, it was analyzed that there is a difference between the overall literacy-related research trend, the timing of the surge in research volume, and key frequent keywords in the Library and Information Science field confirmed in the study. In particular, in the study of literacy in all fields, a number of words such as ‘literacy’, ‘education’, ‘media’, and ‘digital’ were derived. However, in literature research in the field of Library and Information Science, keywords such as ‘information utilization ability’ and ‘school library’ appeared. Based on this, it was concluded that research on the ability to develop an evaluative eye for information is needed in line with today’s information environment, where information is rapidly increasing in Korea in the future.

17
채하영(숙명여자대학교 문헌정보학과 석사과정) ; 이지수(숙명여자대학교 문헌정보학과) 2023, Vol.40, No.4, pp.201-228 https://doi.org/10.3743/KOSIM.2023.40.4.201
초록보기
초록

본 연구는 국내외 사서 채용 동향을 분석하기 위해 수행되었다. 연구 대상으로 국내데이터는 인터넷 포털 사이트인 “사서e마을”에 게시된 사서 채용 공고를 총 489개를 수집하였고, 해외데이터는 “ALAJobList”에서 6,600개의 자료를 수집하였다. 기간은 2020년 1월부터 2022년 8월까지이며 수집된 데이터를 대상으로 지역 분포도 분석, 빈도 분석, 토픽모델링을 수행하였다. 연구 결과, 채용 공고의 지역분포도는 국내데이터에서 서울이 280건으로 가장 많았으며, 해외데이터는 캘리포니아(California)가 662건으로 상위로 도출되었다. 빈도분석 결과, 국내데이터의 담당업무에서는 ‘관리’ 23.42% 키워드가 높게 나왔고, 자격요건은 ‘자격증’ 16.61%이 가장 많은 비율을 차지했다. 해외데이터의 담당업무에서는 ‘LibraryService’ 8.72% 비율이 높게 나왔으며, 자격요건은 ‘CommunicationSkills’ 10.13% 키워드가 가장 높은 순위에 위치함을 확인했다. 토픽모델링에서는 국내외 담당업무, 자격요건으로 나눠 총 4가지의 영역을 살펴보았다. 분석 결과, 국내외 채용 공고에서 도출된 사서의 담당업무 및 자격요건이 미국도서관협회(ALA) 및 한국도서관협회 등 주요 도서관 관련 협회에서 제시한 핵심 역량과 연관이 있음을 확인하였다.

Abstract

This study was conducted to analyze the trends of librarian job recruitment in Korea and overseas. A total of 489 librarian job postings posted on the internet portal site “Saseo e-Ma-eul” were collected for the Korean data, and 6,600 data were collected from “ALAJobList” for the international data. The research period spans from January 2020 to August 2022. The data were subjected to regional distribution analysis, frequency analysis, and topic modeling. As a result of the study, the number of Korean librarian job postings was the highest in Seoul with 280, while California was the state with the highest number of job postings overseas with 662. According to the frequency analysis, the main task of Korean data is ‘management’ 23.42%, and the core competency is ‘certificate’ 16.61%. For overseas data, ‘Library Service’ is the main task of 8.72%, and ‘Communication Skills’ is the most important core competency of 10.13%. In topic modeling, five topics were identified for each area 4 in total, including Korean and international job description and requirements. The analysis results confirm that the duties and qualifications derived from Korean and international job postings for librarians are related to the core competencies proposed by major library associations such as the American Library Association (ALA) and the Korean Library Association.

18
이소현(부산대학교 도서관) ; 구본진(부산대학교) 2022, Vol.39, No.2, pp.275-298 https://doi.org/10.3743/KOSIM.2022.39.2.275
초록보기
초록

본 연구는 잊힐 권리와 관련한 뉴스 기사와 학술지 게재 논문을 대상으로 텍스트마이닝 분석을 활용해 각 문서 내에 나타난 논점과 특성을 살펴보았다. 분석을 위해 ‘잊힐 권리’와 ‘잊혀질 권리’ 키워드를 검색어로 하여 2010년부터 2020년까지의 데이터를 수집하였다. 수집된 데이터를 대상으로 키워드 분석과 토픽모델링 분석을 수행한 결과, 지난 10년간 뉴스 기사와 학술지 논문에서 다루어진 쟁점은 크게 다르지 않으며, 접근 방법 또한 유사한 것으로 나타났다. 다만 뉴스 기사와 학술지 논문 간 비교를 통해 이들 간 공통적으로 나타나는 쟁점과 부분적인 쟁점의 차이가 있음을 확인하였다. 따라서 본 연구에서 도출된 쟁점을 중심으로 기록관리학 분야에서도 적극적인 논의가 이루어져야 할 필요가 있으며, 공통적인 쟁점들을 우선적으로 고려하되, 쟁점 상 이견이 존재하는 경우, 이를 다각적으로 논의하는 것이 필요하다고 볼 수 있다. 본 연구는 국내 기록관리학계에서 잊힐 권리와 관련된 논의가 이루어지고 있지 않은 현재의 상황에서 기록관리학 분야에서 잊힐 권리의 의미와 향후 발생할 수 있는 이슈를 도출해볼 수 있었다는데 의의가 있으며, 본 연구의 결과를 중심으로 기록관리학 분야에서 잊힐 권리에 대한 다양한 논의가 이루어지기를 기대한다.

Abstract

This study examined the issues and characteristics that appeared in news and journal articles related to the ‘right to be forgotten’ using text mining analysis. Data for analysis were collected from 2010 to 2020 with the keyword ‘right to be forgotten’. Keyword analysis and topic modeling analysis were performed on the collected data. As a result, in the last 10 years the issues about ‘right to be forgotten’ are not much different in news and journal articles and the approaches also are similar. However, it confirmed common issues and the partial difference between news and journal articles through comparison. Therefore in Archives and Records Management Studies, it is necessary to discuss derived in this study. In particular common issues are considered first but if there are differences in issues, it is needed to discuss them in various ways. This study is meaningful to understand the meaning and to draw issues that may arise in the future of the ‘right to be forgotten’. The results of this study will contribute to be variously discussed on the ‘right to be forgotten’ in Archives and Records Management Studies.

19
정우진(성균관대학교 문헌정보학과) ; 김규리(성균관대학교 문헌정보학과) ; 유승희(성균관대학교) ; 주영준(성균관대학교) 2021, Vol.38, No.4, pp.113-128 https://doi.org/10.3743/KOSIM.2021.38.4.113
초록보기
초록

본 연구는 코로나바이러스감염증-19(이하 코로나바이러스) 백신에 대한 사회적 의견을 파악하기 위해 트위터에서 작성된 백신 관련 게시물들을 분석하였다. 2020년 3월 16일부터 2021 3월 15일까지 1년간 트위터에서 작성된 코로나바이러스 백신 이름을 키워드로 포함한 45,413개의 게시물을 수집하여 분석하였다. 데이터 수집을 위해 활용된 코로나바이러스 백신 키워드는 총 12개이며, 수집된 게시물 수순으로 ‘화이자’, ‘아스트라제네카’, ‘모더나’, ‘얀센’, ‘노바백스’, ‘시노팜’, ‘시노백’, ‘스푸트니크’, ‘바라트’, ‘캔시노’, ‘추마코프’, ‘벡토르’이다. 수집된 게시물들은 수기와 자동화된 방법을 동시 활용하여 키워드 분석, 감성 분석, 및 토픽모델링을 통하여 백신들에 대한 의견을 탐색하였다. 연구결과에 따르면 전반적으로 백신에 대한 부정적인 반응이 많았으며, 백신 접종 후유증에 대한 불안 및 백신의 효능에 대한 불신이 백신들에 대한 부정적인 주요 요소로 파악되었다. 이와는 반대로, 백신 접종에 따른 코로나바이러스 확산 억제에 대한 기대감이 백신에 대한 긍정적인 사회적 요소인 것을 확인할 수 있었다. 본 연구는 기존의 선행연구들이 뉴스 등 대중매체 데이터를 통해 코로나바이러스 백신에 대한 사회적 분위기를 파악하고자 했던 것과 달리, 소셜 미디어 데이터 수집 및 이를 활용한 키워드 분석, 감성 분석, 토픽 모델링 등의 여러 분석방법들을 사용하여 대중들의 의견을 파악하는 것으로 학술적 의의를 지닌다. 또한, 본 연구의 결과는 백신에 대한 사회적 분위기를 반영한 백신 접종 권장 정책 수립 기여라는 실질적 함의를 시사한다.

Abstract

In this study, we aimed to understand the public opinion on COVID-19 vaccine. To achieve the goal, we analyzed COVID-19 vaccine-related Twitter posts. 45,413 tweets posted from March 16, 2020 to March 15, 2021 including COVID-19 vaccine names as keywords were collected. The 12 vaccine names used for data collection included ‘Pfizer’, ‘AstraZeneca’, ‘Modena’, ‘Jansen’, ‘NovaVax’, ‘Sinopharm’, ‘SinoVac’, ‘Sputnik V’, ‘Bharat’, ‘KhanSino’, ‘Chumakov’, and ‘VECTOR’ in the order of the number of collected posts. The collected posts were analyzed manually and automatedly through keyword analysis, sentiment analysis, and topic modeling to understand the opinions for the investigated vaccines. According to the results, there were generally more negative posts about vaccines than positive posts. Anxiety about the aftereffects of vaccination and distrust in the efficacy of vaccines were identified as major negative factors for vaccines. On the contrary, the anticipation for the suppression of the spread of coronavirus following vaccination was identified as a positive social factor for vaccines. Different from previous studies that investigated opinions about COVID-19 vaccines through mass media data such as news articles, this study explores opinions of social media users using keyword analysis, sentiment analysis, and topic modeling. In addition, the results of this study can be used by governmental institutions for making policies to promote vaccination reflecting the social atmosphere.

초록보기
초록

본 연구에서는 성격유형과 흥미유형에 따른 독서 감상문에 나타난 독서에 대한 반응의 차이를 탐구하였다. 이를 위해 대전의 D과학고등학교 3학년 학생 81명을 대상으로 성격유형분석 데이터, 흥미유형분석 데이터, 교과독서 활동으로 작성된 독서 감상문 데이터를 수집하였다. 수집된 독서 감상문의 토픽 분석을 수행하고, 성격유형(사고형, 감정형)과 흥미유형(탐구형, 탐구형 외)에 따른 독서 감상문의 토픽 발현 확률을 통계적으로 검증하였다. 이어서 키워드 네트워크 분석을 통해 단어들의 개념 연결 구조를 측정하고, 중심성 지표를 통해 토픽모델링의 분석 결과를 보완하였다. 연구 결과, 토픽 회귀분석을 통해 토픽2(이해와 공부)와 토픽3(읽기와 사고)에서 사고형(T)과 감정형(F) 간에 통계적으로 유의한 차이를 확인할 수 있었으며, 토픽2(이해와 공부)에서 탐구형과 탐구형 외 간에 통계적으로 유의한 차이가 확인되었다. 본 연구의 결과는 맞춤형 도서 추천이나 개인화를 고려한 독서교육의 기초자료로 활용될 수 있을 것이다.

Abstract

This study aimed to investigate the difference in response to reading as shown in book reports by personality type and interest type. For this purpose, personality type analysis data, interest type analysis data, and book report data written in subject reading activities were collected from 81 third graders at D Science High School in Daejeon. Topic analysis was conducted on the collected book reports, and the probability of a topic being mentioned was statistically tested according to personality type (thinking type, feeling type) and interest type (investigative type, types other than investigative). Subsequently, the conceptual connection structure of words was measured by keyword network analysis, and the analysis results of topic modeling were complemented by the centrality index. As a result of the study, the topic regression analysis showed statistically significant differences between thinking type (T) and feeling type (F) in topic 2 (understanding and studying) and topic 3 (reading and thinking), and statistically significant differences between investigative type and non-investigative type in topic 2 (understanding and studying). The results of this study can be used as a basis for tailored book recommendations and personalized reading education.

정보관리학회지