바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: Topic Modeling, 검색결과: 40
1
이현실(원광대학교) ; 한성국(원광대학교) 2005, Vol.22, No.3, pp.289-306 https://doi.org/10.3743/KOSIM.2005.22.3.289
초록보기
초록

FRBR 모델에서는 서지 요소와 관계를 중심으로 ER 모델링 방식을 제공하고 있지만, 단지 구조적 프레임워크로서 FRBR 모델을 효율적으로 구현할 수 있는 도구가 필요하다. 본 연구에서는 Topic Maps를 이용하여 FRBR 모델을 구현하는 방법을 제시한다. Topic Maps 기반의 FRBR 모델 구현의 유효성을 설계하였고, Topic Maps를 이용하여 이를 구현하였다. 연구 결과, FRBR의 entity-relation 과 Topic Maps의 topic-asociation이 개념적으로 동일하기 때문에 FRBR 모델 개발의 적합함을 알 수 있었 다. FRBR 구조는 Topic Maps 패러다임과 그대로 일치하기 때문에 FRBR 모델은 Topic Maps로 구현함이 바람직하다.

Abstract

As FRBR defines structural framework based on ER modeling for b ibliographic data elements, an effective tool is required to implement FRBR model. In this implementation of FRBR model based on Topic Maps. To show the e ffectiveness of Topic Maps as the implantation language of FRBR, we implement FRBR mo del of topic-association of Topic Maps conceptually harmonize with entity-relation of FRBR, which means that Topic Maps is suitable for the implementation of FRBR model.

2
김수연(연세대학교) ; 송성전(연세대학교 문헌정보학과) ; 송민(연세대학교) 2015, Vol.32, No.1, pp.135-152 https://doi.org/10.3743/KOSIM.2015.32.1.135
초록보기
초록

Abstract

The goal of this paper is to explore the field of Computer and Information Science with the aid of text mining techniques by mining Computer and Information Science related conference data available in DBLP (Digital Bibliography & Library Project). Although studies based on bibliometric analysis are most prevalent in investigating dynamics of a research field, we attempt to understand dynamics of the field by utilizing Latent Dirichlet Allocation (LDA)-based multinomial topic modeling. For this study, we collect 236,170 documents from 353 conferences related to Computer and Information Science in DBLP. We aim to include conferences in the field of Computer and Information Science as broad as possible. We analyze topic modeling results along with datasets collected over the period of 2000 to 2011 including top authors per topic and top conferences per topic. We identify the following four different patterns in topic trends in the field of computer and information science during this period: growing (network related topics), shrinking (AI and data mining related topics), continuing (web, text mining information retrieval and database related topics), and fluctuating pattern (HCI, information system and multimedia system related topics).

초록보기
초록

본 연구에서는 성격유형과 흥미유형에 따른 독서 감상문에 나타난 독서에 대한 반응의 차이를 탐구하였다. 이를 위해 대전의 D과학고등학교 3학년 학생 81명을 대상으로 성격유형분석 데이터, 흥미유형분석 데이터, 교과독서 활동으로 작성된 독서 감상문 데이터를 수집하였다. 수집된 독서 감상문의 토픽 분석을 수행하고, 성격유형(사고형, 감정형)과 흥미유형(탐구형, 탐구형 외)에 따른 독서 감상문의 토픽 발현 확률을 통계적으로 검증하였다. 이어서 키워드 네트워크 분석을 통해 단어들의 개념 연결 구조를 측정하고, 중심성 지표를 통해 토픽모델링의 분석 결과를 보완하였다. 연구 결과, 토픽 회귀분석을 통해 토픽2(이해와 공부)와 토픽3(읽기와 사고)에서 사고형(T)과 감정형(F) 간에 통계적으로 유의한 차이를 확인할 수 있었으며, 토픽2(이해와 공부)에서 탐구형과 탐구형 외 간에 통계적으로 유의한 차이가 확인되었다. 본 연구의 결과는 맞춤형 도서 추천이나 개인화를 고려한 독서교육의 기초자료로 활용될 수 있을 것이다.

Abstract

This study aimed to investigate the difference in response to reading as shown in book reports by personality type and interest type. For this purpose, personality type analysis data, interest type analysis data, and book report data written in subject reading activities were collected from 81 third graders at D Science High School in Daejeon. Topic analysis was conducted on the collected book reports, and the probability of a topic being mentioned was statistically tested according to personality type (thinking type, feeling type) and interest type (investigative type, types other than investigative). Subsequently, the conceptual connection structure of words was measured by keyword network analysis, and the analysis results of topic modeling were complemented by the centrality index. As a result of the study, the topic regression analysis showed statistically significant differences between thinking type (T) and feeling type (F) in topic 2 (understanding and studying) and topic 3 (reading and thinking), and statistically significant differences between investigative type and non-investigative type in topic 2 (understanding and studying). The results of this study can be used as a basis for tailored book recommendations and personalized reading education.

4
고영수(연세대학교 문헌정보학과 석사과정) ; 이수빈(연세대학교 문헌정보학과 박사과정) ; 차민정(연세대학교 소셜오믹스 연구센터) ; 김성덕(연세대학교 문헌정보학과 석사과정) ; 이주희(연세대학교 문헌정보학과 석사과정) ; 한지영(연세대학교 문헌정보학과 석사과정) ; 송민(연세대학교 문헌정보학과) 2022, Vol.39, No.2, pp.111-129 https://doi.org/10.3743/KOSIM.2022.39.2.111
초록보기
초록

불면증은 최근 5년 새 환자가 20% 이상 증가하고 있는 현대 사회의 만성적인 질병이다. 수면이 부족할 경우 나타나는 개인 및 사회적 문제가 심각하고 불면증의 유발 요인이 복합적으로 작용하고 있어서 진단 및 치료가 중요한 질환이다. 본 연구는 자유롭게 의견을 표출하는 소셜 미디어 ‘Reddit’의 불면증 커뮤니티인 ‘insomnia’를 대상으로 5,699개의 데이터를 수집하였고 이를 국제수면장애분류 ICSD-3 기준과 정신의학과 전문의의 자문을 받은 가이드라인을 바탕으로 불면증 경향 문헌과 비경향 문헌으로 태깅하여 불면증 말뭉치를 구축하였다. 구축된 불면증 말뭉치를 학습데이터로 하여 5개의 딥러닝 언어모델(BERT, RoBERTa, ALBERT, ELECTRA, XLNet)을 훈련시켰고 성능 평가 결과 RoBERTa가 정확도, 정밀도, 재현율, F1점수에서 가장 높은 성능을 보였다. 불면증 소셜 데이터를 심층적으로 분석하기 위해 기존에 많이 사용되었던 LDA의 약점을 보완하며 새롭게 등장한 BERTopic 방법을 사용하여 토픽 모델링을 진행하였다. 계층적 클러스터링 분석 결과 8개의 주제군(‘부정적 감정’, ‘조언 및 도움과 감사’, ‘불면증 관련 질병’, ‘수면제’, ‘운동 및 식습관’, ‘신체적 특징’, ‘활동적 특징’, ‘환경적 특징’)을 확인할 수 있었다. 이용자들은 불면증 커뮤니티에서 부정 감정을 표현하고 도움과 조언을 구하는 모습을 보였다. 또한, 불면증과 관련된 질병들을 언급하고 수면제 사용에 대한 담론을 나누며 운동 및 식습관에 관한 관심을 표현하고 있었다. 발견된 불면증 관련 특징으로는 호흡, 임신, 심장 등의 신체적 특징과 좀비, 수면 경련, 그로기상태 등의 활동적 특징, 햇빛, 담요, 온도, 낮잠 등의 환경적 특징이 확인되었다.

Abstract

Insomnia is a chronic disease in modern society, with the number of new patients increasing by more than 20% in the last 5 years. Insomnia is a serious disease that requires diagnosis and treatment because the individual and social problems that occur when there is a lack of sleep are serious and the triggers of insomnia are complex. This study collected 5,699 data from ‘insomnia’, a community on ‘Reddit’, a social media that freely expresses opinions. Based on the International Classification of Sleep Disorders ICSD-3 standard and the guidelines with the help of experts, the insomnia corpus was constructed by tagging them as insomnia tendency documents and non-insomnia tendency documents. Five deep learning language models (BERT, RoBERTa, ALBERT, ELECTRA, XLNet) were trained using the constructed insomnia corpus as training data. As a result of performance evaluation, RoBERTa showed the highest performance with an accuracy of 81.33%. In order to in-depth analysis of insomnia social data, topic modeling was performed using the newly emerged BERTopic method by supplementing the weaknesses of LDA, which is widely used in the past. As a result of the analysis, 8 subject groups (‘Negative emotions’, ‘Advice and help and gratitude’, ‘Insomnia-related diseases’, ‘Sleeping pills’, ‘Exercise and eating habits’, ‘Physical characteristics’, ‘Activity characteristics’, ‘Environmental characteristics’) could be confirmed. Users expressed negative emotions and sought help and advice from the Reddit insomnia community. In addition, they mentioned diseases related to insomnia, shared discourse on the use of sleeping pills, and expressed interest in exercise and eating habits. As insomnia-related characteristics, we found physical characteristics such as breathing, pregnancy, and heart, active characteristics such as zombies, hypnic jerk, and groggy, and environmental characteristics such as sunlight, blankets, temperature, and naps.

5
김동훈(성균관대학교 문헌정보학과 박사과정) ; 오찬희(성균관대학교 문헌정보학과 석사과정) ; 주영준(성균관대학교 문헌정보학과 조교수) 2021, Vol.38, No.3, pp.23-39 https://doi.org/10.3743/KOSIM.2021.38.3.023
초록보기
초록

본 연구에서는 국내 블록체인 연구의 전반적인 동향 및 시간에 따른 주제를 파악하기 위해 대학 및 기관 협력 네트워크 분석, 키워드 동시출현 네트워크 분석, 다이나믹 토픽모델링 기법을 활용한 시계열 주제 분석을 실시하였다. 대학 및 기관 협력 네트워크 분석 결과, 숭실대학교, 순천향대학교, 고려대학교, 한국과학기술원 등이 블록체인 연구의 주요 대학으로 나타났으며 대학 이외의 기관으로는 국방부, 한국철도기술연구원, 삼일회계법인, 한국전자통신연구원 등이 주요 연구기관으로 나타났다. 키워드 동시출현 네트워크 분석 결과, 가상자산(암호화폐, 비트코인, 이더리움, 가상화폐), 블록체인 기술(분산원장, 분산원장기술), 금융(스마트계약), 정보보안(보안, 프라이버시, 개인정보) 등에 대한 키워드들이 주요하게 나타났으며, 모든 네트워크 중심성 지표에서 스마트계약이 가장 높은 수치를 나타내어 주요한 주제임을 확인할 수 있었다. 마지막으로 시계열 주제분석 결과, 블록체인기술, 블록체인생태계, 블록체인 적용분야1(무역, 온라인투표, 부동산), 블록체인 적용분야2(식품, 관광, 유통, 미디어), 블록체인 적용분야3(경제, 금융) 등 다섯 개의 주요 주제들을 도출하였으며, 각 주제별 대표 키워드들의 비율변화를 통해 주제별 변화를 관찰할 수 있었다. 본 연구는 기존의 국내 블록체인 연구동향 연구들과 크게 세 가지 관점(데이터, 방법론, 해석)에서 차이점을 나타내고 있다. 1) 최근 2년 사이 급증한 블록체인 연구를 포함하였고, 2) 대학 및 기관 네트워크 분석과 시계열 주제분석이라는 새로운 분석기법 및 연구방법을 활용하였으며, 3) 이를 통해 블록체인 연구를 주도하는 대학 및 기관을 식별하고 국내 블록체인 연구 트렌드를 파악하였다. 끝으로, 연구결과가 블록체인 관련 연구 협력 및 정책 수립과 관련 기술 개발 계획에 활용될 수 있다는 점에서 실질적인 함의를 시사한다.

Abstract

This study aims to explore research trends in Blockchain studies in South Korea using dynamic topic modeling and network analysis. To achieve this goal, we conducted the university & institute collaboration network analysis, the keyword co-occurrence network analysis, and times series topic analysis using dynamic topic modeling. Through the university & institute collaboration network analysis, we found major universities such as Soongsil University, Soonchunhyang University, Korea University, Korea Advanced Institute of Science and Technology (KAIST) and major institutes such as Ministry of National Defense, Korea Railroad Research Institute, Samil PricewaterhouseCoopers, Electronics and Telecommunications Research Institute that led collaborative research. Next, through the analysis of the keyword co-occurrence network, we found major research keywords including virtual assets (Cryptocurrency, Bitcoin, Ethereum, Virtual currency), blockchain technology (Distributed ledger, Distributed ledger technology), finance (Smart contract), and information security (Security, privacy, Personal information). Smart contracts showed the highest scores in all network centrality measures showing its importance in the field. Finally, through the time series topic analysis, we identified five major topics including blockchain technology, blockchain ecosystem, blockchain application 1 (trade, online voting, real estate), blockchain application 2 (food, tourism, distribution, media), and blockchain application 3 (economy, finance). Changes of topics were also investigated by exploring proportions of representative keywords for each topic. The study is the first of its kind to attempt to conduct university & institute collaboration networks analysis and dynamic topic modeling-based times series topic analysis for exploring research trends in Blockchain studies in South Korea. Our results can be used by government agencies, universities, and research institutes to develop effective strategies of promoting university & institutes collaboration and interdisciplinary research in the field.

초록보기
초록

과학적 지식을 얻는 과정은 연구자의 연구를 통해 이루어진다. 연구자들은 과학의 불확실성을 다루고 과학적 지식의 확실성을 구축해나간다. 즉, 과학적 지식을 얻기 위해서 불확실성은 반드시 거쳐가야 하는 필수적인 단계로 인식되고 있다. 현존하는 불확실성의 특성을 파악하는 연구는 언어학적 접근의 hedging 연구를 통해 소개되었으며 컴퓨터 언어학에서 수작업 기반으로 불확실성 단어 코퍼스를 구축해왔다. 기존의 연구들은 불확실성 단어의 단순 출현 빈도를 기반으로 특정 학문 영역의 불확실성의 특성을 파악해오는데 그쳤다. 따라서 본 연구에서는 문장 내 생의학적 주장이 중요한 역할을 하는 생의학 문헌을 대상으로 불확실성 단어 기반 과학적 지식의 패턴을 시간의 흐름에 따라 살펴보고자 한다. 이를 위해 생의학 온톨로지인 UMLS에서 제공하는 의미적 술어를 기반으로 생의학 명제를 분석하였으며, 학문 분야의 패턴을 파악하는데 용이한 DMR 토픽 모델링을 적용하여 생의학 개체의 불확실성 기반 토픽의 동향을 종합적으로 파악하였다. 시간이 흐름에 따라 과학적 지식의 표현은 불확실성이 감소하는 패턴으로 연구의 발전이 이루어지고 있음을 확인하였다.

Abstract

The process of obtaining scientific knowledge is conducted through research. Researchers deal with the uncertainty of science and establish certainty of scientific knowledge. In other words, in order to obtain scientific knowledge, uncertainty is an essential step that must be performed. The existing studies were predominantly performed through a hedging study of linguistic approaches and constructed corpus with uncertainty word manually in computational linguistics. They have only been able to identify characteristics of uncertainty in a particular research field based on the simple frequency. Therefore, in this study, we examine pattern of scientific knowledge based on uncertainty word according to the passage of time in biomedical literature where biomedical claims in sentences play an important role. For this purpose, biomedical propositions are analyzed based on semantic predications provided by UMLS and DMR topic modeling which is useful method to identify patterns in disciplines is applied to understand the trend of entity based topic with uncertainty. As time goes by, the development of research has been confirmed that uncertainty in scientific knowledge is moving toward a decreasing pattern.

7
김선욱(경북대학교 사회과학대학 문헌정보학과) ; 양기덕(영남고문헌아카이브센터) 2022, Vol.39, No.3, pp.99-132 https://doi.org/10.3743/KOSIM.2022.39.3.099
초록보기
초록

본 연구의 목적은 LDA 토픽모델링 결과와 BERTopic 토픽모델링 결과를 합성하는 방법론인 Augmented and Extended Topics(AET)를 제안하고, 이를 사용해 문헌정보학 분야의 연구주제를 분석하는 데 있다. AET의 실제 적용결과를 확인하기 위해 2001년 1월부터 2021년 10월까지의 Web of Science 내 문헌정보학 학술지 85종에 게재된 학술논문 서지 데이터 55,442건을 분석하였다. AET는 서로 다른 토픽모델링 결과의 관계를 WORD2VEC 기반 코사인 유사도 매트릭스로 구축하고, 매트릭스 내 의미적 관계가 유효한 범위 내에서 매트릭스 재정렬 및 분할 과정을 반복해 증강토픽(Augmented Topics, 이하 AT)을 추출한 뒤, 나머지 영역에서 코사인 유사도 평균값 순위와 BERTopic 토픽 규모 순위에 대한 조화평균을 통해 확장토픽(Extended Topics, 이하 ET)을 결정한다. 최적 표준으로 도출된 LDA 토픽모델링 결과와 AET 결과를 비교한 결과, AT는 LDA 토픽모델링 토픽을 한층 더 구체화하고 세분화하였으며 ET는 유효한 토픽을 발견하였다. AT(Augmented Topics)의 성능은 LDA 이상이었으며 ET(Extended Topics)는 일부 경우를 제외하고 대부분 LDA와 유사한 수준의 성능을 나타내었다.

Abstract

The purpose of this study is to propose AET (Augmented and Extended Topics), a novel method of synthesizing both LDA and BERTopic results, and to analyze the recently published LIS articles as an experimental approach. To achieve the purpose of this study, 55,442 abstracts from 85 LIS journals within the WoS database, which spans from January 2001 to October 2021, were analyzed. AET first constructs a WORD2VEC-based cosine similarity matrix between LDA and BERTopic results, extracts AT (Augmented Topics) by repeating the matrix reordering and segmentation procedures as long as their semantic relations are still valid, and finally determines ET (Extended Topics) by removing any LDA related residual subtopics from the matrix and ordering the rest of them by (BERTopic topic size rank, Inverse cosine similarity rank). AET, by comparing with the baseline LDA result, shows that AT has effectively concretized the original LDA topic model and ET has discovered new meaningful topics that LDA didn’t. When it comes to the qualitative performance evaluation, AT performs better than LDA while ET shows similar performances except in a few cases.

초록보기
초록

이 연구에서는 토픽 모델링 결과 해석의 용이성을 위하여, 동적 인용 네트워크를 활용하여 LDA 기반 토픽 모델링의 토픽 수를 설정하고 중복 배치된 주요 키워드를 자아 중심 네트워크 분석을 통해 재배치하여 제시하는 방법을 제안하였다. ‘White LED’ 두 분야의 논문 데이터를 이용하여 분석한 결과, 동적 인용 네트워크 분석을 통해 형성된 분석대상 문헌집단에 혼잡도에 따른 토픽수를 사용하고 중복 분류된 토픽 내 주요 키워드를 자아중심 네트워크 분석 기법을 적용하여 재배치한 결과가 토픽 간의 중복도가 가장 낮은 것으로 나타났다. 따라서 동적 인용 네트워크 및 자아 중심 네트워크 분석을 적용함으로써 토픽모델링에 의한 분석 결과를 보완하는 다면적인 연구 동향 분석이 가능할 것으로 보인다.

Abstract

The combined approach of using ego-centric network analysis and dynamic citation network analysis for refining the result of LDA-based topic modeling was suggested and examined in this study. Tow datasets were constructed by collecting Web of Science bibliographic records of White LED and topic modeling was performed by setting a different number of topics on each dataset. The multi-assigned top keywords of each topic were re-assigned to one specific topic by applying an ego-centric network analysis algorithm. It was found that the topical cohesion of the result of topic modeling with the number of topic corresponding to the lowest value of perplexity to the dataset extracted by SPLC network analysis was the strongest with the best values of internal clustering evaluation indices. Furthermore, it demonstrates the possibility of developing the suggested approach as a method of multi-faceted research trend detection.

9
진설아(과학기술정책연구원) ; 송민(연세대학교) 2016, Vol.33, No.1, pp.7-32 https://doi.org/10.3743/KOSIM.2016.33.1.007
초록보기
초록

본 연구는 인용 정보와 주제범주 분류체계를 기반으로 한 기존 하향식 접근법과 달리 문헌에 출현한 단어정보를 기반으로 세부주제를 자동 추출하는 토픽 모델링을 사용하여 학제성을 측정하였다. JCR 2013의 Information & Library Science 주제범주에서 5년 영향력 지수 상위 20개 학술지의 최근 5년 동안의 논문 제목과 초록 텍스트를 분석대상으로 사용하였다. 학제성을 측정하기 위한 지수로 ‘분야적 다양성’을 나타내는 Shannon 엔트로피 지수와 Stirling 다양성 지수, ‘네트워크 응집성’을 나타내는 지수로는 토픽 네트워크의 평균 경로길이를 사용하였다. 계산된 다양성과 응집성 지수를 통해 학제성의 유형을 분류한 후 각 유형을 대표하는 학술지들의 토픽 네트워크를 비교하였다. 이를 통해 본 연구의 텍스트 기반 다양성 지수는 기존의 인용정보 기반 다양성 지수와 다른 양상을 보이고 있어 상호보완적으로 활용될 수 있으며, 다양성과 응집성을 모두 고려하여 분류된 각 학술지의 토픽 네트워크를 통해 개별 학술지가 다루는 세부주제의 특성과 연결 정도를 직관적으로 파악할 수 있었다. 이를 통해 토픽 모델링을 통한 텍스트 기반의 학제성 측정이 학술지의 학제성을 나타내는 데에 다양한 역할이 가능함을 확인하였다.

Abstract

This study has measured interdisciplinarity using a topic modeling, which automatically extracts sub-topics based on term information appeared in documents group unlike the traditional top-down approach employing the references and classification system as a basis. We used titles and abstracts of the articles published in top 20 journals for the past five years by the 5-year impact factor under the category of ‘Information & Library Science’ in JCR 2013. We applied ‘Discipline Diversity’ and ‘Network Coherence’ as factors in measuring interdisciplinarity; ‘Shannon Entropy Index’ and ‘Stirling Diversity Index’ were used as indices to gauge diversity of fields while topic network’s average path length was employed as an index representing network cohesion. After classifying the types of interdisciplinarity with the diversity and cohesion indices produced, we compared the topic networks of journals that represent each type. As a result, we found that the text-based diversity index showed different ranking when compared to the reference-based diversity index. This signifies that those two indices can be utilized complimentarily. It was also confirmed that the characteristics and interconnectedness of the sub-topics dealt with in each journal can be intuitively understood through the topic networks classified by considering both the diversity and cohesion. In conclusion, the topic modeling-based measurement of interdisciplinarity that this study proposed was confirmed to be applicable serving multiple roles in showing the interdisciplinarity of the journals.

10
윤지혜(한남대학교 교육학과) ; 정유경(한남대학교) 2022, Vol.39, No.4, pp.1-21 https://doi.org/10.3743/KOSIM.2022.39.4.001
초록보기
초록

본 연구는 정보활용교육 분야의 연구주제들을 파악하여 정보활용교육에 제안할 수 있는 요소들이 있는지를 살펴보는데 연구의 목적이 있다. 우선, 정보활용교육과 관련된 문헌정보학 분야의 논문 97편을 대상으로 토픽모델링을 적용하여 ‘미디어 리터러시’, ‘정보활용교육의 교수학습방법’, ‘정보원 이용 및 판단’ 등의 주요 주제를 파악하였다. 분석 결과를 바탕으로, 교육내용 측면에서는 Big 6 정보모형, 교육방법과 관련해서는 미국 사서교사협회의 정보활용 능력기준과 미국 대학 및 연구도서관협회의 정보활용교육 개발지침을 고려하여 정보활용교육 교육내용을 제안하였다. 본 연구는 정보활용교육 전반의 연구주제와 연관된 교육 요소들을 파악하였으며, 이를 바탕으로 ‘정보원 이용 및 판단’, ‘정보윤리’와 관련된 교육내용을 보다 강조하였다는 점에서 의의가 있다.

Abstract

The aim of this study is to identify the research topics and suggest an information literacy curriculum by analyzing research articles on information literacy. For this purpose, we applied the topic modeling technique to 97 scientific articles and identified the core contents of information literacy education, such as media literacy, information literacy instruction, and the use of information resources. Based on the analysis results, we suggested an information literacy curriculum by considering the Big 6 model, information literacy standards of American Association of School Library, and Association of College and Research Libraries’s information literacy competencies. This study is significant in that it considered ‘use of information resources’ and ‘information ethics’ to suggest information literacy education.

정보관리학회지