바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: keyword analysis, 검색결과: 60
11
김규리(성균관대학교 문헌정보학과 석사과정) ; 오찬희(성균관대학교 문헌정보학과 석사과정) ; 주영준(연세대학교 문헌정보학과) 2022, Vol.39, No.1, pp.331-350 https://doi.org/10.3743/KOSIM.2022.39.1.331
초록보기
초록

본 연구는 코로나바이러스감염증-19 (이하 코로나19)로 인해 생겨난 코로나19 반시민성 주제와 코로나19 혐오 정서를 파악하기 위해 소셜 미디어 중 하나인 트위터의 코로나19 관련 게시물을 분석하였다. 2019년 12월 1일부터 2021년 8월 31일까지 21개월 동안 작성된 코로나19 관련 혐오 대상별(지역, 공공시설 혐오, 특정 인구 집단 혐오, 종교 혐오) 게시물 수집 및 전처리를 진행하여 총 63,802개의 게시물을 분석하였다. 혐오 대상별 빈도 분석, 다이나믹 토픽 모델링, 키워드 동시 출현 네트워크 분석 기법을 통하여 혐오 대상별 반시민성 주제와 혐오 키워드를 파악하였다. 첫째, 빈도 분석 결과, 지역, 공공시설 혐오는 상대적으로 증가하는 추세를 보이고 특정 인구 집단과 종교 혐오는 상대적으로 감소하는 추세를 확인할 수 있었다. 둘째, 다이나믹 토픽 모델링 분석 결과, 지역, 공공시설 혐오는 ‘대구, 경북지방 혐오’, ‘지역 간 혐오’, ‘공공시설 혐오’로 나타났고, 특정 인구 집단 혐오는 ‘중국 혐오’, ‘바이러스 전파자’, ‘실외(야외)활동 제재’로 나타났으며, 종교 혐오는 ‘신천지’, ‘기독교’, ‘종교 내 감염’, ‘방역 의무 거부’, ‘확진자 동선 비난’으로 나타났다. 셋째, 키워드 동시 출현 네트워크 분석 결과, 지역, 공공시설 혐오(코로나, 대구, 확진자, 신천지, 경북, 지역), 특정 인구 집단 혐오(코로나바이러스, 우한폐렴, 우한, 중국, 중국인, 사람, 입국, 금지), 종교 혐오(신천지, 코로나, 교회, 대구, 확진자, 감염) 등을 핵심 키워드로 확인할 수 있었다. 본 연구는 소셜 미디어를 활용한 국내 코로나19 혐오 대상 및 키워드 파악을 통해 코로나19 관련한 대중의 반시민성 여론을 파악하고자 하였다. 특히 기존의 선행연구에서 시도하지 않았던 주제인 코로나19 관련 혐오에 데이터 마이닝 기법을 이용하여 소셜 미디어에서 표출하는 대중의 반시민성 주제와 혐오 정서 탐색은 대중들의 여론을 파악하는 것이 의의가 있다. 더불어 본 연구 결과는 포스트 코로나 시대를 대비하는 문화적 소통 방안의 제도 및 정책 수립 기여를 위한 기본 자료에 기초할 수 있다는 점에서 실질적 함의를 시사한다.

Abstract

This study aims to understand topics of incivility related to COVID-19 from analyzing Twitter posts including COVID-19-related hate speech. To achieve the goal, a total of 63,802 tweets that were created between December 1st, 2019, and August 31st, 2021, covering three targets of hate speech including region and public facilities, groups of people, and religion were analyzed. Frequency analysis, dynamic topic modeling, and keyword co-occurrence network analysis were used to explore topics and keywords. 1) Results of frequency analysis revealed that hate against regions and public facilities showed a relatively increasing trend while hate against specific groups of people and religion showed a relatively decreasing trend. 2) Results of dynamic topic modeling analysis showed keywords of each of the three targets of hate speech. Keywords of the region and public facilities included “Daegu, Gyeongbuk local hate”, “interregional hate”, and “public facility hate”; groups of people included “China hate”, “virus spreaders”, and “outdoor activity sanctions”; and religion included “Shincheonji”, “Christianity”, “religious infection”, “refusal of quarantine”, and “places visited by confirmed cases”. 3) Similarly, results of keyword co-occurrence network analysis revealed keywords of three targets: region and public facilities (Corona, Daegu, confirmed cases, Shincheonji, Gyeongbuk, region); specific groups of people (Coronavirus, Wuhan pneumonia, Wuhan, China, Chinese, People, Entry, Banned); and religion (Corona, Church, Daegu, confirmed cases, infection). This study attempted to grasp the public’s anti-citizenship public opinion related to COVID-19 by identifying domestic COVID-19 hate targets and keywords using social media. In particular, it is meaningful to grasp public opinion on incivility topics and hate emotions expressed on social media using data mining techniques for hate-related to COVID-19, which has not been attempted in previous studies. In addition, the results of this study suggest practical implications in that they can be based on basic data for contributing to the establishment of systems and policies for cultural communication measures in preparation for the post-COVID-19 era.

초록보기
초록

이 연구는 한국학의 주류를 이루는 연구영역들의 기원과 발전경로를 파악하기 위하여 텍스트 마이닝과 주경로 분석(main path analysis, MPA) 기법을 수행하였다. 이를 위하여 전통적인 인문학 연구방법론이 아닌 디지털 텍스트를 기반으로 한 정량적 분석을 시도하였고 인용 데이터베이스를 활용하여 인용정보가 포함된 한국학 관련 문헌들을 수집하고 직접 인용 네트워크를 구축하여 한국학 분야 주경로를 추출하였다. 주경로 추출 결과, 한국학 인문분야에서는 키루트(key-route) 주경로 탐색에서 두 개의 주경로 군집(①한국 고대 농경문화(역사․문화․고고학), ②한국인의 영어습득(언어학))이 발견되었고, 한국학 인문․사회분야에서는 키루트 주경로 탐색에서 네 개의 주경로 군집(①한국 지역(공간)개발․조경, ②한국 경제발전(경제원조․소프트파워), ③한국의 산업(정치경제학), ④한국의 인구구성(남아선호)․북한경제(빈곤․중국협력))이 발견되었다. 이 연구의 결과가 한국학의 정체성을 파악하는데 기존의 지엽적 분석에서 벗어나 한국학이라는 학문에서 논의되고 있는 주 영역의 발전과 진화를 거시적으로 분석․제시함으로써 한국학이 가지는 포괄성과 모호성을 다소 해소하고 한국학 외연을 가시적으로 조망하는데 기여할 수 있으리라 기대한다.

Abstract

In this study, text mining and main path analysis (MPA) were applied to understand the origins and development paths of research areas that make up the mainstream of Korean studies. To this end, a quantitative analysis was attempted based on digital texts rather than the traditional humanities research methodology, and the main paths of Korean studies were extracted by collecting documents related to Korean studies including citation information using a citation database, and establishing a direct citation network. As a result of the main path analysis, two main path clusters (Korean ancient agricultural culture (history, culture, archeology) and Korean acquisition of English (linguistics)) were found in the key-route search for the Humanities field of Korean studies. In the field of Korean Studies Humanities and Social Sciences, four main path clusters were discovered: (1) Korea regional/spatial development, (2) Korean economic development (Economic aid/Soft power), (3) Korean industry (Political economics), and (4) population of Korea (Sex selection) & North Korean economy (Poverty, South-South cooperation).

초록보기
초록

최근 들어 다양한 분야에서 딥러닝이 혁신적인 기계학습 기법으로 급속하게 확산되고 있다. 이 연구에서는 딥러닝 연구동향을 분석하기 위해서 자아 중심 주제 인용분석 기법을 변형하여 응용해보았다. 이를 위해 Web of Science에서 ‘deep learning’으로 탐색하여 검색된 문헌 중 소수의 씨앗 문헌으로부터 인용 관계를 통해 분석 대상 문헌을 확보하는 방법을 시도하였다. 씨앗 문헌을 인용하는 최근 논문들을 딥러닝 분야의 현행 연구를 반영하는 자아 문헌집합으로 설정하였다. 자아 문헌으로부터 빈번히 인용된 선행 연구들은 딥러닝 분야의 연구 주제를 나타내는 인용 정체성 문헌집합으로 설정하였다. 자아 문헌집합에 대해서는 공저 네트워크 분석을 비롯한 정량적 분석을 실시하여 주요 국가와 연구 기관을 파악하였다. 인용 정체성 문헌들에 대해서는 동시인용 분석을 실시하고, 도출된 문헌 군집을 인용하는 주요 키워드인 인용 이미지 키워드를 파악하여 주요 문헌과 주요 연구 주제를 밝혀내었다. 마지막으로 특정 주제에 대한 인용 영향력이 성장하는 추세를 반영하는 인용 성장지수 CGI를 제안하고 측정하여 딥러닝 분야의 선도 연구 주제가 변화하는 동향을 밝혔다.

Abstract

Recently, deep learning has been rapidly spreading as an innovative machine learning technique in various domains. This study explored the research trends of deep learning via modified ego centered topic citation analysis. To do that, a few seed documents were selected from among the retrieved documents with the keyword ‘deep learning’ from Web of Science, and the related documents were obtained through citation relations. Those papers citing seed documents were set as ego documents reflecting current research in the field of deep learning. Preliminary studies cited frequently in the ego documents were set as the citation identity documents that represents the specific themes in the field of deep learning. For ego documents which are the result of current research activities, some quantitative analysis methods including co-authorship network analysis were performed to identify major countries and research institutes. For the citation identity documents, co-citation analysis was conducted, and key literatures and key research themes were identified by investigating the citation image keywords, which are major keywords those citing the citation identity document clusters. Finally, we proposed and measured the citation growth index which reflects the growth trend of the citation influence on a specific topic, and showed the changes in the leading research themes in the field of deep learning.

14
최형욱(이화여자대학교 일반대학원 문헌정보학과) ; 최예진(이화여자대학교 일반대학원 문헌정보학과) ; 남소연(이화여자대학교 일반대학원 문헌정보학과) 2018, Vol.35, No.2, pp.89-114 https://doi.org/10.3743/KOSIM.2018.35.2.089
초록보기
초록

학문 분야의 연구 동향 변화에 대한 연구는 해당 분야의 세부 연구주제와 구조에 대한 파악뿐만 아니라 시간 흐름에 따른 변화 모습을 관찰할 수 있는 방법이다. 이에 본 연구에서는 국내 문헌정보학 분야의 연구 동향을 살펴보기 위하여 2003년부터 2017년까지 한국학술지인용색인(KCI)에 등재된 문헌정보학 분야 학술지 중 인용지수가 가장 높은 3종에 개제된 논문의 한국어 저자키워드를 대상으로 동시출현단어 분석을 수행하였다. 시계열 분석을 위해 15년의 연구 기간을 5년 단위로 누적하여 2003년~2007년, 2003년~2012년, 2003년~2017년으로 구분하였고, 기간별로 출현빈도 10회 이상의 저자키워드를 선정하여 분석하고 이를 시각화하였다. 분석 결과, 2003년~2007년 기간의 지적구조는 총 25개의 키워드로 구성된 8개의 영역이 확인되었으며, 2003년~2012년 기간의 지적구조에서는 총 76개의 키워드로 구성된 3영역 17 군집이 확인되었다. 또한, 2003년~2017년 기간의 지적구조는 총 132개의 키워드로 구성된 6영역 32군집으로 나타났다. 누적 기간별 종합 분석 결과, 한국의 문헌정보학 분야는 지난 15년간 기간별로 새로운 키워드가 포괄적으로 추가되었으며, 세부 주제 역시 세분화 되어 점차 세분화되고 확장되고 있음을 확인하였다.

Abstract

Research on changes in research trends in academic disciplines is a method that enables observation of not only the detailed research subject and structure of the field but also the state of change in the flow of time. Therefore, in this study, in order to observe the changes of research trend in library and information science field in Korea, co-word analysis was conducted with Korean author keywords from three types of journals which were listed in the Korea Citation Index(KCI) and have top citation impact factor were selected. For the time series analysis, the 15-year research period was accumulated in 5-years units, and divided into 2003~2007, 2003~2012, and 2003~2017. The keywords which limited to the frequency of appearance 10 or more, respectively, were analyzed and visualized. As a result of the analysis, during the period from 2003 to 2007, the intellectual structure composed with 25 keywords and 8 areas was confirmed, and during the period from 2003 to 2012, the structure composed by 3 areas 17 sub-areas with 76 keywords was confirmed. Also, the intellectual structure during the period from 2003 to 2017 was crowded into 6 areas 32 consisting of a total of 132 keywords. As a result of comprehensive period analysis, in the field of library and information science in Korea, over the past 15 years, new keywords have been added for each period, and detailed topics have also been subdivided and gradually segmented and expanded.

15
최예진(이화여자대학교 문헌정보학과) ; 정연경(이화여자대학교) 2016, Vol.33, No.3, pp.63-83 https://doi.org/10.3743/KOSIM.2016.33.3.063
초록보기
초록

다양한 매체와 유형으로 생산되는 정보자원에 대한 이용이 높아짐에 따라, 정보자원을 기술하기 위한 정보조직의 도구로서 메타데이터에 대한 중요성이 높아지고 있다. 본 연구에서는 메타데이터 분야의 연구 영역을 파악할 수 있도록 동시출현단어 분석을 사용하여 메타데이터 분야의 지적 구조를 규명하고자 하였다. 이를 위하여 1998년 1월 1일부터 2016년 7월 8일까지 Web of Science 핵심컬렉션에 등재된 저널에 게재된 문헌을 대상으로 ‘metadata’라는 질의어로 Topic 검색을 수행하여, 총 727건의 논문에 대한 서지정보를 수집하였다. 이 중 저자 키워드를 가진 410건의 논문의 저자 키워드로 수집하고, 전처리 과정을 거쳐 저자 키워드 총 1,137개를 추출하여 최종적으로 빈도수 6회 이상의 키워드 37개를 분석대상으로 선정하였다. 이후 메타데이터 분야의 지적구조 규명을 위해 첫째, 네트워크 분석을 통하여 2개 영역 9개 군집을 도출하였으며, 메타데이터 분야 키워드들의 지적 관계를 시각화하고, 중심성 분석을 통한 전역 중심 키워드와 지역 중심이 높은 키워드를 제시하였다. 둘째, 군집분석을 실시하여 형성된 6개의 군집을 다차원축적지도상에 표시하였으며, 각 키워드들 간의 상관관계에 따른 지적구조를 제시하였다. 이러한 연구의 결과는 메타데이터 분야의 지적구조를 시각적으로 파악할 수 있게 하며, 향후 메타데이터 관련 교육과 연구의 방향성 모색에 유용하게 사용될 수 있을 것이다.

Abstract

As the usage of information resources produced in various media and forms has been increased, the importance of metadata as a tool of information organization to describe the information resources becomes increasingly crucial. The purposes of this study are to analyze and to demonstrate the intellectual structure in the field of metadata through co-word analysis. The data set was collected from the journals which were registered in the Core collection of Web of Science citation database during the period from January 1, 1998 to July 8, 2016. Among them, the bibliographic data from 727 journals was collected using Topic category search with the query word ‘metadata’. From 727 journal articles, 410 journals with author keywords were selected and after data preprocessing, 1,137 author keywords were extracted. Finally, a total of 37 final keywords which had more than 6 frequency were selected for analysis. In order to demonstrate the intellectual structure of metadata field, network analysis was conducted. As a result, 2 domains and 9 clusters were derived, and intellectual relations among keywords from metadata field were visualized, and proposed keywords with high global centrality and local centrality. Six clusters from cluster analysis were shown in the map of multidimensional scaling, and the knowledge structure was proposed based on the correlations among each keywords. The results of this study are expected to help to understand the intellectual structure of metadata field through visualization and to guide directions in new approaches of metadata related studies.

16
허수진(대구가톨릭대학교 기록대학원 석사과정) ; 최상희(대구가톨릭대학교 문헌정보학과) 2023, Vol.40, No.4, pp.351-373 https://doi.org/10.3743/KOSIM.2023.40.4.351
초록보기
초록

이 연구는 국내 기록관리표준의 연구동향을 분석한 것으로 이를 위해 기록관리표준 관련 논문의 표제-주제어-초록의 키워드를 추출하여 상위빈도 키워드의 분석과 키워드 네트워크 분석을 수행하였다. 분석 대상 기간은 2000년부터 현재까지이며 RISS와 ScienceON 등의 국내 학술논문 검색사이트에서 총 212편의 논문을 수집하여 연구를 수행하였다. 분석 결과 2000~2010년까지는 아카이브 설계를 위한 OAIS의 연구, OAIS를 통한 디지털 기록 보존연구 ISO 표준의 분석 연구 등이 주로 진행되었고, 2011년 이후부터 지금까지는 기록경영인증, ISAD(G)의 RiC 전환 등의 연구가 진행되었음을 알 수 있었다. 이 연구는 기록관리표준 연구의 국내 연구동향을 분석함으로써 연구 흐름을 파악하는 기초자료로 활용되며, 기존 기록관리표준을 연구할 때 참고자료로 역할을 할 것으로 기대한다.

Abstract

This study aimed to analyze and collect research trends of archival management standards in Korea. For this purpose, keywords from the titles, author keywords, and abstracts of papers related to records management standards were statistically analyzed to investigate the major keywords with high-frequency. Network analysis with high frequency keywords was also conducted to identify the subject areas of research in archival management standards. The analysis period is from 2000 to the present, and a total of 212 papers were collected from domestic academic paper search sites such as RISS and ScienceON. As a result of the analysis, from 2000 to 2010, OAIS for archive design, digital record preservation with OAIS, and analysis on ISO standards were mainly conducted in research areas. From 2011 until now, records management certification and ISAD(G)’s conversion to RiC emerged as new research areas. This study will be expected to be basic data to understand research trends in records management standards in Korea and to be a reference for research on records management standards studies.

17
김동훈(성균관대학교 문헌정보학과 박사과정) ; 오찬희(성균관대학교 문헌정보학과 석사과정) ; 주영준(성균관대학교 문헌정보학과 조교수) 2021, Vol.38, No.3, pp.23-39 https://doi.org/10.3743/KOSIM.2021.38.3.023
초록보기
초록

본 연구에서는 국내 블록체인 연구의 전반적인 동향 및 시간에 따른 주제를 파악하기 위해 대학 및 기관 협력 네트워크 분석, 키워드 동시출현 네트워크 분석, 다이나믹 토픽모델링 기법을 활용한 시계열 주제 분석을 실시하였다. 대학 및 기관 협력 네트워크 분석 결과, 숭실대학교, 순천향대학교, 고려대학교, 한국과학기술원 등이 블록체인 연구의 주요 대학으로 나타났으며 대학 이외의 기관으로는 국방부, 한국철도기술연구원, 삼일회계법인, 한국전자통신연구원 등이 주요 연구기관으로 나타났다. 키워드 동시출현 네트워크 분석 결과, 가상자산(암호화폐, 비트코인, 이더리움, 가상화폐), 블록체인 기술(분산원장, 분산원장기술), 금융(스마트계약), 정보보안(보안, 프라이버시, 개인정보) 등에 대한 키워드들이 주요하게 나타났으며, 모든 네트워크 중심성 지표에서 스마트계약이 가장 높은 수치를 나타내어 주요한 주제임을 확인할 수 있었다. 마지막으로 시계열 주제분석 결과, 블록체인기술, 블록체인생태계, 블록체인 적용분야1(무역, 온라인투표, 부동산), 블록체인 적용분야2(식품, 관광, 유통, 미디어), 블록체인 적용분야3(경제, 금융) 등 다섯 개의 주요 주제들을 도출하였으며, 각 주제별 대표 키워드들의 비율변화를 통해 주제별 변화를 관찰할 수 있었다. 본 연구는 기존의 국내 블록체인 연구동향 연구들과 크게 세 가지 관점(데이터, 방법론, 해석)에서 차이점을 나타내고 있다. 1) 최근 2년 사이 급증한 블록체인 연구를 포함하였고, 2) 대학 및 기관 네트워크 분석과 시계열 주제분석이라는 새로운 분석기법 및 연구방법을 활용하였으며, 3) 이를 통해 블록체인 연구를 주도하는 대학 및 기관을 식별하고 국내 블록체인 연구 트렌드를 파악하였다. 끝으로, 연구결과가 블록체인 관련 연구 협력 및 정책 수립과 관련 기술 개발 계획에 활용될 수 있다는 점에서 실질적인 함의를 시사한다.

Abstract

This study aims to explore research trends in Blockchain studies in South Korea using dynamic topic modeling and network analysis. To achieve this goal, we conducted the university & institute collaboration network analysis, the keyword co-occurrence network analysis, and times series topic analysis using dynamic topic modeling. Through the university & institute collaboration network analysis, we found major universities such as Soongsil University, Soonchunhyang University, Korea University, Korea Advanced Institute of Science and Technology (KAIST) and major institutes such as Ministry of National Defense, Korea Railroad Research Institute, Samil PricewaterhouseCoopers, Electronics and Telecommunications Research Institute that led collaborative research. Next, through the analysis of the keyword co-occurrence network, we found major research keywords including virtual assets (Cryptocurrency, Bitcoin, Ethereum, Virtual currency), blockchain technology (Distributed ledger, Distributed ledger technology), finance (Smart contract), and information security (Security, privacy, Personal information). Smart contracts showed the highest scores in all network centrality measures showing its importance in the field. Finally, through the time series topic analysis, we identified five major topics including blockchain technology, blockchain ecosystem, blockchain application 1 (trade, online voting, real estate), blockchain application 2 (food, tourism, distribution, media), and blockchain application 3 (economy, finance). Changes of topics were also investigated by exploring proportions of representative keywords for each topic. The study is the first of its kind to attempt to conduct university & institute collaboration networks analysis and dynamic topic modeling-based times series topic analysis for exploring research trends in Blockchain studies in South Korea. Our results can be used by government agencies, universities, and research institutes to develop effective strategies of promoting university & institutes collaboration and interdisciplinary research in the field.

18
김혜영(연세대학교) ; 박지홍(연세대학교) 2020, Vol.37, No.2, pp.1-22 https://doi.org/10.3743/KOSIM.2020.37.2.001
초록보기
초록

공동발의 네트워크는 법안 공동발의로 형성되는 국회의원 간의 관계를 통해 국회 입법과정을 보여준다. 본 연구는 제19대 국회 임기기간 중 발의된 도서관법안을 중심으로 공동발의 네트워크 분석과 국회의원 액터의 중심성 분석 및 키워드 중심 네트워크의 서브그룹 분석을 실시하였다. 연구결과, 도서관법안 공동발의 네트워크는 정당에 따라 분절된 모습을 보였으며, 다른 소속 정당 의원과 근접한 거리에 위치하면서 매개적 역할을 수행하는 의원들이 네트워크에서 중요한 영향력을 미치고 있었다. 키워드중심 네트워크로 재구조화할 경우, 다른 정당 소속 의원들이 동일한 키워드를 공유하면서 서브그룹을 형성함에 따라 정당으로 분절된 네트워크 구조가 개선되는 모습을 보였다. 연구결과를 토대로, 도서관계 입법활동 활성화를 위해서는 정당 간 매개적 역할을 하는 의원들을 중심으로 도서관 법안이 아닌 주요 키워드를 중심으로 정책이슈를 확산하고 공유하는 전략이 필요하다는 점을 제시하였다.

Abstract

The legislative cosponsorship network shows the legislative process of the National Assembly through the relationship between the members of the National Assembly formed by cosponsorship. This study focused on the library bill proposed during the 19th National Assembly term, and conducted the cosponsorship network analysis, the centrality analysis of actors of the National Assembly, and a subgroup analysis of keyword-centric networks. As the result of the study, the library bill’s cosponsorship network was segmented according to political parties, and lawmakers who played an intermediary role in close proximity to other political party members had an important influence on the network. When restructured into a keyword-oriented network, the network structure segmented into political parties improved as members of different parties shared the same keywords and formed subgroups. Based on the results, it was suggested that a strategy for spreading and sharing policy issues based on core keywords rather than library legislation, centered on lawmakers who play a mediating role between parties, is needed to activate library legislation.

초록보기
초록

본 연구의 목적은 국내 학술논문 데이터베이스에서 검색한 언어 네트워크 분석 관련 53편의 국내 학술논문들을 대상으로 하는 내용분석을 통해, 언어 네트워크 분석 방법의 기초적인 체계를 파악하기 위한 것이다. 내용분석의 범주는 분석대상의 언어 텍스트 유형, 키워드 선정 방법, 동시출현관계의 파악 방법, 네트워크의 구성 방법, 네트워크 분석도구와 분석지표의 유형이다. 분석결과로 나타난 주요 특성은 다음과 같다. 첫째, 학술논문과 인터뷰 자료를 분석대상의 언어 텍스트로 많이 사용하고 있다. 둘째, 키워드는 주로 텍스트의 본문에서 추출한 단어의 출현빈도를 사용하여 선정하고 있다. 셋째, 키워드 간 관계의 파악은 거의 동시출현빈도를 사용하고 있다. 넷째, 언어 네트워크는 단수의 네트워크보다 복수의 네트워크를 구성하고 있다. 다섯째, 네트워크 분석을 위해 NetMiner, UCINET/NetDraw, NodeXL, Pajek 등을 사용하고 있다. 여섯째, 밀도, 중심성, 하위 네트워크 등 다양한 분석지표들을 사용하고 있다. 이러한 특성들은 언어 네트워크 분석 방법의 기초적인 체계를 구성하는 데 활용할 수 있을 것이다.

Abstract

The purpose of this study is to perform content analysis of research articles using the language network analysis method in Korea and catch the basic point of the language network analysis method. Six analytical categories are used for content analysis: types of language text, methods of keyword selection, methods of forming co-occurrence relation, methods of constructing network, network analytic tools and indexes. From the results of content analysis, this study found out various features as follows. The major types of language text are research articles and interview texts. The keywords were selected from words which are extracted from text content. To form co-occurrence relation between keywords, there use the co-occurrence count. The constructed networks are multiple-type networks rather than single-type ones. The network analytic tools such as NetMiner, UCINET/NetDraw, NodeXL, Pajek are used. The major analytic indexes are including density, centralities, sub-networks, etc. These features can be used to form the basis of the language network analysis method.

초록보기
초록

본 논문에서는 온라인 뉴스 기사에서 자동으로 추출된 키워드 집합을 활용하여 특정 시점에서의 세부 주제별 토픽을 추출하고 정형화하는 새로운 방법론을 제시한다. 이를 위해서, 우선 다량의 텍스트 집합에 존재하는 개별 단어들의 중요도를 측정할 수 있는 복수의 통계적 가중치 모델들에 대한 비교 실험을 통해 TF-IDF 모델을 선정하였고 이를 활용하여 주요 키워드 집합을 추출하였다. 또한 추출된 키워드들 간의 의미적 연관성을 효과적으로 계산하기 위해서 별도로 수집된 약 1,000,000건 규모의 뉴스 기사를 활용하여 단어 임베딩 벡터 집합을 구성하였다. 추출된 개별 키워드들은 임베딩 벡터 형태로 수치화되고 K-평균 알고리즘을 통해 클러스터링 된다. 최종적으로 도출된 각각의 키워드 군집에 대한 정성적인 심층 분석 결과, 대부분의 군집들이 레이블을 쉽게 부여할 수 있을 정도로 충분한 의미적 집중성을 가진 토픽들로 평가되었다.

Abstract

In this paper, we propose a new methodology for extracting and formalizing subjective topics at a specific time using a set of keywords extracted automatically from online news articles. To do this, we first extracted a set of keywords by applying TF-IDF methods selected by a series of comparative experiments on various statistical weighting schemes that can measure the importance of individual words in a large set of texts. In order to effectively calculate the semantic relation between extracted keywords, a set of word embedding vectors was constructed by using about 1,000,000 news articles collected separately. Individual keywords extracted were quantified in the form of numerical vectors and clustered by K-means algorithm. As a result of qualitative in-depth analysis of each keyword cluster finally obtained, we witnessed that most of the clusters were evaluated as appropriate topics with sufficient semantic concentration for us to easily assign labels to them.

정보관리학회지