바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 자동 수집, 검색결과: 2
1
김태영(전북대학교) ; 양동민(전북대학교) ; 최상기(전북대학교) ; 오효정(전북대학교) 2019, Vol.36, No.2, pp.79-104 https://doi.org/10.3743/KOSIM.2019.36.2.079
초록보기
초록

최근 공공기관에서 국민과 소통하는 방법의 하나로 소셜미디어를 활발하게 활용함에 따라 기록관리 영역에서도 이를 수집하고 보존하기 위한 다양한 방안들이 논의되고 있다. 미국에서는 정부 차원에서 소셜미디어를 수집․보존하고자 하는 움직임이 일고 있고, 영국 국립기록관에서는 이미 공공기관의 트위터와 유튜브를 대상으로 아카이브를 구축하여 이용자에게 서비스를 제공하고 있다. 이에 본 연구에서는 소셜미디어 아카이빙의 수집 및 보존 측면에서의 사례조사 결과를 토대로 소셜미디어의 유형별 특징과 그에 따른 수집 방안과 보존 모형을 제안하고자 한다. 또한 제안방안의 실효성을 검증하기 위해 경상남도 도청의 소셜미디어를 대상으로 시범 적용하였다. 본 연구는 실제 수집한 결과를 통해 수집 및 보존방안을 제시하였다는 점에서 그 의의가 있으며, 차후 소셜미디어 아카이빙을 위한 모델 수립에 도움이 될 수 있을 것으로 기대한다.

Abstract

Recently, various methods of collecting and preserving social media have been discussed in the field of archives and records management as social media is actively used as a way of communicating with the public in the government. In the United States, there is a move to acquire and preserve social media at the government level, and the National Archives (UK) already provides social media archives to users through Twitter and YouTube. In this study, we proposed the features, acquisition methods of social media by type and the preservation model based on case study results in terms of acquisition and preservation of social media archiving. In order to verify the effectiveness of the proposed methods, this study was applied to the social media of Gyeongsangnamdo provincial government. The results of this study is meaningful in that it suggested acquisition and preservation methods through actual collected results and it is expected that it will be useful for establishing the models for future social media archiving.

초록보기
초록

본 연구는 시계열 특성을 갖는 데이터의 패턴 유사도 비교를 통해 유사 추세를 보이는 키워드를 자동 분류하기 위한 효과적인 방법을 제안하는 것을 목표로 한다. 이를 위해 대량의 웹 뉴스 기사를 수집하고 키워드를 추출한 후 120개 구간을 갖는 시계열 데이터를 생성하였다. 제안한 모델의 성능 평가를 위한 테스트 셋을 구축하기 위해, 440개의 주요 키워드를 8종의 추세 유형에 따라 수작업으로 범주를 부여하였다. 본 연구에서는 시계열 분석에 널리 활용되는 동적 시간 와핑(DTW) 기법을 기반으로, 추세의 경향성을 잘 보여주는 이동 평균(MA) 기법을 DTW에 추가 적용한 응용 모델인 MA-DTW를 제안하였다, 자동 분류 성능 평가를 위해 k-최근접 이웃(kNN) 알고리즘을 적용한 결과, ED와 DTW가 각각 마이크로 평균 F1 기준 48.2%와 66.6%의 최고 점수를 보인 데 비해, 제안 모델은 최고 74.3%의 식별 성능을 보여주었다. 종합 성능 평가를 통해 측정된 모든 지표에서, 제안 모델이 기존의 ED와 DTW에 비해 우수한 성능을 보임을 확인하였다.

Abstract

This study aims to suggest an effective method for the automatic classification of keywords with similar patterns by calculating pattern similarity of temporal data. For this, large scale news on the Web were collected and time series data composed of 120 time segments were built. To make training data set for the performance test of the proposed model, 440 representative keywords were manually classified according to 8 types of trend. This study introduces a Dynamic Time Warping(DTW) method which have been commonly used in the field of time series analytics, and proposes an application model, MA-DTW based on a Moving Average(MA) method which gives a good explanation on a tendency of trend curve. As a result of the automatic classification by a k-Nearest Neighbor(kNN) algorithm, Euclidean Distance(ED) and DTW showed 48.2% and 66.6% of maximum micro-averaged F1 score respectively, whereas the proposed model represented 74.3% of the best micro-averaged F1 score. In all respect of the comprehensive experiments, the suggested model outperformed the methods of ED and DTW.

정보관리학회지