바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 동적 시간 와핑, 검색결과: 2
초록보기
초록

본 연구는 시계열 특성을 갖는 데이터의 패턴 유사도 비교를 통해 유사 추세를 보이는 키워드를 자동 분류하기 위한 효과적인 방법을 제안하는 것을 목표로 한다. 이를 위해 대량의 웹 뉴스 기사를 수집하고 키워드를 추출한 후 120개 구간을 갖는 시계열 데이터를 생성하였다. 제안한 모델의 성능 평가를 위한 테스트 셋을 구축하기 위해, 440개의 주요 키워드를 8종의 추세 유형에 따라 수작업으로 범주를 부여하였다. 본 연구에서는 시계열 분석에 널리 활용되는 동적 시간 와핑(DTW) 기법을 기반으로, 추세의 경향성을 잘 보여주는 이동 평균(MA) 기법을 DTW에 추가 적용한 응용 모델인 MA-DTW를 제안하였다, 자동 분류 성능 평가를 위해 k-최근접 이웃(kNN) 알고리즘을 적용한 결과, ED와 DTW가 각각 마이크로 평균 F1 기준 48.2%와 66.6%의 최고 점수를 보인 데 비해, 제안 모델은 최고 74.3%의 식별 성능을 보여주었다. 종합 성능 평가를 통해 측정된 모든 지표에서, 제안 모델이 기존의 ED와 DTW에 비해 우수한 성능을 보임을 확인하였다.

Abstract

This study aims to suggest an effective method for the automatic classification of keywords with similar patterns by calculating pattern similarity of temporal data. For this, large scale news on the Web were collected and time series data composed of 120 time segments were built. To make training data set for the performance test of the proposed model, 440 representative keywords were manually classified according to 8 types of trend. This study introduces a Dynamic Time Warping(DTW) method which have been commonly used in the field of time series analytics, and proposes an application model, MA-DTW based on a Moving Average(MA) method which gives a good explanation on a tendency of trend curve. As a result of the automatic classification by a k-Nearest Neighbor(kNN) algorithm, Euclidean Distance(ED) and DTW showed 48.2% and 66.6% of maximum micro-averaged F1 score respectively, whereas the proposed model represented 74.3% of the best micro-averaged F1 score. In all respect of the comprehensive experiments, the suggested model outperformed the methods of ED and DTW.

초록보기
초록

시소러스의 효율성을 유지하기 위해서는 지속적인 용어 관리가 절대적으로 필요하다. 실제적으로 특정 주제영역의 정보와 키워드들은 생성과 분화, 소멸 과정 등이 동적으로 이루어지기 때문에 시소러스의 효율적인 이에 따라 본 연구에서는 토픽맵의 기본요소인 토픽과 대상물, 연관관계 등을 활용하여 시소러스 관리를 위한 구조화 방안을 제안하였다. 한편 구조체계의 맵핑 알고리즘과 구조체계의 병합 알고리즘을 이용한 시소러스 기본관계와 세부관계 표현 방법도 제안하였다. 또한 토픽 타입을 이용한 연결중심문서를 기준으로 디스크립터의 확장과 디스크립터의 대치 방안을 제시하였다. 특히, 고정된 개념을 통한 이중 용어관리라는 새로운 방안도 개발하였다. 이는 시간과 공간의 비종속적인 개념을 표현하는 용어를 고정시키고, 해당 개념의 범주에 속하면서 외부의 정보적 상황에 따라 디스크립터를 자유롭게 선정하는 방법이다.

Abstract

The terminology management is absolutely necessary for maintain ing the efficiency of thesaurus. This is because the c reating, differentiating, disappearing, and other processes of e management of thesaurus a very difficult task. Therefore, a device is required for acco mplishing methods to construct and maintain the thesaurus.This study proposes the methods to construct the thesaurus mana elements of a topic map which are topic, ocurrence, and associ ation. Second, the study proposes the methods to represent the basic and specific instances using the systematic maping algorithm and merging algorithm.methods to expand and subsitute the descriptors using the topic type. The new method applying fixed concept for double layer manageme nt on terms is developed, too. The purpose of this method is to fix the conceptual term which and space, and to select the des criptor freely by external info rmation circumstance.

정보관리학회지