바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: text classification, 검색결과: 2
1
백우진(건국대학교) ; 신문선(안양대학교) ; 경명현(건국대학교) ; 민경수(건국대학교) ; 오혜란(건국대학교) ; 임차미(건국대학교) 2007, Vol.24, No.2, pp.123-141 https://doi.org/10.3743/KOSIM.2007.24.2.123
초록보기
초록

주시가격을 예측하는 것은 주식 가격 변동에 영향을 미치는 많은 요인과 요인 간의 상호작용에 기인하여 매우 어렵다고 알려져 있다. 이 연구는 어떤 회사에 대한 좋은 기사는 그 회사의 주식가격을 오르도록 영향을 미칠 것이고 나쁜 기사는 그 반대의 작용을 할 것이라는 가정에서 시작했다. 여러 회사들에 대한 기사와 그 회사의 주식가격이 기사가 공개된 후에 어떻게 변했는가에 대한 분석을 통하여 위 가정이 맞는 것을 확인했다. 즉 기사의 내용을 기사에 나온 회사에 대하여 호의적인지 아닌지 신뢰성 있게 분류하는 방법이 있다면 어느 정도의 주식 가격 예측은 가능할 것이다. 많은 기사를 일관적으로 빨리 처리하기 위하여 상장회사에 대한 기사를 자동 분석하는 다단계 뉴스 분류시스템을 개발한 후 성능을 확인하여 자동 시스템이 무작위로 주가 변동을 예측했을 경우보다 높은 정확률을 보이는 것을 확인했다.

Abstract

It has been known that predicting stock price is very difficult due to a large number of known and unknown factors and their interactions, which could influence the stock price. However, we started with a simple assumption that good news about a particular company will likely to influence its stock price to go up and vice versa. This assumption was verified to be correct by manually analyzing how the stock prices change after the relevant news stories were released. This means that we will be able to predict the stock price change to a certain degree if there is a reliable method to classify news stories as either favorable or unfavorable toward the company mentioned in the news. To classify a large number of news stories consistently and rapidly, we developed and evaluated a natural language processing based multi-stage news classification system, which categorizes news stories into either good or bad. The evaluation result was promising as the automatic classification led to better than chance prediction of the stock price change.

초록보기
초록

문헌간 유사도를 자질로 사용하는 분류기에서 미분류 문헌을 학습에 활용하여 분류 성능을 높이는 방안을 모색해보았다. 자동분류를 위해서 다량의 학습문헌을 수작업으로 확보하는 것은 많은 비용이 들기 때문에 미분류 문헌의 활용은 실용적인 면에서 중요하다. 미분류 문헌을 활용하는 준지도학습 알고리즘은 대부분 수작업으로 분류된 문헌을 학습데이터로 삼아서 미분류 문헌을 분류하는 첫 번째 단계와, 수작업으로 분류된 문헌과 자동으로 분류된 문헌을 모두 학습 데이터로 삼아서 분류기를 학습시키는 두 번째 단계로 구성된다. 이 논문에서는 문헌간 유사도 자질을 적용하는 상황을 고려하여 두 가지 준지도학습 알고리즘을 검토하였다. 이중에서 1단계 준지도학습 방식은 미분류 문헌을 문헌유사도 자질 생성에만 활용하므로 간단하며, 2단계 준지도학습 방식은 미분류 문헌을 문헌유사도 자질 생성과 함께 학습 예제로도 활용하는 알고리즘이다. 지지벡터기계와 나이브베이즈 분류기를 이용한 실험 결과, 두 가지 준지도학습 방식 모두 미분류 문헌을 활용하지 않는 지도학습 방식보다 높은 성능을 보이는 것으로 나타났다. 특히 실행효율을 고려한다면 제안된 1단계 준지도학습 방식이 미분류 문헌을 활용하여 분류 성능을 높일 수 있는 좋은 방안이라는 결론을 얻었다

Abstract

This paper studies the problem of classifying documents with labeled and unlabeled learning data, especially with regards to using document similarity features. The problem of using unlabeled data is practically important because in many information systems obtaining training labels is expensive, while large quantities of unlabeled documents are readily available. There are two steps in general semi-supervised learning algorithm. First, it trains a classifier using the available labeled documents, and classifies the unlabeled documents. Then, it trains a new classifier using all the training documents which were labeled either manually or automatically. We suggested two types of semi-supervised learning algorithm with regards to using document similarity features. The one is one step semi-supervised learning which is using unlabeled documents only to generate document similarity features. And the other is two step semi-supervised learning which is using unlabeled documents as learning examples as well as similarity features. Experimental results, obtained using support vector machines and naive Bayes classifier, show that we can get improved performance with small labeled and large unlabeled documents then the performance of supervised learning which uses labeled-only data. When considering the efficiency of a classifier system, the one step semi-supervised learning algorithm which is suggested in this study could be a good solution for improving classification performance with unlabeled documents.

정보관리학회지