바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 학습효율성, 검색결과: 2
초록보기
초록

국내 학술회의 논문으로 구성된 문헌집합을 대상으로 기계학습에 기초한 자동분류의 성능에 영향을 미치는 요소들을 검토하였다. 특히 구현이 쉽고 컴퓨터 처리 속도가 빠른 로치오 알고리즘을 사용하여 『한국정보관리학회 학술대회 논문집』의 논문에 주제 범주를 자동 할당하는 분류 성능 측면에서 분류기 생성 방법, 학습집합 규모, 가중치부여 기법, 범주 할당 방법 등 주요 요소들의 특성을 다각적인 실험을 통해 살펴보았다. 결과적으로 분류 환경 및 문헌집합의 특성에 따라 파라미터(β, λ)와 학습집합의 크기(5년 이상)를 적절하게 적용하는 것이 효과적이며, 동등한 성능 수준이라면 보다 단순한 단일 가중치부여 기법을 사용하여 분류의 효율성을 높일 수 있음을 발견하였다. 또한 국내 학술회의 논문의 분류는 특정 논문에 하나 이상의 범주가 부여되는 복수-범주 분류(multi-label classification)가 실제 환경에 부합한다고 할 수 있으므로, 이러한 환경을 고려하여 주요 성능 요소들의 특성에 기초한 최적의 분류 모델을 개발할 필요가 있다.

Abstract

This study examined the factors affecting the performance of automatic classification for the domestic conference papers based on machine learning techniques. In particular, In view of the classification performance that assigning automatically the class labels to the papers in Proceedings of the Conference of Korean Society for Information Management using Rocchio algorithm, I investigated the characteristics of the key factors (classifier formation methods, training set size, weighting schemes, label assigning methods) through the diversified experiments. Consequently, It is more effective that apply proper parameters (β, λ) and training set size (more than 5 years) according to the classification environments and properties of the document set. and If the performance is equivalent, I discovered that the use of the more simple methods (single weighting schemes) is very efficient. Also, because the classification of domestic papers is corresponding with multi-label classification which assigning more than one label to an article, it is necessary to develop the optimum classification model based on the characteristics of the key factors in consideration of this environment.

초록보기
초록

해외에 진출한 국내기업의 소송 사례가 증가하면서 기업들의 전자증거개시제도의 대응에 대한 요구가 증가하고 있다. 영미법에서 유래된 제도인 전자증거개시제도는 절차 진행과정에서 여러 곳에 산재해 있는 전자적 정보들을 중 제한된 시간 내에 소송과 관련된 전자적 정보들을 찾아 증거자료로 검토하여 제출하는 제도이다. 이는 하루에도 수많은 전자기록이 생산되는 국내기업들의 기록관리가 잘 이루어지지 않고 있는 현실에서 제한된 시간 이내에 증거자료를 추리고 검토하여 제출하는 것은 쉽지 않은 일이다. 검토대상을 줄이고 검토과정을 효율적으로 진행하는 것은 소송에서 승소를 위한 가장 중요한 과제 중 하나이다. Predictive Coding은 전자증거개시 검토 과정에서 사용되는 도구로써 기계학습을 이용하여 기업들이 보유하고 있는 전자적 정보들의 검토를 도와주는 도구이다. Predictive Coding이 기존의 검색 도구보다 효율성이 높고 잠재적으로 소송과 관련된 전자적 정보를 추려내는데 강점이 있다고 판단된다. 기업의 효율적인 검색도구의 선택과 지속적인 기록관리를 통해 검토비용의 시간적, 비용적 절감을 꾀할 수 있을 것으로 예상된다. 따라서 기업은 전자증거개시 제도에 대응하기 위해서 시간과 비용적 측면을 고려한 전문적인 Predictive Coding 솔루션의 도입과 기업 기록관리를 통해 가장 효과적인 방법을 모색해야 할 것이다.

Abstract

As the domestic companies which have made inroads into foreign markets have more lawsuits, these companies’ demands for responding to E-Discovery are also increasing. E-Discovery, derived from Anglo-American law, is the system to find electronic evidences related to lawsuits among scattered electronic data within limited time, to review them as evidences, and to submit them. It is not difficult to find, select, review, and submit evidences within limited time given the reality that the domestic companies do not manage their records even though lots of electronic records are produced everyday. To reduce items to be reviewed and proceed the process efficiently is one of the most important tasks to win a lawsuit. The Predictive Coding is a computer assisted review instrument used in reviewing process of E-Discovery, which is to help companies review their own electronic data using mechanical learning. Predictive Coding is more efficient than the previous computer assister review tools and has a merit to select electronic data related to lawsuit. Through companies’ selection of efficient computer assisted review instrument and continuous records management, it is expected that time and cost for reviewing will be saved. Therefore, in for companies to respond to E-Discovery, it is required to seek the most effective method through introduction of the professional Predictive Coding solution and Business records management with consideration of time and cost.

정보관리학회지