바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: Recall, 검색결과: 15
초록보기
초록

최근 수년 동안 영상자료와 음성자료 분석에 대한 이론들이 텍스트자료 검색 시스템과 함께 사용되기 위해서 제안 되어 왔으며 데이터 처리 속도의 급격한 향상과 함께 발전되어 왔다. 일반적 검색 방법들은 단지 텍스트만을 사용하지만 텍스트와 그림을 동시에 사용하는 검색 방법 또한 최근에 제안되어 왔다. 본 연구는 다매체자료의 공통기술표현포맷(CRFMD)이라는 이름으로 화상자료와 텍스트자료를 하나의 자료 구조로 통합하는 방법을 제안하고 있으며, 주어진 테스트자료에 대한 화상자료의 유사성 분석에서 텍스트와 그림의 형태소를 함께 사용하였을 때 현격히 개선되어 짐을 보여주고 있다. CRFMD는 의료문서 검색, WWW 검색, 박물관 소장품 검색과 같은 다양한 분야의 다매체자료 검색 및 처리에 응용될 수가 있을 것이다.

Abstract

In recent years, theories of image and sound analysis have been proposed to work with text retrieval systems and have progressed quickly with the rapid progress in data processing speeds. This study proposes a common representation format for multimedia documents (CRFMD) composed of both images and text to form a single data structure. It also shows that image classification of a given test set is dramatically improved when text features are encoded together with image features. CRFMD might be applicable to other areas of multimedia document retrieval and processing, such as medical image retrieval, World Wide Web searching, and museum collection retrieval.

초록보기
초록

본 연구에서는 웹 환경에서의 학습 방법이 학생들의 정보검색 및 정보종합 능력에 어떠한 영향을 미치는가를 규명하고자 하였다. 본 연구의 결과는 다음과 같다. 첫째, 과제 중심형 학습 집단이 기법 중심형 학습 집단보다 정보검색 능력 중 정보성취도 검사점수가 높게 나타났으며, 통계적으로 유의미한 차이를 보였다 (t=3.59, p〈.05). 둘째, 네이버 국내 웹 1차 검색 (재현율 t=1.81, 정확율 t=.61)에서 과제 중심형 학습 집단과 기법 중심형 학습 집단간에 재현율과 정확율 모두 유의미한 차이가 없었다 (p〉.05). 그러나 2차 검색 (재현율 t=2.93, 정확율 t=2.45)과 3차 검색 (재현율 t=3.48, 정확율 t=2.50)에서는 과제중심형 학습 집단이 기법 중심형 학습 집단보다 재현율과 정확율이 높게 나타났으며, 통계적으로 유의미한 차이를 보였다 (p〈.05). 셋째, 과제 중심형 학습 집단과 기법 중심형 학습 집단은 정보종합 능력의 검사 점수 차이가 통계적으로 유의미하지 않았다 (t=1.95, p〉.05). 위 실험 결과를 종합해 보면, 인터넷에서 정보를 검색하는 경우에 과제에 대한 분석과 그에 알맞는 정보검색 기법을 적용하는 것이 중요하다. 기법에 의존하기보다는 과제를 분석하고 그에 알맞는 검색을 수행해야 한다. 또 정보 이용 교육이 정보검색 수준에서 머무르는 것이 아니라, 정보검색과 정보종합에 관한 교육이 정보 문제 해결의 맥락에서 이루어져야 할 것이다.

Abstract

The purpose of this study is to investigate the effects of learning methods on students'''' information retrieval and information synthesis capability in web. This is an experimental study comparing the two different learning methods as task-based learning and technic-based learning. The findings of this study were as follows: 1. The task-based learning was more effective than the technic-based learning in information achievements as information retrieval capability (t= 3.59, p〈.05). 2. In the 1st retrieval (recall ratio t=1.81 precision ratio t=.61) of Naver Korean Web Retrieval, there was no significant difference (p〉.05). In the 2nd retrieval (recall ratio t=2.93 precision ratio t=2.45) and 3rd retrieval (recall ratio t=3.48 precision ratio t= 2.50), the task-based group was more effective than the technic-based group (p〈.05). 3. There was no significant difference in students'''' information synthesis capability between the task-based learning and technic-based learning (t= 1.95, p〉.05). The findings of this study suggest that the task-based learning approach is more effective to improve students'''' information literacy, and that professionals should consider better instructional principles for the improvement of instructional quality.

3
김인후(중앙대학교 문헌정보학과 대학원) ; 김성희(중앙대학교 문헌정보학과) 2022, Vol.39, No.3, pp.293-310 https://doi.org/10.3743/KOSIM.2022.39.3.293
초록보기
초록

본 연구에서는 한국어 데이터로 학습된 BERT 모델을 기반으로 문헌정보학 분야의 문서를 자동으로 분류하여 성능을 분석하였다. 이를 위해 문헌정보학 분야의 7개 학술지의 5,357개 논문의 초록 데이터를 학습된 데이터의 크기에 따라서 자동분류의 성능에 어떠한 차이가 있는지를 분석, 평가하였다. 성능 평가척도는 정확률(Precision), 재현율(Recall), F 척도를 사용하였다. 평가결과 데이터의 양이 많고 품질이 높은 주제 분야들은 F 척도가 90% 이상으로 높은 수준의 성능을 보였다. 반면에 데이터 품질이 낮고 내용적으로 다른 주제 분야들과 유사도가 높고 주제적으로 확실히 구별되는 자질이 적을 경우 유의미한 높은 수준의 성능 평가가 도출되지 못하였다. 이러한 연구는 미래 학술 문헌에서 지속적으로 활용할 수 있는 사전학습모델의 활용 가능성을 제시하기 위한 기초자료로 활용될 수 있을 것으로 기대한다.

Abstract

In this study, we analyzed the performance of the BERT-based document classification model by automatically classifying documents in the field of library and information science based on the KoBERT. For this purpose, abstract data of 5,357 papers in 7 journals in the field of library and information science were analyzed and evaluated for any difference in the performance of automatic classification according to the size of the learned data. As performance evaluation scales, precision, recall, and F scale were used. As a result of the evaluation, subject areas with large amounts of data and high quality showed a high level of performance with an F scale of 90% or more. On the other hand, if the data quality was low, the similarity with other subject areas was high, and there were few features that were clearly distinguished thematically, a meaningful high-level performance evaluation could not be derived. This study is expected to be used as basic data to suggest the possibility of using a pre-trained learning model to automatically classify the academic documents.

초록보기
초록

Abstract

The ideas and quasi-ideas useful for human's creation were drawn out from documents and webpages with extraction methods used in idea mining, opinion mining, and topic signal mining. The extraction methods comprised (1) decisive cue phrases, (2) cue figures and sounds, (3) contextual signals, and (4) discourse segmentations, They tested on the idea samples, such as thoughts, plans, opinions, writings, figures, sounds, and formulas. Methods (1), (3), and (4) received largely positive evaluation, judging the efficiency of 4 methods by F measure, a mixture of recall and precision ratio. In particular, decisive cue phrase method was effective to search idea and contextual signal method was effective to detect quasi-idea.

초록보기
초록

Abstract

This study constructed an ontology targeting journal articles and evaluated its performance. Also, the performance of a triple structure ontology was compared with the knowledge base of an inverted index file designed for a simple keyword search engine. The coverage was three years of articles published in the Journal of the Korean Society for Information Management from 2007 to 2009. Protégé was used to construct an ontology, whilst utilizing an inverted index file to compare performance. The concept ontology was manually established, and the bibliography ontology was automatically constructed to produce an OWL concept ontology and an OWL bibliography ontology, respectively. This study compared the performance of the knowledge base of the ontology, using the Jena search engine with the performance of an inverted index file using the Lucene search engine. As a result, The Lucene showed higher precision rate, but Jena showed higher recall rate.

6
정유경(연세대학교 근대한국학연구소 HK연구교수) ; 반재유(연세대학교 근대한국학연구소 HK연구교수) 2019, Vol.36, No.4, pp.7-19 https://doi.org/10.3743/KOSIM.2019.36.4.007
초록보기
초록

본 연구는 국한문 혼용 텍스트를 대상으로 한글 형태소 분석 기법과 한문 어조사를 반영한 색인어 추출기법을 제안하였다. 국한문 혼용체로 작성된 시사총보 논설을 대상으로 해당 시기에 사용된 고유명사 및 한자어 사전을 보완하였으며 한자어 불용어 리스트를 고려하여 색인어를 추출하였다. 본 연구에서 제안한 국한문 색인 시스템은 수작업 색인 결과를 기준으로, 중국어형태소 분석기에 비해 재현율과 정확률 측면에서 상대적으로 높은 성능을 보였으며, 어문법이 확립되지 않은 근현대 시기의 국한문 혼용체를 대상으로 한 첫 번째 색인어 추출기법을 제안하였다는 데에서 연구의 차별점이 있다.

Abstract

The aim of this study is to develop a technique for keyword extraction in Korean-Chinese text in the modern period. We considered a Korean morphological analyzer and a particle in classical Chinese as a possible method for this study. We applied our method to the journal “Sisachongbo,” employing proper-noun dictionaries and a list of stop words to extract index terms. The results show that our system achieved better performance than a Chinese morphological analyzer in terms of recall and precision. This study is the first research to develop an automatic indexing system in the traditional Korean-Chinese mixed text.

초록보기
초록

이 연구의 목적은 인문학분야를 대상으로 인용DB간 구축 정보를 비교하고 차이가 있는 경우 그 원인과 문제점을 분석하여 구축 정보의 정확성을 향상시킬 수 있는 방안을 제시하는데 있다. 이를 위해 인용정보를 구성하는 주요 항목 중의 하나인 피인용횟수를 기준으로 네이버와 KCI에서 국내학술논문을 비교하였다. 조사결과, KCI가 네이버보다 좀 더 정확한 인용정보를 제공하고 있었지만 그 차이는 크지 않았다. 각 인용DB간 차이의 원인은 수록범위의 불완전성, 서지정보의 오류, 참고문헌 구축의 불완전성, 링크와 관련된 오류 등으로 조사되었다. 두 인용DB 모두 개선의 여지가 남아있으며, 양자를 상호보완적으로 활용한다면 인문학 분야에서 더욱 완전한 인용정보를 파악할 수 있을 것이다.

Abstract

The purpose of this study was to identify differences between KCI and Naver Scholar as citation analysis tools. Four subcategories in the humanities category were selected as the subject of study. The recall of Naver Scholar was 64%(2,227 times) and the KCI's was 77%(2,665 times). There were some differences in the results at the individual article level or the subcategory level, but the gaps were not significant. Therefore, researchers who analyze citations are urged to use both databases because neither of them are complete, but supplementary to each other.

초록보기
초록

웹을 통해 제공되는 뉴스 페이지의 경우 필요한 정보 뿐 아니라 많은 불필요한 정보를 담고 있다. 이러한 불필요한 정보는 뉴스를 처리하는 시스템의 성능 저하와 비효율성을 가져온다. 이 연구에서는 웹 페이지로부터 뉴스 콘텐츠를 추출하기 위해 문장과 블록에 기반한 뉴스 기사 추출 방법을 제시하였다. 또한 이들을 결합하여 최적의 성능을 가져올 수 있는 방안을 모색하였다. 실험 결과, 웹 페이지에 대해 하이퍼링크 텍스트를 제거한 후 문장을 이용한 추출 방법을 적용하였을 때 효과적이었으며, 여기에 블록을 이용한 추출 방법과 결합하였을 때 더 좋은 결과를 가져왔다. 문장을 이용한 추출 방법은 추출 재현율을 높여주는 효과가 있는 것으로 나타났다.

Abstract

The news pages provided through the web contain unnecessary information. This causes low performance and inefficiency of the news processing system. In this study, news content extraction methods, which are based on sentence identification and block-level tags news web pages, was suggested. To obtain optimal performance, combinations of these methods were applied. The results showed good performance when using an extraction method which applied the sentence identification and eliminated hyperlink text from web pages. Moreover, this method showed better results when combined with the extraction method which used block-level. Extraction methods, which used sentence identification, were effective for raising the extraction recall ratio.

초록보기
초록

인터넷 정보검색과정에서 가장 보편적으로 사용되고 있는 검색방법은 키워드 검색이다. 키워드 검색은 정확률과 재현율의 관점에서 여러가지 단점을 지니고 있다. 이러한 키워드 검색의 단점을 보완해 줄 수 있는 장치로서 다수의 웹 포털에서 디렉토리 검색서비스를 제공하고 있다. 검색포털에서 제공하고 있는 디렉토리 서비스는 포털별로 상이한 분류체계를 사용하는 이유로 이용자에게 불편을 주고 있으며, 이러한 불편의 해소를 위해 디렉토리 서비스간 통합검색을 제공하는 중개 게이트웨이의 구축필요성이 제기되고 있다. 이에 따라 이 연구에서는 네이버, 야후, 엠파스 등 국내 주요 포털의 디렉토리 서비스를 대상으로 통합검색을 제공하는 중개 게이트웨이의 모형을 구축하고 그 성능을 평가하였다.

Abstract

The most widely used information searching method in the current internet environment is the keyword-based one, which has certain limitations in terms of precision and recall. Most major internet portals provide directory-based searching as a means to complement these limitations. However, that they adopt different classification schemes brings significant inconvenience to the users, and it consequently suggests a need to develop mapping gateway to provide cross-portal, or cross-directory information searching. In this context, this study attempts to develop a prototype system of intermediary gateway for integrated search, using the directory services of three major portals, Naver, Yahoo and Empas, and test its performance.

초록보기
초록

로치오 알고리즘에 기초한 통제어휘 자동색인 또는 텍스트 범주화에서 적용되어 온 여러 성능 요인들을 재검토하였고, 성능 향상을 위한 기본적인 방법을 찾아보았다. 또한, 동등한 조건에서 통제어휘 자동색인을 위한 로치오 알고리즘 기반 방법의 성능을 다른 학습기반 방법들의 성능과 비교하였다. 결과에 따르면, 통제어휘 자동색인을 위한 로치오 기반의 프로파일 방법은 구현의 용이성과 컴퓨터 처리시간 측면의 경제성이라는 기존의 장점을 그대로 유지하면서도, 다른 학습기반 방법들(SVM, VPT, NB)과 거의 동등하거나 더 나은 성능을 보여주었다. 특히, 색인전문가의 색인작업을 지원하는 반-자동 색인의 목적으로는 비교적 높은 수준의 재현율을 유지하면서 학습 데이터의 증가에 따라 정확률이 크게 향상되는 로치오 알고리즘을 이용한 방법을 우선적으로 고려할 수 있을 것이다.

Abstract

Several performance factors which have applied to the automatic indexing with controlled vocabulary and text categorization based on Rocchio algorithm were examined, and the simple method for performance improvement of them were tried. Also, results of the methods using Rocchio algorithm were compared with those of other learning based methods on the same conditions. As a result, keeping with the strong points which are implementational easiness and computational efficiency, the methods based Rocchio algorithms showed equivalent or better results than other learning based methods(SVM, VPT, NB). Especially, for the semi-automatic indexing(computer-aided indexing), the methods using Rocchio algorithm with a high recall level could be used preferentially.

정보관리학회지