바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 정확률, 검색결과: 77
61
김인후(중앙대학교 문헌정보학과 대학원) ; 김성희(중앙대학교 문헌정보학과) 2022, Vol.39, No.3, pp.293-310 https://doi.org/10.3743/KOSIM.2022.39.3.293
초록보기
초록

본 연구에서는 한국어 데이터로 학습된 BERT 모델을 기반으로 문헌정보학 분야의 문서를 자동으로 분류하여 성능을 분석하였다. 이를 위해 문헌정보학 분야의 7개 학술지의 5,357개 논문의 초록 데이터를 학습된 데이터의 크기에 따라서 자동분류의 성능에 어떠한 차이가 있는지를 분석, 평가하였다. 성능 평가척도는 정확률(Precision), 재현율(Recall), F 척도를 사용하였다. 평가결과 데이터의 양이 많고 품질이 높은 주제 분야들은 F 척도가 90% 이상으로 높은 수준의 성능을 보였다. 반면에 데이터 품질이 낮고 내용적으로 다른 주제 분야들과 유사도가 높고 주제적으로 확실히 구별되는 자질이 적을 경우 유의미한 높은 수준의 성능 평가가 도출되지 못하였다. 이러한 연구는 미래 학술 문헌에서 지속적으로 활용할 수 있는 사전학습모델의 활용 가능성을 제시하기 위한 기초자료로 활용될 수 있을 것으로 기대한다.

Abstract

In this study, we analyzed the performance of the BERT-based document classification model by automatically classifying documents in the field of library and information science based on the KoBERT. For this purpose, abstract data of 5,357 papers in 7 journals in the field of library and information science were analyzed and evaluated for any difference in the performance of automatic classification according to the size of the learned data. As performance evaluation scales, precision, recall, and F scale were used. As a result of the evaluation, subject areas with large amounts of data and high quality showed a high level of performance with an F scale of 90% or more. On the other hand, if the data quality was low, the similarity with other subject areas was high, and there were few features that were clearly distinguished thematically, a meaningful high-level performance evaluation could not be derived. This study is expected to be used as basic data to suggest the possibility of using a pre-trained learning model to automatically classify the academic documents.

초록보기
초록

정보기술의 발전과 더불어 국가경쟁력 및 대국민 서비스 강화를 위한 공공정보시스템의 구축이 확산되고 있다. 또한 막대한 공공재원이 투자되는 공공정보시스템은 효율성에 대한 정기적인 평가를 통한 존재가치의 입증 및 문제점 진단을 통한 성능개선의 요구도 증대되고 있다. 따라서 본 연구는 국내의 대표적인 웹 기반 공공고용정보시스템 워크넷(Work-Net)의 데이터 및 서비스 품질을 102명의 이용자를 대상으로 평가하였다. 측정도구는 학계에서 많이 사용해온 정보내용, 정확성, 적시성, 출력형태, 사용의 용이성, 지원성으로 구성하였으며 t-test와 일원변량분석(one-way ANOVA)을 실시하여 이용자의 특성 및 검색정보에 따른 차이를 살펴보았다. 또한 최근 구직자들의 고용정보시스템에 대한 요구사항들을 분석하였다. 본 연구결과는 공공 및 민간운영 고용정보시스템 운영체제 효율화에 기여할 수 있는 유용한 기초자료를 제공할 것으로 본다.

Abstract

A public information system is being expanded, along with the advance of information technology, to strengthen national competitiveness and provide people with better services. And there also is a growing need for the better performance of that system, as a tremendous amount of public finacial resources is invested in that. To address that need, it's required to make an evaluation of its efficiency on a regular basis to identify its problems and make it work better. The purpose of this study was, accordingly, to examine the quality of data and services provided by the Work-Net, a Web-based public employment information system. The subjects in this study were 102 users of it, and the system was evaluated in terms of content, accuracy, timelines, display format, ease of use and customer support. For data analysis, t-test and one-way ANOVA were implemented to find out the general characteristics of the users, and to see whether or not their view was different according to the type of information they searched for. The findings of this study are expected to lay some foundation for intensifying the efficiency of the public and private employment information systems.

초록보기
초록

정보기술과 인터넷의 발전에 따른 정보의 폭발적인 증가로 인하여 정보과잉에 따른 적절한 정보의 선택이 필요하게 되었다. 이를 위하여 이용자가 정보를 효율적으로 이용할 수 있도록 검색 또는 여과하는 일을 수행하기 위하여 정보검색 및 정보여과 시스템이 등장하게 되었다. 이러한 일련의 정보환경의 변화에 대한 보다 적극적인 대응방법으로서 도서관 및 정보센터에서는 이용자가 원하는 정보를 정확하고 효율적으로 제공하기 위한 노력의 일환으로서 이용자에게 맞춤화된 정보 추천서비스 제공이 요구된다. 본 연구에서는 도서관 및 정보센터에서 적극적인 정보서비스를 위한 방법으로 이용자에게 맞춤화된 정보를 제공할 수 있는 개인화 추천시스템을 구축하기 위한 방안을 제안하였다. 이를 위하여 기존의 추천방법에 대한 장단점을 분석하고 기존 추천방법에 대한 문제점을 해결하기 위한 방법으로서 대용량 콘텐츠 및 이용자 환경에서 이용자의 콘텐츠 이용빈도를 기준으로 멀티미디어 콘텐츠를 위한 개인화된 하이브리드 추천방법을 제안하였다. 이를 위하여 이용빈도에 있어서 상위 이용자 및 콘텐츠를 분리하고 적절한 추천방법에 적용하기 위한 새로운 형태의 추천방법 및 대용량 추천시스템에 적합한 연관규칙과 협업여과방법에 대한 조합방법을 제안하였다.

Abstract

Recent advancements in information technology and the Internet have caused an explosive increase in the information available and the means to distribute it. However, such information overflow has made the efficient and accurate search of information a difficulty for most users. To solve this problem, an information retrieval and filtering system was developed as an important tool for users. Libraries and information centers have been in the forefront to provide customized services to satisfy the user's information needs under the changing information environment of today. The aim of this study is to propose an efficient information service for libraries and information centers to provide a personalized recommendation system to the user. The proposed method overcomes the weaknesses of existing systems, by providing a personalized hybrid recommendation method for multimedia contents that works in a large-scaled data and user environment. The system based on the proposed hybrid method uses an effective framework to combine Association Rule with Collaborative Filtering Method.

64
김희영(연세대학교 일반대학원 문헌정보학과) ; 박지홍(연세대학교 문헌정보학과) 2022, Vol.39, No.1, pp.1-15 https://doi.org/10.3743/KOSIM.2022.39.1.001
초록보기
초록

본 연구는 약물 연구 분야에 속하는 특허 사이에 나타나는 지식의 흐름을 살펴보고 이들 간의 영향력을 파악해보기 위해 특허데이터에서 나타나는 인용 관계를 분석하였다. 특허데이터의 수집은 Google Patents에서 진행하였다. 약물 연구와 관련된 특허 문서를 검색하여 상위 25개의 출원인을 선정하였고, 이를 바탕으로 출원인 사이에서의 인용 관계를 알아보고 각 출원인의 각 문서에 대한 피인용빈도와 순위를 활용하여 h-지수와 h-지수의 파생지표들의 값을 계산하여 비교하였다. 분석 결과를 종합하면, ‘Pfizer, MIT, Abbott’ 등의 출원인이 약물 연구 분야에서 영향력이 높은 출원인으로 드러났다. 5개의 계량서지학적 지표 중에서 g-지수와 hS-지수가 서로 유사한 결과를 보여주었고, 총인용빈도, 최대인용빈도, CPP의 순위를 가장 잘 반영하는 지표로 나타났다. 또한, 총인용빈도, CPP, 최대인용빈도 순으로 5개의 계량서지학적 지표와의 상관관계가 높았다. 한편, 기존의 특허 출원인의 기술적 영향력을 나타내는 것으로 알려진 지표인 CPP만으로는 정확한 비교가 어려운 경우도 나타났다.

Abstract

This study analyzes the relationship of citations appearing in the patent data to understand knowledge transfers and impacts between patent documents in the field of pharmaceutical research. Patent data were collected from a website, Google Patents. The top 25 assignees were selected by searching for patent documents related to pharmaceutical research. We identify the citation relationships between assignees, then calculate and compare the values of h-index and derived indicators by using the number of citations and rank for each document of each assignee. As a result, in the case of pharmaceutical research, the assignee, such as ‘Pfizer, MIT, and Abbott’ shows a high impact. Among the five bibliometric indicators, the g-index and hS-index show similar results, and the indicators are the most related to the rankings of Total Citation Frequency, Cites per Patents, and Maximum Citation Frequency. In addition, it is highly related to the five indicators in the order of Total Citation Frequency, Cites per Patents, and Maximum Citation Frequency. In some cases, it is difficult to make an accurate comparison with Cites per Patents alone, which is previously known to indicate the technological influence of patent assignees.

65
김선우(경기대학교 문헌정보학과) ; 고건우(경기대학교 문헌정보학과) ; 최원준(한국과학기술정보연구원 콘텐츠 큐레이션센터) ; 정희석(한국과학기술정보연구원 콘텐츠 큐레이션센터) ; 윤화묵(한국과학기술정보연구원 콘텐츠큐레이션센터) ; 최성필(경기대학교) 2018, Vol.35, No.4, pp.141-164 https://doi.org/10.3743/KOSIM.2018.35.4.141
초록보기
초록

최근 학술문헌의 양이 급증하고, 융복합적인 연구가 활발히 이뤄지면서 연구자들은 선행 연구에 대한 동향 분석에 어려움을 겪고 있다. 이를 해결하기 위해 우선적으로 학술논문 단위의 분류 정보가 필요하지만 국내에는 이러한 정보가 제공되는 학술 데이터베이스가 존재하지 않는다. 이에 본 연구에서는 국내 학술문헌에 대해 다중 분류가 가능한 자동 분류 시스템을 제안한다. 먼저 한국어로 기술된 기술과학 분야의 학술문헌을 수집하고 K-Means 클러스터링 기법을 활용하여 DDC 600번 대의 중분류에 맞게 매핑하여 다중 분류가 가능한 학습집합을 구축하였다. 학습집합 구축 결과, 메타데이터가 존재하지 않는 값을 제외한 총 63,915건의 한국어 기술과학 분야의 자동 분류 학습집합이 구축되었다. 이를 활용하여 심층학습 기반의 학술문헌 자동 분류 엔진을 구현하고 학습하였다. 객관적인 검증을 위해 수작업 구축한 실험집합을 통한 실험 결과, 다중 분류에 대해 78.32%의 정확도와 72.45%의 F1 성능을 얻었다.

Abstract

Recently, as the amount of academic literature has increased rapidly and complex researches have been actively conducted, researchers have difficulty in analyzing trends in previous research. In order to solve this problem, it is necessary to classify information in units of academic papers. However, in Korea, there is no academic database in which such information is provided. In this paper, we propose an automatic classification system that can classify domestic academic literature into multiple classes. To this end, first, academic documents in the technical science field described in Korean were collected and mapped according to class 600 of the DDC by using K-Means clustering technique to construct a learning set capable of multiple classification. As a result of the construction of the training set, 63,915 documents in the Korean technical science field were established except for the values ​​in which metadata does not exist. Using this training set, we implemented and learned the automatic classification engine of academic documents based on deep learning. Experimental results obtained by hand-built experimental set-up showed 78.32% accuracy and 72.45% F1 performance for multiple classification.

초록보기
초록

본 연구는 대용량 음악콘텐츠환경에서 개인화 추천 서비스를 위한 기반구조의 제공을 위하여 시도되었다. 추천서비스를 위한 기존의 많은 연구와 상용프로그램에도 불구하고 대규모의 쇼핑몰들은 개인화 추천서비스와 실시간으로 대용량의 데이터를 처리할 수 있는 추천시스템을 필요로 하고 있다. 이를 위하여 본 연구에서는 데이터마이닝 기술과 새로은 패턴매칭 알고리즘을 제안하고 있다. 콘텐츠 주제분야에 대한 이용자의 선호도를 이용한 이용자 분할을 위하여 군집화 기법이 사용되었다. 다음으로는 군집화를 통하여 생성된 분할된 이용자 그룹에서 개별 이용자의 콘텐츠에 대한 접근 패턴의 추출을 위하여 순차패턴 마이닝기법을 적용하였다. 최종적으로 각각의 이용자 군집의 콘텐츠 접근 패턴과 콘텐츠 선호도에 기반한 제안된 추천 알고리즘에 의해 추천이 이루어진다. 이러한 추천을 위하여 기반구조와 함께, 전처리과정과 원본 데이터의 형식변환이 데이터베이스에서 수행되어진다. 본 연구에서 제안하고 있는 기반구조의 적절성을 보여주기 위하여 제안된 시스템을 구현하였다. 실제 이용자에 의해 이용된 데이터를 실험에 적용하였으며, 해당 실험에서 추천은 실시간으로 이루어졌으며 추천결과에 있어서는 적절한 정확성을 보여주고 있다.

Abstract

This study attempts to give a personalized recommendation framework in large-sized music contents environment. Despite of many existing studies and commercial solutions for a recommendation service, large online shopping malls are still looking for a recommendation system that can serve personalized recommendation and handle large data in real-time.This research utilizes data mining technologies and new pattern matching algorithm. A clustering technique is used to get dynamic user segmentations using user preference to contents categories. Then a sequential pattern mining technique is used to extract contents access patterns in the user segmentations. Finally, the recommendation is given by our recommendation algorithm using user contents preference history and contents access patterns of the segment. In the framework, preprocessing and data transformation and transition are implemented on DBMS. The proposed system is implemented to show that the framework is feasible. In the experiment using real-world large data, personalized recommendation is given in almost real-time and shows acceptable correctness.

초록보기
초록

본 논문에서는 문헌의 적합성수준을 적합성정도에 따라 4그룹(부적합한, 조금 적합한, 적합한, 매우 적합한)으로 나눈 후 서로 다른 심사자가 적합성 판정을 내린 4개의 적합성 판정세트(A, B, C, D)에서 “조금 적합한” 문헌을 부적합문헌으로 분류했을 때와 적합문헌으로 분류하였을 때에, 초록/표제 시스템과 전문검색시스템에서 적합성피드백으로 인한 검색효율성의 증진은 어느 쪽이 더 혜택을 받게 되는 지를 연구하였다. “조금 적합한” 문헌을 적합문헌으로 포함시켰을 때 초록/표제시스템이 전문검색시스템보다 모든 적합성판정세트에서 검색효율성의 증가율이 높았고, 반면에 전문검색시스템에서는 “조금 적합한” 문헌을 적합문헌그룹에서 제외시켰을 때 검색효율성의 증가율이 일관성 있게 높아지는 것을 발견하였다. 이는 전문검색시스템에서는 적합문헌으로 포함된 “조금 적합한” 문헌으로부터 얻어지는 적합성피드백 정보는 잡음의 역할을 하게 되어 검색효율성의 증진에 도움이 안 되고 있음을 암시하고 있다. 특히, 매우 동질적인 문헌을 색인 및 검색대상으로 하고 있는 전문검색시스템에서는 잡음에 의해 초래되는 낮은 정확률을 개선하는 정교한 검색기법에 대한 연구가 지속되어야만 한다.

Abstract

This study examined the relative retrieval effectiveness after relevance feedback between two systems (Title/Abstract and Full-text) using four different sets of relevance judgment. Four relevance levels (not relevant, marginally relevant, relevant, highly relevant) are also used, each of which is determined by referees giving a relevance score to documents. This study also investigated how much the average precision was improved after relevance feedback when “marginally relevant” documents are included in the relevant class with the Title/Abstract system, and with the Full-text retrieval system as well. It is found that the Title/Abstract system benefited from relevance feedback with the marginally relevant documents. In case of the Title/Abstract system, the higher percentage of improvement was consistently obtained when including the marginally relevant documents in the relevance class, however the result was vice versa in case of the Full-text retrieval system. It implied that the marginally relevant documents in the relevant class had caused noises in the Full-text retrieval system.

초록보기
초록

전 세계적으로 협동연구가 증가함에 따라 복수저자 연구업적물 상의 개별저자 기여도를 보다 정확하고 합리적으로 산정하는 것이 중요해지고 있다. 효과적인 저자 기여도 산정을 위해서는 개별 학문분야의 고유한 연구행태 및 규범에 대한 이해가 우선되어야 한다. 그럼에도 불구하고 연구업적 평가 시 개별 학문분야의 특수성을 고려하지 않고 일률적인 방식으로 저자 기여도를 산정하는 경우가 많다. 따라서 본 연구에서는 국내 대학에서 사용하는 교수 연구업적 평가방식에 제시된 복수저자 기여도 측정방식이 특정 학문분야 즉, 경제학 분야 교수의 연구업적 평가에 적용되었을 때 나타나는 문제점을 제시하고 이를 해결할 수 있는 방안을 제안하였다. 본 연구에서는 문헌연구, 업적평가 규정분석 및 경제학 분야 교수 면담 등을 통하여 경제학 분야의 알파벳 순 저자표기 관행을 확인하였고, 이러한 표기방식이 연구업적 평가과정에 제대로 고려되고 있지 않음을 알 수 있었다. 연구결과를 토대로 저자들은 세 가지 즉, (1) 대학 업적평가 규정상의 주저자에 대한 명확한 정의 및 인정기준 확립, (2) 복수저자 기여율 평가규정의 융통성 제고, (3) 저자 기여율에 대한 인식연구의 필요성 등을 제안하였다.

Abstract

There has been growing interest in the methods for measuring the credits of individual authors in multi-authored research papers in response to the increase of research collaboration. Having a good understanding for academic norms of individual discipline is essential to measure author credit effectively. However, many Korean universities do not consider different norms for determining the order of authors across disciplines. Rather, they tend to use a standardized method to assess the credits of authors in multi-authored papers. Therefore, this study presented some problems of applying a standardized method to measure author credits in multi-authored papers in economics. The findings of this study confirmed the frequent use of alphabetical author order in economics papers; however, many university guidelines for research evaluation do not take account the alphabetical authorship in measuring the credits of authors. The authors suggest the needs for (1) establishment of a clear definition for primary authors, (2) flexibility in assessment methods for author credit, and (3) empirical research on author credit.

69
선은택(중앙대학교 일반대학원 문헌정보학과 정보학전공 석사과정) ; 김학래(중앙대학교 문헌정보학과) 2023, Vol.40, No.4, pp.329-349 https://doi.org/10.3743/KOSIM.2023.40.4.329
초록보기
초록

정보통신 기술이 빠르게 발전하면서 데이터의 생산 속도가 급증하였고, 이는 빅데이터라는 개념으로 대표되고 있다. 단시간에 데이터 규모가 급격하게 증가한 빅데이터에 대해 품질과 신뢰성에 대한 논의도 진행되고 있다. 반면 스몰데이터는 품질이 우수한 최소한의 데이터로, 특정 문제 상황에 필요한 데이터를 의미한다. 문화예술 분야는 다양한 유형과 주제의 데이터가 존재하며 빅데이터 기술을 활용한 연구가 진행되고 있다. 하지만 문화예술기관의 기본정보가 정확하게 제공되고 활용되는지를 탐색한 연구는 부족하다. 기관의 기본정보는 대부분의 빅데이터 분석에서 사용하는 필수적인 근거일 수 있고, 기관을 식별하기 위한 출발점이 된다. 본 연구는 문화예술 기관의 기본정보를 다루는 데이터를 수집하여 공통 메타데이터를 정의하고, 공통 메타데이터를 중심으로 기관을 연계하는 지식그래프 형태로 스몰데이터를 구축하였다. 이는 통합적으로 문화예술기관의 유형과 특징을 탐색할 수 있는 방안이 될 수 있다.

Abstract

With the rapid development of information and communication technology, the speed of data production has increased rapidly, and this is represented by the concept of big data. Discussions on quality and reliability are also underway for big data whose data scale has rapidly increased in a short period of time. On the other hand, small data is minimal data of excellent quality and means data necessary for a specific problem situation. In the field of culture and arts, data of various types and topics exist, and research using big data technology is being conducted. However, research on whether basic information about culture and arts institutions is accurately provided and utilized is insufficient. The basic information of an institution can be an essential basis used in most big data analysis and becomes a starting point for identifying an institution. This study collected data dealing with the basic information of culture and arts institutions to define common metadata and constructed small data in the form of a knowledge graph linking institutions around common metadata. This can be a way to explore the types and characteristics of culture and arts institutions in an integrated way.

70
이원경(한성대학교 지식정보학부) ; 서은경(한성대학교) 2016, Vol.33, No.2, pp.77-102 https://doi.org/10.3743/KOSIM.2016.33.2.077
초록보기
초록

공연예술 콘텐츠의 효과적인 검색은 특화된 메타데이터를 근간으로 다양한 접근점을 제공할 때 이루어진다. 본 연구는 이용자가 찾고자하는 공연예술 콘텐츠에 대한 정확한 지식이 없더라도 쉽게 콘텐츠를 효율적으로 찾을 수 있는 검색 시스템을 개발하는데 목적이 있다. 이를 위하여 본 연구는 공연예술 국내외 사이트가 제공하고 있는 접근점 요소와 내비게이션 요소를 파악하고 연극, 무용 음악을 전공하는 대학생들이 원하는 공연예술 검색 접근점 및 브라우징 요소를 분석하였다. 이와 같은 분석을 토대로 공연예술 콘텐츠 검색에 적합한 9개 패싯요소 즉, ‘공연예술장르’, ‘공연예술가’, ‘공연예술단체’, ‘자료유형’, ‘언어’, ‘주대상관객’, ‘이벤트’, ‘장소’, ‘시기’를 제안하였다. 또한, 다각적인 패싯 내비게이션이 가능하도록 공연예술 콘텐츠 기술요소 27개를 선정하였고 내비게이션이 이루어질 수 있는 인터페이스를 설계하였다. 이를 근거로 하여 3,360건의 실험 데이터를 구축하고 실제 검색 시스템을 구축하였다. 마지막으로 전문가의 심층 인터뷰 결과, 본 연구에서 구축한 시스템이 이용자가 원하는 패싯을 제공하여 만족스러운 브라우징을 수행할 수 있었으며 정보조우가 가능한 인터페이스임을 증명하였다. 공연예술 도메인에서 패싯 내비게이션 검색 기법의 응용은 이용자의 요구를 충족시키며 더 나아가 공연예술 정보에의 접근 및 활용에 도움을 줄 수 있을 것으로 본다.

Abstract

The effective searching for performing arts contents can be achieved by providing various access points and searching methods based on specialized metadata. The purpose of this study is to develop a faceted navigation interface which user could effectively and efficiently retrieve performing arts contents even if the users do not know accurate descriptive information about them. Therefore, the study, first, investigated search access points and navigation items providing by other the performing arts retrieval systems and to analyze information seeking behaviors of university students who major in music, dance and theater. And then, the study proposed the 36 facets with the 9 main facet categories suitable for performing arts and also proposed 27 descriptive elements suitable for performing arts contents. Finally, the study developed the performing arts contents retrieval system based faceted navigation interface with 3,360 experimental data and conducted an in-depth interview in terms of usability, serendipity, and efficiency. The applying the faceted navigations for searching performing arts contents will help users access and utilize them in the retrieval system and moreover satisfy user demands.

정보관리학회지