바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: data paper, 검색결과: 73
21
이말례(여수대학교) ; 배금표(중앙대학교) 2002, Vol.19, No.1, pp.5-22 https://doi.org/10.3743/KOSIM.2002.19.1.005
초록보기
초록

사용자는 원하는 자료를 검색하기 위해서 각 위치에 대한 정보를 저장하고 있는 검색엔진을 이용하는 경우가 대부분이다. 하지만 자료의 양이 방대해짐에 따라 사용자에게 실제로 필요한 정보가 아닐 경우가 많이 발생한다. 본 논문에서는 이러한 문제를 해결할 수 있는 개인형 웹 인터페이스 에이전트 시스템인 웹 가이드를 제안하였다. 웹 가이드는 사용자의 행동과 에이전트의 방문을 키워드를 중심으로 각각의 사례로 저장하는 사례기반 학습 방법을 이용, 특정 개인 사용자가 웹 상에서 검색하고자 하는 자료를 입력받은 후부터 사용자의 방문 행동을 학습하여 보다 빠른 시간 내에 원하고자 하는 자료를 검색할 수 있도록 도와주는 에이전트 시스템이다.

Abstract

Users usually search for the required information via search engines which contain locations of the information. However, as the amount of data gets large, the result of the search is often not the information that users actually want. In this paper a web guide is proposed in order to resolve this problem. The web guide uses case-based learning method which stores and utilizes cases based on the keywords of user’s action and agent’s visit. The proposed agent system learns the user’s visiting actions following the input the data to be searched, and then helps rapid searches of data wanted.

22
이신원(중원대학교) ; 안동언(전북대학교) ; 정성종(전북대학교) 2004, Vol.21, No.4, pp.173-185 https://doi.org/10.3743/KOSIM.2004.21.4.173
초록보기
초록

정보통신의 기술이 발달하면서 정보의 양이 많아지고 사용자의 질의에 대한 검색 결과 리스트도 많이 추출되므로 빠르고 고품질의 문서 클러스터링 알고리즘이 중요한 역할을 하고 있다. 많은 논문들이 계층적 클러스터링 방법을 이용하여 좋은 성능을 보이지만 시간이 많이 소요된다. 반면 K-means 알고리즘은 시간 복잡도를 줄일 수 있는 방법이다. 본 논문에서는 계층적 클러스터링 시스템인 콘도르(Condor) 시스템에서 간단하고 고품질이며 효율적으로 정보 검색 할 수 있도록 구현하였다. 이 시스템은 K-Means Algorithm을 이용하였으며 클러스터 계층 깊이와 초기값을 조절하여 88%의 정확율을 보였다.

Abstract

Fast and high-quality document clustering algorithms play an important role in providing data exploration by organizing large amounts of information into a small number of meaningful clusters. Many papers have shown that the hierarchical clustering method takes good-performance, but is limited because of its quadratic time complexity. In contrast, with a large number of variables, K-means has a time complexity that is linear in the number of documents, but is thought to produce inferior clusters. In this paper, Condor system using K-Means algorithm Compares with regular method that the initial centroids have been established in advance, our method performance has been improved a lot.

23
심원식(성균관대학교) 2005, Vol.22, No.2, pp.5-21 https://doi.org/10.3743/KOSIM.2005.22.2.005
초록보기
초록

전자정보가 일반화되면서 전자정보 사용에 대한 이해가 절실해졌다. 본 논문은 전자정보의 이용통계가 무엇인지, 이 통계가 도서관 의사결정에 어떻게 사용될 수 있는지 그리고 데이터의 수집, 처리 및 분석과 관련된 제반 사항에 대해 기술하고 있다. 또한 이용통계와 관련된 대표적인 표준을 제시한다. 전자정보 이용 통계는 개별 도서관에서 활용하는 자료가 될 뿐 아니라 문헌정보학의 여러 분야에서 활용될 수 있는 연구 자료가 된다는 측면에서 이용통계를 사용하는 구체적인 연구방향을 제시하고 있다.

Abstract

As the use of electronic information sources becomes increasingly common, the need for understanding their use becomes critical. This paper describes what usage statistics of electronic materials entail, how they can be used for a variety of library decision making, and the process in which the data can be best acquired, processed, analyzed and presented. It also offers a general introduction to on-going standardization efforts related to usage statistics of electronic resources and services. Some of the research opportunities that these newly developed data sources present to library and information science field are identified.

24
강윤호(대림대학 문헌정보과) ; 박영애(경기대학교 문헌정보학과) 2009, Vol.26, No.3, pp.417-434 https://doi.org/10.3743/KOSIM.2009.26.3.417
초록보기
초록

국가도서관통계시스템에서 요구하는 통계항목들은 이론적 견지에서 보면 도서관평가 또는 도서관운영 정책수립을 위해 필요한 데이터를 기반으로 한 항목들이라고 할 수 있다. 그러나 국가도서관통계시스템에서 요구하는 통계항목과 공공도서관현장에서 일반적으로 수집될 수 있는 통계항목들과는 차이가 있음을 알 수 있다. 따라서 공공도서관 평가로 활용되고 있는 국가도서관통계가 신뢰할 수 있는 또는 타당성이 있는 객관적 데이터인지를 알아보기 위하여, 공공도서관 현장에서 통계를 수집할 수 있는 근거자료인 도서관 업무(운영)일지의 항목들을 분석하고 아울러 통계의 자동수집이 가능한 도서관리 프로그램에 대한 공공도서관에서의 사용 현황을 조사하였다. 이 연구의 분석 자료는 향후 공공도서관 업무(운영)일지의 표준안 마련을 위한 기초 자료로 활용될 것이다.

Abstract

Statistics items required by National Library Statistics System are based on data for library evaluation and policy making of library management from a theoretical standpoint. However, It is realized there are differences between Statistics items required by National Library Statistics System and those can be collected at the field of public libraries. In accordance with this point, this paper contained an analysis of a working diary log of public libraries as a basic material able to collect data at the field of public libraries and also surveyed the present usage situation of Library Management Program able to automatically collect data to recognize that National Library Statistics is reliably or validly objective data. An analysis data of this research will be a basic material to plan the standard guide of a working diary log of public libraries from now on.

25
허수진(대구가톨릭대학교 기록대학원 석사과정) ; 최상희(대구가톨릭대학교 문헌정보학과) 2023, Vol.40, No.4, pp.351-373 https://doi.org/10.3743/KOSIM.2023.40.4.351
초록보기
초록

이 연구는 국내 기록관리표준의 연구동향을 분석한 것으로 이를 위해 기록관리표준 관련 논문의 표제-주제어-초록의 키워드를 추출하여 상위빈도 키워드의 분석과 키워드 네트워크 분석을 수행하였다. 분석 대상 기간은 2000년부터 현재까지이며 RISS와 ScienceON 등의 국내 학술논문 검색사이트에서 총 212편의 논문을 수집하여 연구를 수행하였다. 분석 결과 2000~2010년까지는 아카이브 설계를 위한 OAIS의 연구, OAIS를 통한 디지털 기록 보존연구 ISO 표준의 분석 연구 등이 주로 진행되었고, 2011년 이후부터 지금까지는 기록경영인증, ISAD(G)의 RiC 전환 등의 연구가 진행되었음을 알 수 있었다. 이 연구는 기록관리표준 연구의 국내 연구동향을 분석함으로써 연구 흐름을 파악하는 기초자료로 활용되며, 기존 기록관리표준을 연구할 때 참고자료로 역할을 할 것으로 기대한다.

Abstract

This study aimed to analyze and collect research trends of archival management standards in Korea. For this purpose, keywords from the titles, author keywords, and abstracts of papers related to records management standards were statistically analyzed to investigate the major keywords with high-frequency. Network analysis with high frequency keywords was also conducted to identify the subject areas of research in archival management standards. The analysis period is from 2000 to the present, and a total of 212 papers were collected from domestic academic paper search sites such as RISS and ScienceON. As a result of the analysis, from 2000 to 2010, OAIS for archive design, digital record preservation with OAIS, and analysis on ISO standards were mainly conducted in research areas. From 2011 until now, records management certification and ISAD(G)’s conversion to RiC emerged as new research areas. This study will be expected to be basic data to understand research trends in records management standards in Korea and to be a reference for research on records management standards studies.

초록보기
초록

동일한 인명을 갖는 서로 다른 실세계 사람들이 존재하는 현실은 인터넷 세계에서 인명으로 표현된 개체의 신원을 식별해야 하는 문제를 발생시킨다. 상기의 문제가 학술정보 내의 저자명 개체로 제한된 경우를 저자식별이라 부른다. 저자식별은 식별 대상이 되는 저자명 개체 사이의 유사도 즉 저자유사도를 계산하는 단계와 이후 저자명 개체들을 군집화하는 단계로 이루어진다. 저자유사도는 공저자, 논문제목, 게재지정보 등의 저자식별자질들의 자질유사도로부터 계산되는데, 이를 위해 기존에 교사방법과 비교사방법들이 사용되었다. 저자식별된 학습샘플을 사용하는 교사방법은 비교사방법에 비해 다양한 저자식별자질들을 결합하는 최적의 저자유사도함수를 자동학습할 수 있다는 장점이 있다. 그러나, 기존 교사방법 연구에서는 SVM, MEM 등의 일부 기계학습기법만이 시도되었다. 이 논문은 다양한 기계학습기법들이 저자식별에 미치는 성능, 오류, 효율성을 비교하고, 공저자와 논문제목 자질에 대해 자질값 추출 및 자질 유사도 계산을 위한 여러 기법들의 비교분석을 제공한다.

Abstract

In bibliographic data, the use of personal names to indicate authors makes it difficult to specify a particular author since there are numerous authors whose personal names are the same. Resolving same-name author instances into different individuals is called author resolution, which consists of two steps: calculating author similarities and then clustering same-name author instances into different person groups. Author similarities are computed from similarities of author-related bibliographic features such as coauthors, titles of papers, publication information, using supervised or unsupervised methods. Supervised approaches employ machine learning techniques to automatically learn the author similarity function from author-resolved training samples. So far, however, a few machine learning methods have been investigated for author resolution. This paper provides a comparative evaluation of a variety of recent high-performing machine learning techniques on author disambiguation, and compares several methods of processing author disambiguation features such as coauthors and titles of papers.

27
김인후(중앙대학교 문헌정보학과 대학원) ; 김성희(중앙대학교 문헌정보학과) 2022, Vol.39, No.3, pp.293-310 https://doi.org/10.3743/KOSIM.2022.39.3.293
초록보기
초록

본 연구에서는 한국어 데이터로 학습된 BERT 모델을 기반으로 문헌정보학 분야의 문서를 자동으로 분류하여 성능을 분석하였다. 이를 위해 문헌정보학 분야의 7개 학술지의 5,357개 논문의 초록 데이터를 학습된 데이터의 크기에 따라서 자동분류의 성능에 어떠한 차이가 있는지를 분석, 평가하였다. 성능 평가척도는 정확률(Precision), 재현율(Recall), F 척도를 사용하였다. 평가결과 데이터의 양이 많고 품질이 높은 주제 분야들은 F 척도가 90% 이상으로 높은 수준의 성능을 보였다. 반면에 데이터 품질이 낮고 내용적으로 다른 주제 분야들과 유사도가 높고 주제적으로 확실히 구별되는 자질이 적을 경우 유의미한 높은 수준의 성능 평가가 도출되지 못하였다. 이러한 연구는 미래 학술 문헌에서 지속적으로 활용할 수 있는 사전학습모델의 활용 가능성을 제시하기 위한 기초자료로 활용될 수 있을 것으로 기대한다.

Abstract

In this study, we analyzed the performance of the BERT-based document classification model by automatically classifying documents in the field of library and information science based on the KoBERT. For this purpose, abstract data of 5,357 papers in 7 journals in the field of library and information science were analyzed and evaluated for any difference in the performance of automatic classification according to the size of the learned data. As performance evaluation scales, precision, recall, and F scale were used. As a result of the evaluation, subject areas with large amounts of data and high quality showed a high level of performance with an F scale of 90% or more. On the other hand, if the data quality was low, the similarity with other subject areas was high, and there were few features that were clearly distinguished thematically, a meaningful high-level performance evaluation could not be derived. This study is expected to be used as basic data to suggest the possibility of using a pre-trained learning model to automatically classify the academic documents.

초록보기
초록

본 연구는 이메일에 나타난 감성정보 메타데이터 추출에 있어 자연언어처리에 기반한 방식을 적용하였다. 투자분석가와 고객 사이에 주고받은 이메일을 통하여 개인화 정보를 추출하였다. 개인화란 이용자에게 개인적으로 의미 있는 방식으로 컨텐츠를 제공함으로써 온라인 상에서 관계를 생성하고, 성장시키고, 지속시키는 것을 의미한다. 전자상거래나 온라인 상의 비즈니스 경우, 본 연구는 대량의 정보에서 개인에게 의미 있는 정보를 선별하여 개인화 서비스에 활용할 수 있도록, 이메일이나 토론게시판 게시물, 채팅기록 등의 텍스트를 자연언어처리 기법에 의하여 자동적으로 메타데이터를 추출할 수 있는 시스템을 구현하였다. 구현된 시스템은 온라인 비즈니스와 같이 커뮤니케이션이 중요하고, 상호 교환되는 메시지의 의도나 상대방의 감정을 파악하는 것이 중요한 경우에 그러한 감성정보 관련 메타데이터를 자동으로 추출하는 시도를 했다는 점에서 연구의 가치를 찾을 수 있다.

Abstract

This paper describes a metadata extraction technique based on natural language processing (NLP) which extracts personalized information from email communications between financial analysts and their clients. Personalized means connecting users with content in a personally meaningful way to create, grow, and retain online relationships. Personalization often results in the creation of user profiles that store individuals preferences regarding goods or services offered by various e-commerce merchants. We developed an automatic metadata extraction system designed to process textual data such as emails, discussion group postings, or chat group transcriptions. The focus of this paper is the recognition of emotional contents such as mood and urgency, which are embedded in the business communications, as metadata.

초록보기
초록

2016년 1월 1일부터 공공도서관 빅데이터 플랫폼이 서비스되기 시작하여 도서관 빅데이터가 공공도서관 업무 개선에 활용되고 있다. 본 논문은 도서관 빅데이터 플랫폼 활용사례들을 살펴보고 도서관 빅데이터 플랫폼의 활용효과를 높일 수 있는 개선방안을 도출하고자 한다. 이를 위해 먼저, 도서관 빅데이터 플랫폼을 활용한 사례들에서 활용한 빅데이터와 활용유형분석 및 도출된 서비스/시행정책을 살펴본다. 다음으로, 현재 공공도서관에서 사용하는 통합도서관리시스템(ILUS)과 도서관 빅데이터 플랫폼 각각의 자료분석 방식을 비교함으로써 도서관 빅데이터 플랫폼의 한계점과 이점을 살펴본다. 사례분석 결과, 프로그램 기획 및 수행, 장서, 수서, 기타의 유형으로 빅데이터를 활용하였고 서비스/시행정책은 이용자 맞춤형 테마서가 및 독서진흥프로그램 진행, 장서활용도 증대, 특화주제에 기반한 수서 및 대출현황 데이터 공개로 요약되었다. 비교분석결과, ILUS는 자관의 자료실현황분석에 특화되어 있으며, 빅데이터 플랫폼은 다양한 속성(연령, 성별, 지역, 대출시기 등)에 따른 선택적 분석이 가능하여 분석시간단축과 유연한 분석이 가능하다. 마지막으로 사례분석과 비교분석에서 밝혀진 특징 및 한계점을 정리하고 개선방안을 제시한다.

Abstract

Since big data platform services for the public library began January 1, 2016, libraries have used big data to improve their work performance. This paper aims to examine the use cases of library big data and attempts to draw improvement plan to improve the effectiveness of library big data. For this purpose, first, we examine big data used while utilizing the library big data platform, the usage pattern of big data and services/policies drawn by big data analysis. Next, the limitations and advantages of the library big data platform are examined by comparing the data analysis of the integrated library management system (ILUS) currently used in public libraries and data analysis through the library big data platform. As a result of case analysis, big data usage patterns were found program planning and execution, collection, collection, and other types, and services/policies were summarized as customizing bookshelf themes for the book curation and reading promotion program, increasing collection utilization, and building a collection based on special topics. and disclosure of loan status data. As a result of the comparative analysis, ILUS is specialized in statistical analysis of library collection unit, and the big data platform enables selective and flexible analysis according to various attributes (age, gender, region, time of loan, etc.) reducing analysis time. Finally, the limitations revealed in case analysis and comparative analysis are summarized and suggestions for improvement are presented.

30
김수연(연세대학교) ; 송성전(연세대학교 문헌정보학과) ; 송민(연세대학교) 2015, Vol.32, No.1, pp.135-152 https://doi.org/10.3743/KOSIM.2015.32.1.135
초록보기
초록

Abstract

The goal of this paper is to explore the field of Computer and Information Science with the aid of text mining techniques by mining Computer and Information Science related conference data available in DBLP (Digital Bibliography & Library Project). Although studies based on bibliometric analysis are most prevalent in investigating dynamics of a research field, we attempt to understand dynamics of the field by utilizing Latent Dirichlet Allocation (LDA)-based multinomial topic modeling. For this study, we collect 236,170 documents from 353 conferences related to Computer and Information Science in DBLP. We aim to include conferences in the field of Computer and Information Science as broad as possible. We analyze topic modeling results along with datasets collected over the period of 2000 to 2011 including top authors per topic and top conferences per topic. We identify the following four different patterns in topic trends in the field of computer and information science during this period: growing (network related topics), shrinking (AI and data mining related topics), continuing (web, text mining information retrieval and database related topics), and fluctuating pattern (HCI, information system and multimedia system related topics).

정보관리학회지