바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 데이터논문, 검색결과: 89
21
이재윤(명지대학교) ; 최상희(대구가톨릭대학교) 2015, Vol.32, No.4, pp.205-221 https://doi.org/10.3743/KOSIM.2015.32.4.205
초록보기
초록

학술지의 인용빈도를 특정하여 산출된 지수로 단일 논문의 영향력을 평가하는 것에 대한 비판으로 인해 단일 논문의 인용 영향력을 측정하는 인용지수에 대한 연구가 다양하게 시도되었다. 이 연구에서는 8개의 단일 논문 인용영향력 평가 지수를 살펴보고 KCI 논문 데이터베이스를 대상으로 각 인용지수의 분야별 편향성을 조사하여 보았다. 대상 지수는 단순 인용빈도, 페이지랭크, f-값, CCI, c-지수, 단일문헌 h-지수, 단일문헌 hs-지수, cl-지수였다. 분석결과 페이지랭크가 학문 분야별 균등성, 학문 분야 내에서 학술지별 균등성 영역에서 가장 편향성이 없는 것으로 나타났다. 반면에 단순 인용빈도는 특정 학문분야나 특정 학술지에 편향된 결과를 산출할 가능성이 높은 것으로 나타났다. KCI 데이터베이스에서는 논문의 단순 인용빈도만 제공하고 있는데, 분야별 균등성을 가장 잘 유지하는 지수인 논문 페이지랭크를 함께 제공할 필요가 있다. 아울러 인용한 문헌의 인용빈도만으로 산출이 가능해서 이용자의 검색 결과로부터 바로 산출할 수 있는 지역 네크워크 지수 중에서는 cl-지수가 가장 균등성을 잘 유지하므로 계산 과정과 서비스가 손쉬운 지수로 함께 제공하는 것도 검토해야 한다.

Abstract

The impact of a journal is commonly used as the impact of an individual paper within that journal. It is problematic to interpret a journal’s impact as a single paper’s impact of the journal, so there are several researches to measure a single paper’s impact with its own citation counts. This study applied 8 impact indicators to Korean Citation Index database and examined discipline bias of each indicator. Analyzed indicators are simple citation counts, PageRank, f-value, CCI, c-index, single publication h-index, single publication hs-index, and cl-index. PageRank has the least discipline bias at highly ranked papers and journal bias in a discipline. On the contrary, simple citation counts showed strongly biased results toward a certain discipline or a journal. KCI database provides only simple citation counts. It needs to show PageRank (global indicator) to discover influential papers in diverse areas. Furthermore it needs to consider to provide the best of local indicators. Local indicators can be calculated only with papers in users’ search results because they uses citation counts of citing papers and the number of references. They are more efficient than global indicators which explore the whole database. KCI should also consider to provide Cl-index (local indicator).

초록보기
초록

과거에는 오픈 데이터에 공감한다 하더라도 이를 실천할 방법이 마땅하지 않았으나 요즈음은 디지털 형태의 연구데이터를 IT를 통해 공유하는 것이 어렵지 않은 상황이 되었다. 그러나 많은 연구자가 오픈 데이터를 시행하였을 때의 부작용과 추가 작업에 대한 부담을 느끼고 있고 이외 해결하여야 할 문제도 다소 있어, 오픈 데이터는 현재 기대만큼 활발히 수행되고 있지는 않다. 지구과학, 기상학 등 일부 학문 분야에서 활발하게 추진되고 있을 뿐 나머지 학문 분야에서는 오픈 데이터에 대하여 큰 관심을 보이지 않는 듯하다. 연구결과 해외의 학회, 비영리단체, 대학, 연구지원기관에서는 오픈 데이터를 공공의 이익 추구 차원에서, 주요 출판사에서는 오픈 데이터를 논문을 엄격하게 심사하기 위한 보완책 차원에서 추진하고 있었다. 오픈 데이터는 후속 연구를 이끌고 학문을 발전시키는 발판 역할을 한다는 점에서 중요하고 앞으로 나아가야 할 방향이라는 것은 분명해 보인다. 따라서, 국내에서도 해외의 사례를 충분히 고찰하고 정책에 반영함은 물론이려니와, 연구자, 대학, 도서관 모두 오픈 데이터의 필요성과 향후 전개될 상황에 관하여 관심을 갖고 보다 적극적으로 협력하여야 할 것이며, 이 연구는 이에 관한 구체적인 내용을 기술하였다.

Abstract

There were not many ways to share research data in the past, but modern information technology has allowed us to share these data. As data sharing has its side effects, researchers’ attitude and practice to sharing data vary by individual discipline. This study found that foreign learned societies, NGOs, universities and research funders support data sharing in a utilitarian perspective, while major publishers demand it so that other researchers can verify the data in peer review. It is important that open data policy should be settled down in near future for evoking further studies and encouraging progress in science. In order to establish data sharing successfully in Korea, efforts could be made by researchers, universities, academic libraries, and governments as well as the stakeholder. This study also proposed specific ways to perform it.

23
장령령(전남대학교 문헌정보학과) ; 장우권(전남대학교) 2016, Vol.33, No.1, pp.317-336 https://doi.org/10.3743/KOSIM.2016.33.1.317
초록보기
초록

오늘날 폭발적인 정보의 증가로 이용자들은 자신이 원하는 정보를 찾기 위해 엄청난 시간과 노력을 기울여야 한다. 이 문제를 해결하기 위하여 이용자의 정보요구를 분석하고 이용자에게 적합한 논문을 추천해주는 논문추천시스템이 등장하고 있다. 그러나 대부분의 논문추천시스템은 논문추천시스템의 핵심인 이용자 프로파일을 간과하고 있다. 따라서 이 연구는 논문추천시스템의 성능을 좌우하는 이용자 프로파일을 기존의 평균으로 계산하지 않고 새로운 TPIPF(Topic Proportion-Inverse Paper Frequency)로 계산하는 방법을 제안하였다. 제안된 방법과 기존의 방법을 모두 논문추천시스템에 적용하여 각각의 성능을 온라인 참고문헌 관리도구인 CiteULike에서 제공된 데이터 실험을 통하여 비교하였다. 그 결과 제안된 TPIPF 방법을 적용한 논문추천시스템의 성능이 더 높다는 것을 알 수 있었다.

Abstract

Nowadays users spend more time and effort to find what they want because of information overload. To solve the problem, scientific article recommendation system analyse users’ needs and recommend them proper articles. However, most of the scientific article recommendation systems neglected the core part, user profile. Therefore, in this paper, instead of mean which applied in user profile in previous studies, New TPIPF (Topic Proportion-Inverse Paper Frequency) was applied to scientific article recommendation system. Moreover, the accuracy of two scientific article recommendation systems with above different methods was compared with experiments of public dataset from online reference manager, CiteULike. As a result, the proposed scientific article recommendation system with TPIPF was proven to be better.

초록보기
초록

공공데이터의 개방과 제공의 활성화와 함께, 공공도서관이 업무 중에 생산한 서지 데이터와 대출 이력과 같은 데이터가 도서관 공공데이터로 제공되고 있다. 본 논문은 도서관 공공데이터의 품질을 진단하고, 그 결과를 바탕으로 도서관 공공데이터의 품질을 높일 개선방안을 제안하고자 한다. 먼저, 문헌정보학 영역에서 공공데이터에 관해 이루어진 연구를 개괄한다. 그다음으로, 도서관 공공데이터 개방 플랫폼인 도서관 정보나루의 오픈 API를 통해 확보한 도서관 공공데이터의 완전성과 정확성을 진단한다. 마지막으로, 데이터 품질 진단 결과에 바탕을 개선방안을 도출한다. 완전성을 진단한 결과, 도서의 식별과 검색을 위 필수적인 서지 요소에서 다수의 공백이 확인되었다. 정확성을 진단한 결과, 값의 유형, 값의 범위, 제한조건을 따르지 않는 부정확한 서지 요소가 확인되었다. 본 연구는 데이터 품질 진단 분석 결과를 바탕으로, 도서관 정보나루의 데이터 수집 절차 개선, 데이터별 스키마 구축, 데이터 수집과 데이터 처리에 관한 안내 제공, 원자료 공개를 제언하였다.

Abstract

With the popularization of open government data, Library-related open government data is also open and utilized to the public. The purpose of this paper is to diagnose the quality of library-related open government data and propose improvement measures to enhance the quality based on the diagnosis result. As a result of diagnosing the completeness of the data, a number of blanks are identified in the bibliographic elements essential for identifying and searching a book. As a result of diagnosing the accuracy of the data, the bibliographic elements that are not compliant with the data schema have been identified. Based on the result of data quality diagnosis, this study suggested improving the data collection procedure, establishing data set schema, providing details on data collection and data processing, and publishing raw data.

초록보기
초록

이 연구에서는 특정 주제 분야의 핵심적이고 전역적인 연구 동향을 제공하는 연구지원 정보서비스 개발을 위해 SPLC(Search Path Link Count) 분석을 적용할 때, 데이터의 범위와 인용빈도 설정에 대하여 탐험적으로 살펴보고자 하였다. 이를 위하여 Web of Science에서 검색된 RGB LED 분야의 2,318개 논문과 20,109개 상위 인용논문으로 5개의 데이터셋을 구성하였다. 각 데이터셋에서 히스토리오그래프와 SPLC 네트워크를 인용빈도 임계치를 변화시키면서 28개 주요 연구 동향 네트워크를 추출하여, 인용문헌의 포함여부와 인용빈도 임계치 설정이 SPLC 네트워크에 미치는 영향을 살펴보았다. 그리고 특정 기관 소속 연구자들에게 SPLC 네트워크에 포함된 198개 주요 논문 리스트를 제공하고 피드백을 받음으로써, 전역적 연구 동향이 개인 연구자의 정보 요구에 부합하는지 살펴보았다. 분석 결과, 분석 대상에 상위 인용문헌 포함 여부와 인용빈도임계치에 따라 추출되는 SPLC 네트워크가 변화되었으나, 일정 인용빈도임계치값에서는 수렴하였다. 그리고 개인 연구자의 정보 요구는 SPLC를 통해 제공된 전역적 연구 동향과 출판년도의 차이는 있지만 대체적으로 일치하는 것으로 나타나, 인용문헌을 포함하여 인용빈도임계치를 변화시키는 SPLC 분석을 통해 개인 이용자가 원하는 전역적 연구 정보를 제공해 줄 수 있는 것으로 해석된다. 이를 일반화하기 위해서는 이 탐색적 연구에서 제안된 방법을 다양한 분야에 적용하는 후속 연구가 필요할 것이다.

Abstract

The purpose of this study is to examine the data coverage and citation threshold for analyzing SPLC(Search Path Link Count) as a main path of a historiograph of a certain topic in order to provide ‘core’ papers of global research trends to a researcher affiliated with a local R&D institution. 5 datasets were constructed by retrieving and collecting 2,318 articles on RGB LED on Web of Science published from 1990-2013 and 20,109 articles which cited these original 2,318. The SPLC analysis was performed on each dataset by increasing the threshold of citation counts, and the changes and resilience of the 28 extraced networks were compared. The results of user feedback on 198 unique core papers from 28 SPLC networks received from LED researchers affiliated with a Korean government-sponsored research institution were also analyzed. As a result, it is found that the nodes in each SPLC network in each dataset were differentiated by the citation counts, while the changes in the structure of SPLC networks were slight after the networks’ citation counts were set at 40. Additionally, the user feedback showed that personalized research interest generally matched to the global research trends identified by the SPLC analysis.

26
심원식(성균관대학교 문헌정보학과) ; 안병군(성균관대학교 일반대학원 문헌정보학과) ; 박성은(성균관대학교 일반대학원 문헌정보학과) ; 김현수(성균관대학교 일반대학원 문헌정보학과) 2020, Vol.37, No.2, pp.47-69 https://doi.org/10.3743/KOSIM.2020.37.2.047
초록보기
초록

본 연구는 대표적인 오픈액세스 학술지 중에서 범학문적인 성격을 가진 PLoS ONE에 게재된 국내 기관 소속 연구자들의 출판 활동에 대한 계량적인 분석을 제시하고 있다. 대표적인 메가학술지인 PLoS ONE에 국내 연구자들은 2006년부터 2019년의 기간 동안 약 6,500여 개의 연구논문을 게재하였고 이는 국가 기준으로는 전세계 11위에 해당하는 수준이다. 국내 기관 소속 저자들의 PLoS ONE 논문은 대부분 의생명 공학에 집중되어 있다. 최근에는 PLoS ONE에 대한 논문 게재가 감소하고 Scientific Reports, BMJ Open 등과 같은 경쟁 메가학술지로의 이동이 감지된다. 이러한 변화는 논문심사 기간의 지연, 영향력 지수 감소에 영향을 받은 것으로 보인다. PLoS ONE에 10건 이상의 논문을 게재한 국내 교신저자의 전반적인 연구 업적을 보면 오픈액세스 출판 비중이 약 30% 수준으로 나타나 오픈액세스에 대한 수용이 상당한 것으로 분석된다. 하지만 연구자별로 최대 50% 이상의 편차가 있는 것으로 조사된다. PLoS ONE에서 제공하는 이용지표 중에서 저장수는 열람수, 인용수와의 상관계수가 높은 것으로 나오는 반면 공유수는 열람수, 인용수 그리고 저장수와 상관계수가 상대적으로 높지 않은 것으로 조사되었다. 이상의 분석결과는 국내 연구자들의 오픈액세스 출판에 대한 구체적인 데이터에 기반하고 있다는 점에서 의의가 있으며, 논문을 게재한 연구자를 대상으로 한 설문조사 형식의 후속연구를 통해 오픈액세스 출판 배경, 심사과정 등에 대한 구체적인 데이터를 수집, 분석할 예정이다.

Abstract

This research provides a quantitative analysis on research articles published in PLoS ONE, a multidisciplinary open access journal, by authors affiliated with Korean institutions. Korean authors published more than 6,500 research ariticles in the mega journal between 2006 and 2019. Korea is ranked the top 11th place in terms of article publishing in the journal. Most articles by Korean authors are concentrated in the biomedical fields. In recent years, the overall production of PLoS ONE has decreased as authors migrated to competing mega journals such as Scientific Reports and BMJ Open. The change might have been affected in part by the delay in the review period and the dropping impact factor score. The open access share of the Korean PLoS ONE authors of more than 10 articles hovers around 30%. However, there is a significant variation among researchers reaching up to 50% discrepancies. Among altmetrics provided by PLoS ONE, the saves are highly correlated with the views and the citations. On the contrary, the shares show low correlation with other use metrics. A follow up, survey questionnarie based research involving researchers who have published in PLoS ONE is planned in order to investigate author motivation and experience in the review process.

27
명순희(용인송담대학) ; 김인철(경기대학교) 2002, Vol.19, No.4, pp.35-51 https://doi.org/10.3743/KOSIM.2002.19.4.035
초록보기
초록

본 논문에서는 다중 모델 기계학습 기법을 이용하여 자동 문서 분류의 성능과 신뢰도를 향상시킬 수 있는 연구와 실험 결과를 기술하였다. 기존의 다중 모델 기계 학습법들이 훈련 데이터 또는 학습 알고리즘의 편향에 의한 오류를 극복하고자 한 것인데 비해 본 논문에서 제안한 메타 학습을 이용한 하이브리드 다중 모델 방식은 이 두 가지의 오류 원인을 동시에 해소하고자 하였다. 다양한 문서 집합에 대한 실험 결과. 본 논문에서 제안한 하이브리드 다중 모델 학습법이 전반적으로 기존의 일반 다중모델 학습법들에 비해 높은 성능을 보였으며, 다중 모델의 결합 방식으로서 메타 학습이 투표 방식에 비해 효율적인 것으로 나타났다.

Abstract

Inductive learning and classification techniques have been employed in various research and applications that organize textual data to solve the problem of information access. In this study, we develop hybrid model combination methods which incorporate the concepts and techniques for multiple modeling algorithms to improve the accuracy of text classification, and conduct experiments to evaluate the performances of proposed schemes. Boosted stacking, one of the extended stacking schemes proposed in this study yields higher accuracy relative to the conventional model combination methods and single classifiers.

초록보기
초록

2016년 1월 1일부터 공공도서관 빅데이터 플랫폼이 서비스되기 시작하여 도서관 빅데이터가 공공도서관 업무 개선에 활용되고 있다. 본 논문은 도서관 빅데이터 플랫폼 활용사례들을 살펴보고 도서관 빅데이터 플랫폼의 활용효과를 높일 수 있는 개선방안을 도출하고자 한다. 이를 위해 먼저, 도서관 빅데이터 플랫폼을 활용한 사례들에서 활용한 빅데이터와 활용유형분석 및 도출된 서비스/시행정책을 살펴본다. 다음으로, 현재 공공도서관에서 사용하는 통합도서관리시스템(ILUS)과 도서관 빅데이터 플랫폼 각각의 자료분석 방식을 비교함으로써 도서관 빅데이터 플랫폼의 한계점과 이점을 살펴본다. 사례분석 결과, 프로그램 기획 및 수행, 장서, 수서, 기타의 유형으로 빅데이터를 활용하였고 서비스/시행정책은 이용자 맞춤형 테마서가 및 독서진흥프로그램 진행, 장서활용도 증대, 특화주제에 기반한 수서 및 대출현황 데이터 공개로 요약되었다. 비교분석결과, ILUS는 자관의 자료실현황분석에 특화되어 있으며, 빅데이터 플랫폼은 다양한 속성(연령, 성별, 지역, 대출시기 등)에 따른 선택적 분석이 가능하여 분석시간단축과 유연한 분석이 가능하다. 마지막으로 사례분석과 비교분석에서 밝혀진 특징 및 한계점을 정리하고 개선방안을 제시한다.

Abstract

Since big data platform services for the public library began January 1, 2016, libraries have used big data to improve their work performance. This paper aims to examine the use cases of library big data and attempts to draw improvement plan to improve the effectiveness of library big data. For this purpose, first, we examine big data used while utilizing the library big data platform, the usage pattern of big data and services/policies drawn by big data analysis. Next, the limitations and advantages of the library big data platform are examined by comparing the data analysis of the integrated library management system (ILUS) currently used in public libraries and data analysis through the library big data platform. As a result of case analysis, big data usage patterns were found program planning and execution, collection, collection, and other types, and services/policies were summarized as customizing bookshelf themes for the book curation and reading promotion program, increasing collection utilization, and building a collection based on special topics. and disclosure of loan status data. As a result of the comparative analysis, ILUS is specialized in statistical analysis of library collection unit, and the big data platform enables selective and flexible analysis according to various attributes (age, gender, region, time of loan, etc.) reducing analysis time. Finally, the limitations revealed in case analysis and comparative analysis are summarized and suggestions for improvement are presented.

29
김인후(중앙대학교 문헌정보학과 대학원) ; 김성희(중앙대학교 문헌정보학과) 2022, Vol.39, No.3, pp.293-310 https://doi.org/10.3743/KOSIM.2022.39.3.293
초록보기
초록

본 연구에서는 한국어 데이터로 학습된 BERT 모델을 기반으로 문헌정보학 분야의 문서를 자동으로 분류하여 성능을 분석하였다. 이를 위해 문헌정보학 분야의 7개 학술지의 5,357개 논문의 초록 데이터를 학습된 데이터의 크기에 따라서 자동분류의 성능에 어떠한 차이가 있는지를 분석, 평가하였다. 성능 평가척도는 정확률(Precision), 재현율(Recall), F 척도를 사용하였다. 평가결과 데이터의 양이 많고 품질이 높은 주제 분야들은 F 척도가 90% 이상으로 높은 수준의 성능을 보였다. 반면에 데이터 품질이 낮고 내용적으로 다른 주제 분야들과 유사도가 높고 주제적으로 확실히 구별되는 자질이 적을 경우 유의미한 높은 수준의 성능 평가가 도출되지 못하였다. 이러한 연구는 미래 학술 문헌에서 지속적으로 활용할 수 있는 사전학습모델의 활용 가능성을 제시하기 위한 기초자료로 활용될 수 있을 것으로 기대한다.

Abstract

In this study, we analyzed the performance of the BERT-based document classification model by automatically classifying documents in the field of library and information science based on the KoBERT. For this purpose, abstract data of 5,357 papers in 7 journals in the field of library and information science were analyzed and evaluated for any difference in the performance of automatic classification according to the size of the learned data. As performance evaluation scales, precision, recall, and F scale were used. As a result of the evaluation, subject areas with large amounts of data and high quality showed a high level of performance with an F scale of 90% or more. On the other hand, if the data quality was low, the similarity with other subject areas was high, and there were few features that were clearly distinguished thematically, a meaningful high-level performance evaluation could not be derived. This study is expected to be used as basic data to suggest the possibility of using a pre-trained learning model to automatically classify the academic documents.

초록보기
초록

시맨틱 라이브러리는 의미사전을 구축함으로써 EDI 전자문서의 교환에 활용될 수 있다. 본 논문은 실무 개발자들이 메타데이터를 이용한 의미사전을 개발하는 과정에서 참고할 수 있는 시맨틱 라이브러리 설계정보를 기술한다. 시맨틱 라이브러리를 구성하는 요소로는 크게 시맨틱 요소(Semantic Element)와 시맨틱 단위(Semantic Unit), 매핑 테이블(Mapping Table) 등 3개로 구성된다. 본 논문에서는 이러한 구성요소들의 기본적인 특성과 개발 관련 설계 방법을 제안한다. 또한 이러한 구성요소와 제반 규칙을 준용하여 메타 데이터 간 의미적 교환을 위한 사전을 구축한 사례를 소개한다.

Abstract

Semantic libraries can be used for EDI messages to exchange by implementing the semantic dictionaries. This paper describes the design information of semantic libraries for the field engineers to implement the semantic dictionary using metadata. The components of semantic libraries are semantic elements, semantic units and mapping tables. The basic characteristics and design methods related implementing are proposed. Also the metadata semantic dictionaries including the components and rules are introduced.

정보관리학회지