바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: Data Mining, 검색결과: 14
1
채하영(숙명여자대학교 문헌정보학과 석사과정) ; 이지수(숙명여자대학교 문헌정보학과) 2023, Vol.40, No.4, pp.201-228 https://doi.org/10.3743/KOSIM.2023.40.4.201
초록보기
초록

본 연구는 국내외 사서 채용 동향을 분석하기 위해 수행되었다. 연구 대상으로 국내데이터는 인터넷 포털 사이트인 “사서e마을”에 게시된 사서 채용 공고를 총 489개를 수집하였고, 해외데이터는 “ALAJobList”에서 6,600개의 자료를 수집하였다. 기간은 2020년 1월부터 2022년 8월까지이며 수집된 데이터를 대상으로 지역 분포도 분석, 빈도 분석, 토픽모델링을 수행하였다. 연구 결과, 채용 공고의 지역분포도는 국내데이터에서 서울이 280건으로 가장 많았으며, 해외데이터는 캘리포니아(California)가 662건으로 상위로 도출되었다. 빈도분석 결과, 국내데이터의 담당업무에서는 ‘관리’ 23.42% 키워드가 높게 나왔고, 자격요건은 ‘자격증’ 16.61%이 가장 많은 비율을 차지했다. 해외데이터의 담당업무에서는 ‘LibraryService’ 8.72% 비율이 높게 나왔으며, 자격요건은 ‘CommunicationSkills’ 10.13% 키워드가 가장 높은 순위에 위치함을 확인했다. 토픽모델링에서는 국내외 담당업무, 자격요건으로 나눠 총 4가지의 영역을 살펴보았다. 분석 결과, 국내외 채용 공고에서 도출된 사서의 담당업무 및 자격요건이 미국도서관협회(ALA) 및 한국도서관협회 등 주요 도서관 관련 협회에서 제시한 핵심 역량과 연관이 있음을 확인하였다.

Abstract

This study was conducted to analyze the trends of librarian job recruitment in Korea and overseas. A total of 489 librarian job postings posted on the internet portal site “Saseo e-Ma-eul” were collected for the Korean data, and 6,600 data were collected from “ALAJobList” for the international data. The research period spans from January 2020 to August 2022. The data were subjected to regional distribution analysis, frequency analysis, and topic modeling. As a result of the study, the number of Korean librarian job postings was the highest in Seoul with 280, while California was the state with the highest number of job postings overseas with 662. According to the frequency analysis, the main task of Korean data is ‘management’ 23.42%, and the core competency is ‘certificate’ 16.61%. For overseas data, ‘Library Service’ is the main task of 8.72%, and ‘Communication Skills’ is the most important core competency of 10.13%. In topic modeling, five topics were identified for each area 4 in total, including Korean and international job description and requirements. The analysis results confirm that the duties and qualifications derived from Korean and international job postings for librarians are related to the core competencies proposed by major library associations such as the American Library Association (ALA) and the Korean Library Association.

초록보기
초록

본 연구는 대용량 음악콘텐츠환경에서 개인화 추천 서비스를 위한 기반구조의 제공을 위하여 시도되었다. 추천서비스를 위한 기존의 많은 연구와 상용프로그램에도 불구하고 대규모의 쇼핑몰들은 개인화 추천서비스와 실시간으로 대용량의 데이터를 처리할 수 있는 추천시스템을 필요로 하고 있다. 이를 위하여 본 연구에서는 데이터마이닝 기술과 새로은 패턴매칭 알고리즘을 제안하고 있다. 콘텐츠 주제분야에 대한 이용자의 선호도를 이용한 이용자 분할을 위하여 군집화 기법이 사용되었다. 다음으로는 군집화를 통하여 생성된 분할된 이용자 그룹에서 개별 이용자의 콘텐츠에 대한 접근 패턴의 추출을 위하여 순차패턴 마이닝기법을 적용하였다. 최종적으로 각각의 이용자 군집의 콘텐츠 접근 패턴과 콘텐츠 선호도에 기반한 제안된 추천 알고리즘에 의해 추천이 이루어진다. 이러한 추천을 위하여 기반구조와 함께, 전처리과정과 원본 데이터의 형식변환이 데이터베이스에서 수행되어진다. 본 연구에서 제안하고 있는 기반구조의 적절성을 보여주기 위하여 제안된 시스템을 구현하였다. 실제 이용자에 의해 이용된 데이터를 실험에 적용하였으며, 해당 실험에서 추천은 실시간으로 이루어졌으며 추천결과에 있어서는 적절한 정확성을 보여주고 있다.

Abstract

This study attempts to give a personalized recommendation framework in large-sized music contents environment. Despite of many existing studies and commercial solutions for a recommendation service, large online shopping malls are still looking for a recommendation system that can serve personalized recommendation and handle large data in real-time.This research utilizes data mining technologies and new pattern matching algorithm. A clustering technique is used to get dynamic user segmentations using user preference to contents categories. Then a sequential pattern mining technique is used to extract contents access patterns in the user segmentations. Finally, the recommendation is given by our recommendation algorithm using user contents preference history and contents access patterns of the segment. In the framework, preprocessing and data transformation and transition are implemented on DBMS. The proposed system is implemented to show that the framework is feasible. In the experiment using real-world large data, personalized recommendation is given in almost real-time and shows acceptable correctness.

초록보기
초록

연관성 척도는 정보검색 및 데이터마이닝을 비롯한 다양한 분야에서 사용되고 있다. 각 연관성 척도가 높거나 낮은 빈도 중에서 어떤 쪽을 선호하는가를 나타내는 빈도수준 선호경향은 척도의 적용 결과에 중요한 영향을 미치므로 이에 대한 면밀한 조사가 필요하다. 이 연구에서는 주요 연관성 척도들의 빈도수준 선호경향을 가상의 데이터를 통해 분석하고 그 결과를 제시하였다. 또한 코사인 계수를 비롯한 대표적인 연관성 척도에 대해서 빈도수준 선호경향을 조절할 수 있는 방법을 제안하였다. 이 조절 방법을 동시출현 기반 질의확장 정보검색에 적용해본 결과 그 유용성이 확인되었다. 마지막으로 분석 및 실험 결과가 관련 분야에 시사하는 바를 논하였다.

Abstract

Association measures are applied to various applications, including information retrieval and data mining. Each association measure is subject to a close examination to its tendency to prefer high or low frequency level because it has a significant impact on the performance of applications. This paper examines the frequency level preference(FLP) tendency of some popular association measures using artificially generated cooccurrence data, and evaluates the results. After that, a method of how to adjust the FLP tendency of major association measures such as cosine coefficient is proposed. This method is tested on the cooccurrence-based query expansion in information retrieval and the result can be regarded as promising the usefulness of the method. Based on these results of analysis and experiment, implications for related disciplines are identified.

4
박주현(전남대학교 문헌정보학과 조교수) ; 박현지(전남대학교 문헌정보학과 박사과정) ; 김영범(연세대학교 문헌정보학과 박사과정) 2024, Vol.41, No.1, pp.107-132 https://doi.org/10.3743/KOSIM.2024.41.1.107
초록보기
초록

이 연구에서는 한국언론진흥재단의 빅카인즈에서 제공하는 1990년부터 2022년까지 약 30년간의 5․18 관련 뉴스데이터를 빈도분석과 네트워크 분석하였다. 구체적으로 시기별과 지역별 기사량을 분석하여 양적 변화 추이를 살펴보았으며 동시 출현 키워드를 활용한 정부별 네트워크 분석을 통해 정부별 주요 키워드 간의 연결 구조를 탐색하였다. 분석 결과, 시기적으로는 사회적 이슈가 많았던 2019년의 보도량이 가장 많은 것으로 나타났으며 지역적으로는 전라권의 보도량이 가장 많은 것으로 나타났다. 그리고 네트워크 분석 결과, 정권이 5․18을 바라보는 인식과 정책에 따라 뉴스데이터 내 5․18과 관련된 단어에 차이가 있었다. 5․18 뉴스데이터 분석을 종합한 결과, 5․18이 지역과 상관없이 시간이 지남에 따라 민주화운동으로 자리매김해 나가고 있었으나 동시에 5․18에 대한 왜곡이 해소되지 못하고 있음을 확인하였다.

Abstract

This study attempted to analyze newspaper articles related to May 18 through frequency analysis and network analysis using news data related to May 18 for about 30 years from 1990 to 2022 at the Korea Press Foundation’s Big Kinds. Specifically, quantitative change trends were examined by analyzing the amount of articles by period and region, and the connection structure between major keywords by the regime was explored through network analysis by regime using co-appearance keywords. As a result of the analysis, it was found that 2019 had the largest amount of coverage, which had many social issues in time, and the Jeolla-do region had the largest amount of coverage in the region. And as a result of network analysis, there were differences in words related to May 18 in news data according to the perception and policy of the regime toward May 18. As a result of synthesizing the analysis of May 18 news data, it was confirmed that May 18 was becoming a democratic movement over time regardless of region, but at the same time, the distortion of May 18 was not resolved.

초록보기
초록

본 논문은 C대학도서관의 학술정보시스템(LAS)에 구축되어 있는 장서와 대출기록 및 고객관련 데이터를 수집하여 이를 분석하고 그 결과를 고객관계관리(CRM)에 적용할 수 있는 방안을 제시하였다. 수집된 자료는 C 대학도서관에서 소장하고 있는 대출이 가능한 단행본 총 269,387책의서지데이타와고객 12,281명의 데이터, 이용자 대출기록 39,269건이었다. 대출기록 분석 데이터에서 관계변수로 이용자 신분, 대출빈도, 대출책수와 대출횟수, 출판년도를 추출하여 데이터 마이닝 기법으로 분석하고, 상관계수로 검증하였다.

Abstract

The books and circulation-related data in the Library Automation System(LAS) of C-academic library were collected and analyzed, and also the method which may be applied to the Customer Relationship Management (CRM) based on the results was suggested in this paper. Collected data were 269,387 bibliographic data of books, 12,281 patron data, and 39,269 circulation records. User identity, circulation frequencies, total number of circulated books, and publication year as relation factor from the analyzed data of circulation records were extracted. They were also analyzed, and verified by correlation coefficient.

6
김수연(연세대학교) ; 송성전(연세대학교 문헌정보학과) ; 송민(연세대학교) 2015, Vol.32, No.1, pp.135-152 https://doi.org/10.3743/KOSIM.2015.32.1.135
초록보기
초록

Abstract

The goal of this paper is to explore the field of Computer and Information Science with the aid of text mining techniques by mining Computer and Information Science related conference data available in DBLP (Digital Bibliography & Library Project). Although studies based on bibliometric analysis are most prevalent in investigating dynamics of a research field, we attempt to understand dynamics of the field by utilizing Latent Dirichlet Allocation (LDA)-based multinomial topic modeling. For this study, we collect 236,170 documents from 353 conferences related to Computer and Information Science in DBLP. We aim to include conferences in the field of Computer and Information Science as broad as possible. We analyze topic modeling results along with datasets collected over the period of 2000 to 2011 including top authors per topic and top conferences per topic. We identify the following four different patterns in topic trends in the field of computer and information science during this period: growing (network related topics), shrinking (AI and data mining related topics), continuing (web, text mining information retrieval and database related topics), and fluctuating pattern (HCI, information system and multimedia system related topics).

초록보기
초록

빅 데이터 시대에 접어들면서 저장 기술과 처리 기술이 급속도로 발전함에 따라, 과거에는 간과되었던 롱테일(long tail) 데이터가 많은 기업과 연구자들에게 관심의 대상이 되고 있다. 본 연구는 롱테일 법칙의 영역에 존재하는 데이터의 활용률을 높이기 위해 텍스트 마이닝 기반의 기술 용어 네트워크 생성 및 통제 기법을 제안한다. 특히 텍스트 마이닝의 편집 거리(edit distance) 기법을 이용해 학문 분야에서 사용되는 기술 용어의 상호 네트워크를 자동으로 생성하는 효과적인 방안을 제시하였다. 데이터의 활용률 향상 실험을 위한 데이터 수집을 위해 LOD(linked open data) 환경을 이용하였으며, 이 과정에서 효과적으로 LOD 시스템의 데이터를 활용하는 기법과 용어의 패턴 처리 알고리즘을 제안하였다. 마지막으로, 생성된 기술 용어 네트워크의 성능 측정을 통해 제안한 기법이 롱테일 데이터의 활용률 제고에 효과적이었음을 확인하였다.

Abstract

As data management and processing techniques have been developed rapidly in the era of big data, nowadays a lot of business companies and researchers have been interested in long tail data which were ignored in the past. This study proposes methods for generating and controlling a network of technical terms based on text mining technique to enhance data utilization in the distribution of long tail theory. Especially, an edit distance technique of text mining has given us efficient methods to automatically create an interlinking network of technical terms in the scholarly field. We have also used linked open data system to gather experimental data to improve data utilization and proposed effective methods to use data of LOD systems and algorithm to recognize patterns of terms. Finally, the performance evaluation test of the network of technical terms has shown that the proposed methods were useful to enhance the rate of data utilization.

8
정도헌(덕성여자대학교) ; 주황수(덕성여자대학교) 2018, Vol.35, No.3, pp.77-100 https://doi.org/10.3743/KOSIM.2018.35.3.077
초록보기
초록

본 연구는 텍스트 마이닝 기법을 활용하여 대량의 데이터로부터 학제 간 융합 기술을 발굴하는 일련의 과정을 제시하는 것을 목표로 한다. 바이오공학 기술(BT) 분야와 정보통신 기술(ICT) 분야 간의 융합 연구를 위해 (1) BT 분야의 기술용어 목록을 작성하여 대량의 학술논문 메타데이터를 수집한 후 (2) 패스파인더 네트워크 척도 알고리즘을 이용해 유망 기술의 지식 구조를 생성하고 (3) 토픽 모델링 기법을 사용하여 BT분야 중심의 내용 분석을 수행하였다. 다음 단계인 BT-ICT 융합 기술 아이템 도출을 위해, (4) BT-ICT 관련 정보를 얻기 위해 BT 기술용어 목록을 상위 개념으로 확장한 후 (5) OpenAPI 서비스를 이용하여 두 분야가 관련된 학술 정보의 메타데이터를 자동 수집하여 (6) BT-ICT 토픽 모델의 내용 분석을 실시하였다. 연구를 통해 첫째, 융합 기술의 발굴을 위해서는 기술 용어 목록의 작성이 중요한 지식 베이스가 된다는 점과 둘째, 대량의 수집 문헌을 분석하기 위해서는 데이터의 차원을 줄여 분석을 용이하게 해주는 텍스트 마이닝 기법이 필요하다는 점을 확인하였다. 본 연구에서 제안한 데이터 처리 및 분석 과정이 학제 간 융합 연구의 가능성이 있는 기술 요소들을 발굴하는 데 효과적이었음을 확인할 수 있었다.

Abstract

The objectives of this study is to present a discovering process of interdisciplinary convergence technology using text mining of big data. For the convergence research of biotechnology(BT) and information communications technology (ICT), the following processes were performed. (1) Collecting sufficient meta data of research articles based on BT terminology list. (2) Generating intellectual structure of emerging technologies by using a Pathfinder network scaling algorithm. (3) Analyzing contents with topic modeling. Next three steps were also used to derive items of BT-ICT convergence technology. (4) Expanding BT terminology list into superior concepts of technology to obtain ICT-related information from BT. (5) Automatically collecting meta data of research articles of two fields by using OpenAPI service. (6) Analyzing contents of BT-ICT topic models. Our study proclaims the following findings. Firstly, terminology list can be an important knowledge base for discovering convergence technologies. Secondly, the analysis of a large quantity of literature requires text mining that facilitates the analysis by reducing the dimension of the data. The methodology we suggest here to process and analyze data is efficient to discover technologies with high possibility of interdisciplinary convergence.

9
Yang, Kiduk(경북대학교) ; Lokman Meho(American University of Beirut, Lebanon) 2011, Vol.28, No.2, pp.79-96 https://doi.org/10.3743/KOSIM.2011.28.2.079
초록보기
초록

Abstract

Despite the widespread use, critics claim that citation analysis has serious limitations in evaluating the research performance of scholars. First, conventional citation analysis methods yield one-dimensional and sometimes misleading evaluation as a result of not taking into account differences in citation quality, not filtering out citation noise such as self-citations, and not considering non-numeric aspects of citations such as language, culture, and time. Second, the citation database coverage of today is disjoint and incomplete, which can result in conflicting quality assessment outcomes across different data sources. This paper discuss the findings from a citation analysis study that measured the impact of scholarly publications based on the data mined from Web of Science, Scopus, and Google Scholar, and briefly describes a work-in-progress prototype system called CiteSearch, which is designed to overcome the weaknesses of existing citation analysis methods with a robust citation-based quality assessment approach.

초록보기
초록

본 연구는 미국도서관협회(American Library Association, ALA)의 인가를 받은 문헌정보학 프로그램에서 제공하는 데이터사이언스와 관련된 수업의 내용을 조사했다. 연구의 목적은 강의 계획서의 내용 분석을 통해 해당 수업에서 다뤄지는 교과목 명, 교과 설명, 학습 목표, 주차 별 주제를 살펴보는 것이다. 문헌정보학 프로그램에서의 데이터사이언스와 관련된 필수 과목 및 선택 과목은, 데이터사이언스 개론, 데이터 마이닝, 데이터베이스, 데이터 분석, 데이터 시각화, 데이터 큐레이션 및 관리, 머신 러닝, 메타데이터, 컴퓨터 프로그래밍 등 데이터사이언스 전 분야에 걸쳐 다양하게 교과목이 개설되어 있었다. 본 연구의 결과는 문헌정보학 프로그램에서 데이터사이언스 교과 과정을 개설 및 개정할 때 논의의 시작점이 될 수 있는 기초 자료가 되어 운영 역량을 강화하는데 활용되기를 기대한다.

Abstract

This preliminary study examined the status of data science-related course syllabi in the American Library Association (ALA) accredited Library and Information Science (LIS) programs. The purpose of this study was to explore LIS course syllabi related to data science, such as course title, course description, learning outcomes, and weekly topics. LIS programs offer various topics in data science such as the introduction to data science, data mining, database, data analysis, data visualization, data curation and management, machine learning, metadata, and computer programming. This study contributes to helping instructors develop or revise course materials to improve course competencies related to data science in the ALA-accredited LIS programs.

정보관리학회지