바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 데이터 기반, 검색결과: 115
11
이소영(다음커뮤니케이션) ; 정영미(연세대학교) 2006, Vol.23, No.4, pp.179-196 https://doi.org/10.3743/KOSIM.2006.23.4.179
초록보기
초록

이 연구에서는 한국형 포털에 적합한 커뮤니티 기반 개인화 검색 서비스 모형을 제안하였다. 개인화 검색 서비스 모형은 이용자의 관심 주제를 파악하는 과정과 이를 반영한 검색 결과 재순위화 및 관련 주제 카테고리와 질의어 추천 과정으로 구성된다. 개인화 검색 모형의 유용성을 검증하기 위한 실험에서는 포털 사이트 다음에서 12일간 수집한 이용자 로그 데이터를 사용하였다. 실험 결과 개별 이용자의 주제 카테고리 선정에 사용한 카페 활동성 분석과 신지식 활동성 분석 데이터는 매우 유용한 것으로 나타났으며, 개인화 검색 결과와 추천 서비스에 대한 만족도도 비교적 높게 나타났다.

Abstract

This study proposes an expanded model of personalized search service based on community activities on a Korean Web portal. The model is composed of defining subject categories of users, providing personalized search results, and recommending additional subject categories and queries. Several experiments were performed to verify the feasibility and effectiveness of the proposed model. It was found that users’ activities on community services provide valuable data for identifying their interests, and the personalized search service increases users’ satisfaction.

12
백지연(전북대학교 일반대학원 기록관리학과) ; 오효정(전북대학교 문헌정보학과 부교수, 문화융복합아카이빙연구소 연구원) 2019, Vol.36, No.4, pp.183-205 https://doi.org/10.3743/KOSIM.2019.36.4.183
초록보기
초록

이용자의 정보요구를 파악하기 위한 다양한 방법 중 로그 분석 방법은 이용자의 실제 검색 행위를 사실적으로 반영하고, 대다수 이용자의 전반적인 이용행태를 분석할 수 있다. 이에 본 연구에서는 국가기록원 웹 포털서비스를 통해 입수된 대량의 질의로그 빅데이터를 기반으로 이용자의 정보요구를 파악하기 위해 1) 질의에 내포된 정보요구 유형별과 2) 검색결과로 제공한 기록 유형별 분석을 진행하였다. 분석에 활용한 질의로그는 국가기록원이 웹을 통해 검색서비스를 제공한 2007년부터 2018년 12월까지, 총 141개월 동안 수집된 월별 상위 100개 질의어 1,571,547개를 대상으로 하였다. 나아가 분석결과를 토대로 이용자 검색 만족도를 향상시킬 수 있는 개선방안을 제안하였다. 본 연구의 결과는 국가기록원 검색 서비스 개선 및 고도화를 위한 구체적이고 실질적 방안을 제시했다는 점에서 의의가 있다.

Abstract

Among the various methods for identifying users’s information needs, Log analysis methods can realistically reflect the users’ actual search behavior and analyze the overall usage of most users. Based on the large quantity of query log big data obtained through the portal service of the National Archives of Korea, this study conducted an analysis by the information type and search result type in order to identify the users’ information needs. The Query log used in analysis were based on 1,571,547 query data collected over a total of 141 months from 2007 to December 2018, when the National Archives of Korea provided search services via the web. Furthermore, based on the analysis results, improvement methods were proposed to improve user search satisfaction. The results of this study could actually be used to improve and upgrade the National Archives of Korea search service.

초록보기
초록

대출데이터는 대학도서관에 축적된 중요한 데이터로서 도서관 장서개발이나 서비스 개선에 활용될 수 있는 중요한 데이터이다. 이 연구는 대출빈도를 기반으로 한 다양한 대출관련지수를 비교분석하여 지수별 특성을 파악한 후 도서관 운영에 적용할 수 있는 타당성을 평가하고자 하였다. A 대학도서관의 10개 단과대학별 대출데이터를 대상으로 비교분석한 지수는 대출빈도, 대출엔트로피, 대출 h-지수, 대출주제차별지수 등 총 4개의 지수이다. 이 지수들을 적용하여 단과대학별 대출현황을 분석하였고 단과대학별로 나타나는 대출주제의 특성을 표하는 각 지수의 특성을 비교 분석하였다. 분석 결과 대출 엔트로피는 여러 대학이 공통으로 선호하는 주제를 표현하는 성향이 있는 것으로 나타났다. 반면 대출주제차별지수는 특정대학에서만 특화되어 대출되는 주제를 표현하는 성향이 있는 것으로 나타났다.

Abstract

Circulation data is a key data set of academic libraries in terms of collection development and service improvement This study aims to identify the characteristics of circulation measures and their feasibility. This study collected the circulation data of 10 colleges in a university and analyzed 4 measures based on the circulation data: circulation frequency, circulation entropy, circulation h-index, and circulation divergence. These measures are to present the circulation topics of each college. This study identified that circulation entropy tends to present general topics which are popular for many colleges, but circulation divergence tends to present specific topics which are preferred by a specific college.

초록보기
초록

본 연구는 경기지역의 상호대차데이터를 분석하여 상호대차 장서의 지역 간 네트워크를 분석하여 보고자 하였다. 경기지역 공공도서관의 지역 간 상호대차 장서의 네트워크를 분석하여 장서의 이동이 어떻게 이루어지는가 파악함으로써 실무기반 데이터의 활용 방안을 모색해보았다. 이를 통하여 효율적 상호대차를 위하여 지역을 권역별로 나누어 상호대차를 실시한다면 더욱 원할한 상호대차가 이루어질 수 있음을 확인하였다.

Abstract

The purpose of this study was to analyze ILL data in Gyeonggi province so that it could make a further analysis on current inter-regional network of book collection in ILL. In details, this study sought to analyze inter-regional network of ILL book collection among public libraries in Gyeonggi province to examine how a collection of books could be exchanged among those libraries, and analyze possible applications of task-based data in ILL. As a result, this study could verify that the further implementation of ILL across more detailed areas than current regions for the benefit of efficient ILL, if possible, would contribute to streamlining ILL practices.

15
고영만(성균관대학교) ; 이승준(성균관대학교 정보관리연구소) ; 송민선(성균관대학교 정보관리연구소) 2015, Vol.32, No.2, pp.131-152 https://doi.org/10.3743/KOSIM.2015.32.2.131
초록보기
초록

본 연구에서는 R2RML 방식과 Non-R2RML 방식을 각각 적용하여 RDB를 RDF 온톨로지로 변환한 결과를 비교하였다. RDB 기반의 구조적학술용어사전 데이터베이스인 STNet의 데이터를 대상으로, 변환이 완료된 데이터의 규모, 튜플당 변환에 걸리는 시간, 그리고 질의 응답 속도를 측정하였다. 변환 규모의 평가 결과 Non-R2RML 방식이 더 많은 수의 변환을 하였으며, 표현의 풍부성과 추론 가능성 정도를 높이는 변환을 수행한 것으로 나타났다. 튜플당 변환 시간의 경우 Non-R2RML 방식이 미세하지만 더 빠른 것으로 나타났으며, 질의 응답 속도는 두 방식 모두 300회 이상의 질의 횟수부터는 안정적인 성능을 보이면서 유사한 형태의 속도를 보였다. 측정에 대한 종합적 검토 결과 데이터의 변형이 빈번하고 새로운 데이터의 추가나 데이터들 간의 연결관계가 지속적으로 변화하는 STNet과 같은 동적인 RDB에는 Non-R2RML 방식이 적절한 것으로 평가되었다.

Abstract

This study described the results of converting RDB to RDF ontology by each of R2RML method and Non-R2RML method. This study measured the size of the converted data, the conversion time per each tuple, and the response speed to queries. The STNet, a structured terminology dictionary based on RDB, was served as a test bed for converting to RDF ontology. As a result of the converted data size, Non-R2RML method appeared to be superior to R2RML method on the number of converted triples, including its expressive diversity. For the conversion time per each tuple, Non-R2RML was a little bit more faster than R2RML, but, for the response speed to queries, both methods showed similar response speed and stable performance since more than 300 numbers of queries. On comprehensive examination it is evaluated that Non-R2RML is the more appropriate to convert the dynamic RDB system, such as the STNet in which new data are steadily accumulated, data transformation very often occurred, and relationships between data continuously changed.

초록보기
초록

본 연구는 시계열 특성을 갖는 데이터의 패턴 유사도 비교를 통해 유사 추세를 보이는 키워드를 자동 분류하기 위한 효과적인 방법을 제안하는 것을 목표로 한다. 이를 위해 대량의 웹 뉴스 기사를 수집하고 키워드를 추출한 후 120개 구간을 갖는 시계열 데이터를 생성하였다. 제안한 모델의 성능 평가를 위한 테스트 셋을 구축하기 위해, 440개의 주요 키워드를 8종의 추세 유형에 따라 수작업으로 범주를 부여하였다. 본 연구에서는 시계열 분석에 널리 활용되는 동적 시간 와핑(DTW) 기법을 기반으로, 추세의 경향성을 잘 보여주는 이동 평균(MA) 기법을 DTW에 추가 적용한 응용 모델인 MA-DTW를 제안하였다, 자동 분류 성능 평가를 위해 k-최근접 이웃(kNN) 알고리즘을 적용한 결과, ED와 DTW가 각각 마이크로 평균 F1 기준 48.2%와 66.6%의 최고 점수를 보인 데 비해, 제안 모델은 최고 74.3%의 식별 성능을 보여주었다. 종합 성능 평가를 통해 측정된 모든 지표에서, 제안 모델이 기존의 ED와 DTW에 비해 우수한 성능을 보임을 확인하였다.

Abstract

This study aims to suggest an effective method for the automatic classification of keywords with similar patterns by calculating pattern similarity of temporal data. For this, large scale news on the Web were collected and time series data composed of 120 time segments were built. To make training data set for the performance test of the proposed model, 440 representative keywords were manually classified according to 8 types of trend. This study introduces a Dynamic Time Warping(DTW) method which have been commonly used in the field of time series analytics, and proposes an application model, MA-DTW based on a Moving Average(MA) method which gives a good explanation on a tendency of trend curve. As a result of the automatic classification by a k-Nearest Neighbor(kNN) algorithm, Euclidean Distance(ED) and DTW showed 48.2% and 66.6% of maximum micro-averaged F1 score respectively, whereas the proposed model represented 74.3% of the best micro-averaged F1 score. In all respect of the comprehensive experiments, the suggested model outperformed the methods of ED and DTW.

17
서선경(한국과학기술정보연구원) ; 최호남(한국과학기술정보연구원) ; 김병규(KISTI) ; 최선희(한국과학기술정보연구원) ; 김정환(한국과학기술정보연구원) 2016, Vol.33, No.2, pp.157-176 https://doi.org/10.3743/KOSIM.2016.33.2.157
초록보기
초록

Cited-by Linking 서비스는 CrossRef에서 제공하는 주요 서비스 중 하나로 해당 논문이 DOI를 통하여 얼마나 인용되었는지 누적하여 집계된 데이터이다. 이에 본 연구에서는 KISTI의 학술정보통합관리시스템에서 월단위로 구축․관리하는 Cited-by Linking 데이터를 분석하여 자연과학과 공학 분야의 인용 패턴을 규명하고자 하였다. 이를 위해서 전체 기탁된 21만 건 중 자연과학과 공학 분야 총 170,999건(315종)을 분석 대상으로 하고, 2016년 3월까지 누적된 Cited-by Linking 데이터를 수집하였다. 연구의 분석 결과, 첫째, 글로벌하게 인용될 가능성에서 사용 언어는 영향을 미치고 있으며, 둘째, SCIE 및 SCOPUS 등재 여부 역시 인용가능성에 상당 부분 기여하고 있음을 확인하였다. 셋째, 자연과학 분야는 거의 동일한 주제 분야에서 인용을 받고 있으며, 상대적으로 공학 분야는 타주제 분야에서 더 인용 받고 있음을 파악하였다. 이러한 연구의 결과는 자연과학과 공학 분야의 세부주제 분야별 인용 행태를 규명하고, 향후, 인용 행태에 관한 연구에서 유용하게 활용될 것으로 기대한다.

Abstract

Cited-by Linking Service is one of the CrossRef’s information services that allows you to discover how your publications are being cited and to incorporate that information into your online publication platform. This study tries to investigate citation patterns in the field of both Natural Science and Engineering using all of DOI assigned articles and Cited-by Linking data which are accumulated and managed by KISTI. The investigating approach is designed to verify the theory of 1) cognitive accessibility, 2) ‘perceived quality and significance’ and 3) ‘subject relativity’. For cognitive accessibility verification the fulltext language portion of Korean and English between “Cited DOI Source Data” and “NOT Cited DOI Source Data” was compared. For perceived quality and significance verification the availability of the “Cited DOI Source Data” and “NOT Cited DOI Source Data” from SCIE and SCOPUS was employed. For subject relativity DOI data were classified and analysed on the basis of OECD subject classification scheme. Findings are that global citability is closely related to the fulltext language of the articles and their quality and significance. And in the natural science field most of citations are from the same subject categories, while relatively more citations are from other subject categories in the engineering field.

18
최형욱(이화여자대학교 일반대학원 문헌정보학과) ; 정은경(이화여자대학교) 2017, Vol.34, No.3, pp.109-124 https://doi.org/10.3743/KOSIM.2017.34.3.109
초록보기
초록

여러 학문 분야에서 데이터의 공유와 재이용에 관한 관심이 증가하고 있다. 실제로 다른 연구자의 데이터를 다시 연구에 사용하고 인용을 부여하는 관행이 서서히 자리를 잡아가고 있다. 이러한 변화를 반영하여 톰슨로이터는 Data Citation Index(DCI)라는 데이터인용 색인 데이터베이스 서비스를 2012년부터 제공하기 시작하였다. DCI는 모든 학문의 전 영역에서 데이터의 인용 현황을 저널의 논문과 유사하게 집계한다. 본 연구에서는 데이터인용이 활발한 사회학 분야의 인용된 연구데이터를 분석하여 해당 분야의 특성과 지적구조를 규명하고자 하였다. 이를 위해 논문 인용을 기반으로 한 사회학 분야의 지적구조와 비교하였으며, 사회학 분야의 연구데이터의 특성과 고유한 지적구조를 살펴보고자 하였다. 분석을 위한 데이터는 두 종류로 수집하였다. 첫째는 DCI에서 ‘Sociology’로 주제 검색을 수행하여 총 8,365건의 인용된 데이터를 수집하였다. 둘째로, 논문 인용 분석과의 비교를 위해서 Web of Science에서 ‘Sociology’로 주제 검색을 수행하여 총 12,132건의 데이터를 수집하였다. 이 두 데이터를 활용하여 저자키워드 동시출현단어 분석을 수행한 결과, 데이터를 기반으로 한 사회학 분야는 2영역 15군집으로 구성된 반면, 논문을 기반으로 한 사회학 분야는 3영역 17군집으로 나타났다. 내용적인 특성을 살펴보면, 전통적으로 사회학의 지적구조를 나타낸다고 볼 수 있는 논문 기반 사회학과 달리 사회학 분야의 연구데이터는 의학 분야와의 활발한 접목을 찾아볼 수 있으며, 그 중에서도 공중보건과 심리학이 중심 영역인 것으로 나타났다.

Abstract

Through a wide variety of disciplines, practices on data access and re-use have been increased recently. In fact, there has been an emerging phenomenon that researchers tend to use the data sets produced by other researchers and give scholarly credit as citation. With respect to this practice, in 2012, Thomson Reuters launched Data Citation Index (DCI). With the DCI, citation to research data published by researchers are collected and analyzed in a similar way for citation to journal articles. The purpose of this study is to identify the characteristics and intellectual structure of sociology field based on research data, which is one of actively data-citing fields. To accomplish this purpose, two data sets were collected and analyzed. First, from DCI, a total of 8,365 data were collected in the field of sociology. Second, a total of 12,132 data were collected from Web of Science with a topic search with ‘Sociology’. As a result of the co-word analysis of author provided-keywords for both data sets, the intellectual structure of research data-based sociology was composed of two areas and 15 clusters and that of article-based sociology was composed with three areas and 17 clusters. More importantly, medical science area was found to be actively studied in research data-based sociology and public health and psychology are identified to be central areas from data citation.

초록보기
초록

이 연구는 대학도서관의 웹사이트 실제 이용 데이터를 분석하여 이용자들의 이용행태를 분석하고, 웹사이트의 개선방안을 제안하는데 있다. 이 연구에서는 2018년 1월부터 2018년 12월까지 C대학교 웹사이트에서 이루어진 이용자들의 트래픽을 분석하여 이용행태를 분석하였다. 웹사이트의 분석 툴로는 ‘구글 애널리틱스’를 활용하였다. 웹 트래픽 변수는 세션, 사용자, 페이지뷰 수, 세션당 페이지수, 평균 세션 시간, 이탈률을 측정지표를 기준으로 이용자 일반적 특성, 사용자환경 분석, 방문 분석, 유입분석, 사이트 분석 5가지로 구분지어 분석하였다. 그 결과, 1) 이용자 일반적 특성을 분석 결과에서 웹사이트 접속 위치가 대한민국뿐만 아니라 중국에서도 일부 접속이 있었다. 2) 사용자 환경 분석에서는 주 이용 브라우저 유형은 인터넷 익스플로러로 나타났다. 다음 순위는 크롬이었으며, 3위와 4위인 Safari로 이탈률이 익스클로러나 크롬의 두 배에 달했다. 화면 해상도에서는 1920x1080 해상도가 가장 많은 비율을 차지하였으며 그 외에도 다양한 환경에서 접속하는 것으로 나타났다. 3) 유입 매체 분석에서는 직접 유입이 가장 높게 나타났다. 4) 사이트 분석에서는 총 페이지뷰 수인 4,534,084 페이지 중 최다 페이지뷰를 차지한 페이지는 메인페이지 다음으로 대출/연장/이력/예약 페이지, 학술DB 페이지, 소장자료 페이지 순으로 나타났다.

Abstract

This study analyzes the actual use data of the websites of university libraries, analyzes the users’ usage behavior, and proposes improvement measures for the websites. The study analyzed users’ traffic and analyzed their usage behavior from January 2018 to December 2018 on the C University website. The website’s analysis tool used ‘Google Analytics’. The web traffic variables were analyzed in five categories: user general characteristics, user environment analysis, visit analysis, inflow analysis, site analysis, and site analysis based on the metrics of sessions, users, page views, pages per session, average session time, and bounce rate. As a result, 1) In the analysis results of general characteristics of users, there was some access to the website not only in Korea but also in China. 2) In the user experience analysis, the main browser type appeared as Internet Explorer. The next place was Chrome, with a bounce rate of Safari, third and fourth, double that of the Explore or Chrome. In terms of screen resolution, 1920x1080 resolution accounted for the largest percentage, with access in a variety of other environments. 3) Direct inflow was the highest in the inflow media analysis. 4) The site analysis showed the most page views out of 4,534,084 pages, followed by the main page, followed by the lending/extension/history/booking page, the academic DB page, and the collection page.

초록보기
초록

본 연구는 대용량 음악콘텐츠환경에서 개인화 추천 서비스를 위한 기반구조의 제공을 위하여 시도되었다. 추천서비스를 위한 기존의 많은 연구와 상용프로그램에도 불구하고 대규모의 쇼핑몰들은 개인화 추천서비스와 실시간으로 대용량의 데이터를 처리할 수 있는 추천시스템을 필요로 하고 있다. 이를 위하여 본 연구에서는 데이터마이닝 기술과 새로은 패턴매칭 알고리즘을 제안하고 있다. 콘텐츠 주제분야에 대한 이용자의 선호도를 이용한 이용자 분할을 위하여 군집화 기법이 사용되었다. 다음으로는 군집화를 통하여 생성된 분할된 이용자 그룹에서 개별 이용자의 콘텐츠에 대한 접근 패턴의 추출을 위하여 순차패턴 마이닝기법을 적용하였다. 최종적으로 각각의 이용자 군집의 콘텐츠 접근 패턴과 콘텐츠 선호도에 기반한 제안된 추천 알고리즘에 의해 추천이 이루어진다. 이러한 추천을 위하여 기반구조와 함께, 전처리과정과 원본 데이터의 형식변환이 데이터베이스에서 수행되어진다. 본 연구에서 제안하고 있는 기반구조의 적절성을 보여주기 위하여 제안된 시스템을 구현하였다. 실제 이용자에 의해 이용된 데이터를 실험에 적용하였으며, 해당 실험에서 추천은 실시간으로 이루어졌으며 추천결과에 있어서는 적절한 정확성을 보여주고 있다.

Abstract

This study attempts to give a personalized recommendation framework in large-sized music contents environment. Despite of many existing studies and commercial solutions for a recommendation service, large online shopping malls are still looking for a recommendation system that can serve personalized recommendation and handle large data in real-time.This research utilizes data mining technologies and new pattern matching algorithm. A clustering technique is used to get dynamic user segmentations using user preference to contents categories. Then a sequential pattern mining technique is used to extract contents access patterns in the user segmentations. Finally, the recommendation is given by our recommendation algorithm using user contents preference history and contents access patterns of the segment. In the framework, preprocessing and data transformation and transition are implemented on DBMS. The proposed system is implemented to show that the framework is feasible. In the experiment using real-world large data, personalized recommendation is given in almost real-time and shows acceptable correctness.

정보관리학회지