바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: topic analysis, 검색결과: 6
1
정도헌(덕성여자대학교) ; 주황수(덕성여자대학교) 2018, Vol.35, No.3, pp.77-100 https://doi.org/10.3743/KOSIM.2018.35.3.077
초록보기
초록

본 연구는 텍스트 마이닝 기법을 활용하여 대량의 데이터로부터 학제 간 융합 기술을 발굴하는 일련의 과정을 제시하는 것을 목표로 한다. 바이오공학 기술(BT) 분야와 정보통신 기술(ICT) 분야 간의 융합 연구를 위해 (1) BT 분야의 기술용어 목록을 작성하여 대량의 학술논문 메타데이터를 수집한 후 (2) 패스파인더 네트워크 척도 알고리즘을 이용해 유망 기술의 지식 구조를 생성하고 (3) 토픽 모델링 기법을 사용하여 BT분야 중심의 내용 분석을 수행하였다. 다음 단계인 BT-ICT 융합 기술 아이템 도출을 위해, (4) BT-ICT 관련 정보를 얻기 위해 BT 기술용어 목록을 상위 개념으로 확장한 후 (5) OpenAPI 서비스를 이용하여 두 분야가 관련된 학술 정보의 메타데이터를 자동 수집하여 (6) BT-ICT 토픽 모델의 내용 분석을 실시하였다. 연구를 통해 첫째, 융합 기술의 발굴을 위해서는 기술 용어 목록의 작성이 중요한 지식 베이스가 된다는 점과 둘째, 대량의 수집 문헌을 분석하기 위해서는 데이터의 차원을 줄여 분석을 용이하게 해주는 텍스트 마이닝 기법이 필요하다는 점을 확인하였다. 본 연구에서 제안한 데이터 처리 및 분석 과정이 학제 간 융합 연구의 가능성이 있는 기술 요소들을 발굴하는 데 효과적이었음을 확인할 수 있었다.

Abstract

The objectives of this study is to present a discovering process of interdisciplinary convergence technology using text mining of big data. For the convergence research of biotechnology(BT) and information communications technology (ICT), the following processes were performed. (1) Collecting sufficient meta data of research articles based on BT terminology list. (2) Generating intellectual structure of emerging technologies by using a Pathfinder network scaling algorithm. (3) Analyzing contents with topic modeling. Next three steps were also used to derive items of BT-ICT convergence technology. (4) Expanding BT terminology list into superior concepts of technology to obtain ICT-related information from BT. (5) Automatically collecting meta data of research articles of two fields by using OpenAPI service. (6) Analyzing contents of BT-ICT topic models. Our study proclaims the following findings. Firstly, terminology list can be an important knowledge base for discovering convergence technologies. Secondly, the analysis of a large quantity of literature requires text mining that facilitates the analysis by reducing the dimension of the data. The methodology we suggest here to process and analyze data is efficient to discover technologies with high possibility of interdisciplinary convergence.

초록보기
초록

이 연구에서는 1999년 1월부터 2018년 6월 현재까지 약 20년 간의 기록관리를 주제로 한 뉴스 빅데이터 4,680 건을 ‘빅카인즈’에서 추출하여, 이를 대상으로 우리나라 언론의 기록관리 주제에 대해 시계열 기반으로 보도 특성을 분석하고자 하였다. 먼저, 기록관리에 대한 언론 보도량의 차이를 살펴보기 위해 시기별, 주제별, 언론사 유형별 보도량을 분석하였다. 또한 기록관리 주제에 대한 언론 보도 내용의 차이에 대한 특성을 분석하기 위해 단어빈도 기반 내용 분석과 언어 네트워크 분석을 수행하여 언론 보도 내용의 시기별, 주제별, 언론사 유형별 차이를 분석하였다. 분석 결과, 기록관리 분야 뉴스 보도는 보도량과 보도 내용에 있어 시기별, 주제별, 언론사별로 차이가 있는 것으로 나타났다. 뉴스 보도량은 2007년 대통령기록물관리법이 제정된 이후부터 증가하기 시작하여 2013년에 가장 많은 뉴스가 보도된 것으로 나타났으며, 정치와 사회 주제를 중심으로 중앙지와 경제지가 가장 많은 양의 뉴스를 보도한 것으로 나타났다. 또한 뉴스 보도 내용의 분석 결과, 기록관리가 도입된 처음 10년 동안은 기록관리의 현장 적용과 확산 과정에서 발생하는 이슈들을 중심으로 뉴스 주제가 형성되다가, 대통령기록물관리법 제정 이후로 기록관리가 정치적, 사회적 이슈의 주요 요인이 되면서 정치, 사회 분야의 뉴스가 많이 보도된 것으로 나타났다.

Abstract

The purpose of this study is to analyze the characteristics of Korean media on the topic of archives & records management based on time-series analysis. In this study, from January, 1999 to June, 2018, 4,680 news articles on archives & records management topics were extracted from BigKinds. In order to examine the characteristics of the media coverage on the archives & records management topic, this study was analyzed to the difference of the press coverage by period, subject, and type of the media. In addition, this study was conducted word-frequency based content analysis and semantic network analysis to investigate the content characteristics of media on the subject. Based on these results, this study was analyzed to the differences of media coverage by period, subject, and type of media. As a result, the news in the field of records management showed that there was a difference in the amount of news coverage and news contents by period, subject, and type of media. The amount of news coverage began to increase after the Presidential Records Management Act was enacted in 2007, and the largest amount of news was reported in 2013. Daily newspapers and financial newspapers reported the largest amount of news. As a result of analyzing news reports, during the first 10 years after 1999, news topics were formed around the issues arising from the application and diffusion process of the concept of archives & records management. However, since the enactment of the Presidential Records Management Act, archives & records management has become a major factor in political and social issues, and a large amount of political and social news has been reported.

3
곽철완(강남대학교) 2018, Vol.35, No.4, pp.37-50 https://doi.org/10.3743/KOSIM.2018.35.4.037
초록보기
초록

이 연구의 목적은 브라운의 주제분류법 초판을 분석하여 오늘의 분류법 연구에 대한 시사점을 파악하는 것이다. 이를 위해 1906년에 발표한 주제분류법 초판을 분석 대상으로 삼았다. 분석 결과는 다음과 같다. 첫째, 분류체계의 구성에서 주제분류법의 주류는 크게 11가지로 구분되며, 각 주류는 000에서 999로 세분되어 열거식으로 나열되었다. 둘째, 분류기호 합성 방법은 크게 3가지가 있다. 셋째, 새로운 주제 처리 방법으로 본표에 없는 새로운 주제가 나타나면 적절한 위치에 새로운 분류기호를 삽입할 수 있는 유연성이 있었다. 분류법 연구에 대한 시사점은 크게 네 가지로 구분할 수 있다. 첫째, 이전의 분류법에는 없었던 혁신적인 방법인 복합 주제에 대한 분류기호 합성 방법을 제시하였다. 둘째, 패싯을 지원하는 보조표 운영을 통하여 주제를 다양한 측면에서 설명하였다. 셋째, 자관별로 유연한 분류체계를 가질 수 있도록 한 분류법으로 분류체계에 새로운 주제를 쉽게 삽입할 수 있거나 도서관 장서 규모에 따라 간략한 분류기호를 사용할 수 있도록 하였다. 넷째, 디지털 자료에 대한 접근점으로 고려할 수 있는 디렉토리를 제공하였다.

Abstract

The purpose of this study is to analyze the first edition of Brown’s Subject Classification and to understand the implications of today’s library classification. For this purpose, the first edition of the Subject Classification published in 1906 was analyzed. The analysis results are divided into three main areas. First, SC is divided into eleven main classes and each class is subdivided into enumerated subdivisions from 000 to 999. Second, As a method of synthesizing the classification numbers, there were three methods of synthesis. There was a flexibility to insert a new classification number at the appropriate location when a new topic that does not appear in the main table appeared. Implications for classification studies can be divided into four main categories. First, SC proposed a method of classification number synthesis for composite topics, which is an innovative method that was not available in previous library classification. Second, the subject matter was explained in various aspects through the operation of auxiliary tables supporting the facets. Third, it is possible to easily insert a new topic into the classification system by using the SC that can have a flexible classification system for each library, or to use a short classification number according to the size of the library collection. Fourth, it provided a directory that can be considered as access points for digital materials.

초록보기
초록

본 논문에서는 온라인 뉴스 기사에서 자동으로 추출된 키워드 집합을 활용하여 특정 시점에서의 세부 주제별 토픽을 추출하고 정형화하는 새로운 방법론을 제시한다. 이를 위해서, 우선 다량의 텍스트 집합에 존재하는 개별 단어들의 중요도를 측정할 수 있는 복수의 통계적 가중치 모델들에 대한 비교 실험을 통해 TF-IDF 모델을 선정하였고 이를 활용하여 주요 키워드 집합을 추출하였다. 또한 추출된 키워드들 간의 의미적 연관성을 효과적으로 계산하기 위해서 별도로 수집된 약 1,000,000건 규모의 뉴스 기사를 활용하여 단어 임베딩 벡터 집합을 구성하였다. 추출된 개별 키워드들은 임베딩 벡터 형태로 수치화되고 K-평균 알고리즘을 통해 클러스터링 된다. 최종적으로 도출된 각각의 키워드 군집에 대한 정성적인 심층 분석 결과, 대부분의 군집들이 레이블을 쉽게 부여할 수 있을 정도로 충분한 의미적 집중성을 가진 토픽들로 평가되었다.

Abstract

In this paper, we propose a new methodology for extracting and formalizing subjective topics at a specific time using a set of keywords extracted automatically from online news articles. To do this, we first extracted a set of keywords by applying TF-IDF methods selected by a series of comparative experiments on various statistical weighting schemes that can measure the importance of individual words in a large set of texts. In order to effectively calculate the semantic relation between extracted keywords, a set of word embedding vectors was constructed by using about 1,000,000 news articles collected separately. Individual keywords extracted were quantified in the form of numerical vectors and clustered by K-means algorithm. As a result of qualitative in-depth analysis of each keyword cluster finally obtained, we witnessed that most of the clusters were evaluated as appropriate topics with sufficient semantic concentration for us to easily assign labels to them.

초록보기
초록

본 연구는 공공도서관에서 운영하는 프로그램의 성과를 로직모델을 기반으로 개발된 평가 프레임워크를 적용하여 측정하고자 하였다. 성과 측정을 위해 서울 소재 한 공공도서관에서 운영하는 여러 프로그램 중 어린이 독서 프로그램을 선정하였다. 성과 측정 과정은 어린이 독서 프로그램의 계획, 진행, 평가 등의 업무 과정 일체를 분석하여 로직 모델을 구현하였으며 이에 의거하여 예상되는 성과를 측정하였다. 데이터는 KOLAS를 통해 회원정보, 서지정보, 대출정보 등을 수집하였고, 프로그램 운영 현황에 대한 데이터는 프로그램 진행 후 작성된 보고서에서 추출하였다. 측정 결과 어린이 독서 프로그램에 참여한 회원들의 대출빈도가 상승하였고, 프로그램의 주제에 따라 대출 장서의 주제가 변화하는 것을 볼 수 있었다. 본 연구를 통해 독서 프로그램이 갖는 효과와 의미를 확인할 수 있었으며, 성과평가가 도서관에서 운영하는 타 프로그램 및 도서관 업무 등의 효과성을 측정하는데 유용한 도구가 될 수 있음을 보여주었다.

Abstract

The purpose of this study is to measure the outcomes of a program provided by a public library using the evaluation framework based on Logic Model. A reading program for children which was operated by a public library in Seoul was selected. The outcome evaluation was started with the analysis of the reading program process including planning, operation, and evaluation. Based on the analysis, a logic model framework for outcome evaluation was developed. For evaluation, user, bibliography, and circulation data were collected from the library KOLAS system. Additionally, the participant information were extracted from the final report drafted after the program. The research results show that the number of circulation of program participants was increased after the program. In addition, the range of reading topic was expanded. These findings indicate that the reading program is an effective program for promoting children’s reading habit and that outcome evaluation might be a valid tool to measure the effectiveness of public library programs.

6
최형욱(이화여자대학교 일반대학원 문헌정보학과) ; 최예진(이화여자대학교 일반대학원 문헌정보학과) ; 남소연(이화여자대학교 일반대학원 문헌정보학과) 2018, Vol.35, No.2, pp.89-114 https://doi.org/10.3743/KOSIM.2018.35.2.089
초록보기
초록

학문 분야의 연구 동향 변화에 대한 연구는 해당 분야의 세부 연구주제와 구조에 대한 파악뿐만 아니라 시간 흐름에 따른 변화 모습을 관찰할 수 있는 방법이다. 이에 본 연구에서는 국내 문헌정보학 분야의 연구 동향을 살펴보기 위하여 2003년부터 2017년까지 한국학술지인용색인(KCI)에 등재된 문헌정보학 분야 학술지 중 인용지수가 가장 높은 3종에 개제된 논문의 한국어 저자키워드를 대상으로 동시출현단어 분석을 수행하였다. 시계열 분석을 위해 15년의 연구 기간을 5년 단위로 누적하여 2003년~2007년, 2003년~2012년, 2003년~2017년으로 구분하였고, 기간별로 출현빈도 10회 이상의 저자키워드를 선정하여 분석하고 이를 시각화하였다. 분석 결과, 2003년~2007년 기간의 지적구조는 총 25개의 키워드로 구성된 8개의 영역이 확인되었으며, 2003년~2012년 기간의 지적구조에서는 총 76개의 키워드로 구성된 3영역 17 군집이 확인되었다. 또한, 2003년~2017년 기간의 지적구조는 총 132개의 키워드로 구성된 6영역 32군집으로 나타났다. 누적 기간별 종합 분석 결과, 한국의 문헌정보학 분야는 지난 15년간 기간별로 새로운 키워드가 포괄적으로 추가되었으며, 세부 주제 역시 세분화 되어 점차 세분화되고 확장되고 있음을 확인하였다.

Abstract

Research on changes in research trends in academic disciplines is a method that enables observation of not only the detailed research subject and structure of the field but also the state of change in the flow of time. Therefore, in this study, in order to observe the changes of research trend in library and information science field in Korea, co-word analysis was conducted with Korean author keywords from three types of journals which were listed in the Korea Citation Index(KCI) and have top citation impact factor were selected. For the time series analysis, the 15-year research period was accumulated in 5-years units, and divided into 2003~2007, 2003~2012, and 2003~2017. The keywords which limited to the frequency of appearance 10 or more, respectively, were analyzed and visualized. As a result of the analysis, during the period from 2003 to 2007, the intellectual structure composed with 25 keywords and 8 areas was confirmed, and during the period from 2003 to 2012, the structure composed by 3 areas 17 sub-areas with 76 keywords was confirmed. Also, the intellectual structure during the period from 2003 to 2017 was crowded into 6 areas 32 consisting of a total of 132 keywords. As a result of comprehensive period analysis, in the field of library and information science in Korea, over the past 15 years, new keywords have been added for each period, and detailed topics have also been subdivided and gradually segmented and expanded.

정보관리학회지