바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: methodology, 검색결과: 3
초록보기
초록

본 논문에서는 온라인 뉴스 기사에서 자동으로 추출된 키워드 집합을 활용하여 특정 시점에서의 세부 주제별 토픽을 추출하고 정형화하는 새로운 방법론을 제시한다. 이를 위해서, 우선 다량의 텍스트 집합에 존재하는 개별 단어들의 중요도를 측정할 수 있는 복수의 통계적 가중치 모델들에 대한 비교 실험을 통해 TF-IDF 모델을 선정하였고 이를 활용하여 주요 키워드 집합을 추출하였다. 또한 추출된 키워드들 간의 의미적 연관성을 효과적으로 계산하기 위해서 별도로 수집된 약 1,000,000건 규모의 뉴스 기사를 활용하여 단어 임베딩 벡터 집합을 구성하였다. 추출된 개별 키워드들은 임베딩 벡터 형태로 수치화되고 K-평균 알고리즘을 통해 클러스터링 된다. 최종적으로 도출된 각각의 키워드 군집에 대한 정성적인 심층 분석 결과, 대부분의 군집들이 레이블을 쉽게 부여할 수 있을 정도로 충분한 의미적 집중성을 가진 토픽들로 평가되었다.

Abstract

In this paper, we propose a new methodology for extracting and formalizing subjective topics at a specific time using a set of keywords extracted automatically from online news articles. To do this, we first extracted a set of keywords by applying TF-IDF methods selected by a series of comparative experiments on various statistical weighting schemes that can measure the importance of individual words in a large set of texts. In order to effectively calculate the semantic relation between extracted keywords, a set of word embedding vectors was constructed by using about 1,000,000 news articles collected separately. Individual keywords extracted were quantified in the form of numerical vectors and clustered by K-means algorithm. As a result of qualitative in-depth analysis of each keyword cluster finally obtained, we witnessed that most of the clusters were evaluated as appropriate topics with sufficient semantic concentration for us to easily assign labels to them.

2
오삼균(성균관대학교 문헌정보학과) ; 한상은(성균관대학교 문헌정보학과) ; 손태익(성균관대학교 학술정보관) ; 김성훈(성균관대학교 문헌정보학과) 2018, Vol.35, No.3, pp.165-187 https://doi.org/10.3743/KOSIM.2018.35.3.165
초록보기
초록

전거데이터 공동구축을 목표로 하는 많은 국내 연구가 시행되었음에도 불구하고 국가전거구축의 협업 환경은 표준 전거의 제정, 표준 전거 구축원칙의 제정, 기존 전거구축 기관의 업무 개편, 공동구축 업무의 핵심기관 선정 등과 같은 전제 조건의 미비로 인해 그 실질적 조성이 막혀 있다. 국가전거를 공동으로 구축하고 원활하게 활용하기 위해서는 기존 전거구축기관의 업무에 지장을 초래하지 않는 현실적 협업 방안과 지속적 추진력을 보유한 국가기관의 참여와 아울러 다수 기관의 데이터 병합을 가능케 하는 표준식별체계가 요구된다. 본 연구의 목적은 국가전거의 공동 구축을 위한 여건 조성에 있어서 필수사항이 무엇인가를 문헌조사로 밝히고, 시맨틱웹 기반으로 구축되어 상호운용성이 우수한 VIVO 온톨로지 모델의 활용을 통해 구현 가능한 국가전거 구축모델을 제시하는 것이다.

Abstract

Despite repeated efforts to develop a methodological foundation for assembling collaborative authority data in South Korea, issues such as the establishment of a standard authority model and standard authority construction as well as the reconfiguration of existing entities in authority building have prevented such research from generating a cooperative push for nation-wide authority data and progressing toward concrete implementation. The formulation of a collaborative and well-utilized collection of national authority data accordingly calls for 1) a practical approach to supporting both established authority data contributors and newly organized avenues of mutual participation in authority building, 2) committed involvement on the part of national institutions capable of providing the project with sustained assistance, and 3) a standard identification system which allows multiple organizations to merge their data. This study addresses the challenges of the current environment by taking stock of the key components necessary for the creation of collaborative authority data and using a Semantic Web-based interoperable VIVO ontology model to propose a viable national authority data framework.

3
정도헌(덕성여자대학교) ; 주황수(덕성여자대학교) 2018, Vol.35, No.3, pp.77-100 https://doi.org/10.3743/KOSIM.2018.35.3.077
초록보기
초록

본 연구는 텍스트 마이닝 기법을 활용하여 대량의 데이터로부터 학제 간 융합 기술을 발굴하는 일련의 과정을 제시하는 것을 목표로 한다. 바이오공학 기술(BT) 분야와 정보통신 기술(ICT) 분야 간의 융합 연구를 위해 (1) BT 분야의 기술용어 목록을 작성하여 대량의 학술논문 메타데이터를 수집한 후 (2) 패스파인더 네트워크 척도 알고리즘을 이용해 유망 기술의 지식 구조를 생성하고 (3) 토픽 모델링 기법을 사용하여 BT분야 중심의 내용 분석을 수행하였다. 다음 단계인 BT-ICT 융합 기술 아이템 도출을 위해, (4) BT-ICT 관련 정보를 얻기 위해 BT 기술용어 목록을 상위 개념으로 확장한 후 (5) OpenAPI 서비스를 이용하여 두 분야가 관련된 학술 정보의 메타데이터를 자동 수집하여 (6) BT-ICT 토픽 모델의 내용 분석을 실시하였다. 연구를 통해 첫째, 융합 기술의 발굴을 위해서는 기술 용어 목록의 작성이 중요한 지식 베이스가 된다는 점과 둘째, 대량의 수집 문헌을 분석하기 위해서는 데이터의 차원을 줄여 분석을 용이하게 해주는 텍스트 마이닝 기법이 필요하다는 점을 확인하였다. 본 연구에서 제안한 데이터 처리 및 분석 과정이 학제 간 융합 연구의 가능성이 있는 기술 요소들을 발굴하는 데 효과적이었음을 확인할 수 있었다.

Abstract

The objectives of this study is to present a discovering process of interdisciplinary convergence technology using text mining of big data. For the convergence research of biotechnology(BT) and information communications technology (ICT), the following processes were performed. (1) Collecting sufficient meta data of research articles based on BT terminology list. (2) Generating intellectual structure of emerging technologies by using a Pathfinder network scaling algorithm. (3) Analyzing contents with topic modeling. Next three steps were also used to derive items of BT-ICT convergence technology. (4) Expanding BT terminology list into superior concepts of technology to obtain ICT-related information from BT. (5) Automatically collecting meta data of research articles of two fields by using OpenAPI service. (6) Analyzing contents of BT-ICT topic models. Our study proclaims the following findings. Firstly, terminology list can be an important knowledge base for discovering convergence technologies. Secondly, the analysis of a large quantity of literature requires text mining that facilitates the analysis by reducing the dimension of the data. The methodology we suggest here to process and analyze data is efficient to discover technologies with high possibility of interdisciplinary convergence.

정보관리학회지