바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: extraction, 검색결과: 7
초록보기
초록

본 연구의 목적은 1) 소설 속 지명 데이터베이스(DB)를 구축하고, 2) 확장 가능한 지명 DB를 위해 자동으로 지명을 추출하여 데이터베이스를 갱신하며, 3) 데이터베이스 내의 소설지명과 용례를 검색하고 시각화하는 파일럿시스템을 구현하는 데 있다. 특히, 학습자료(training)에 해당하는 말뭉치(corpus)를 확보하기 어려운, 소설지명과 같이 현재 잘 쓰이지 않는 개체명을 자동으로 추출하는 것은 매우 어려운 문제이다. 효과적인 지명 정보 추출용 학습자료 말뭉치 확보 문제를 해결하기 위해 본 논문에서는 이미 수작업으로 구축된 웹 지식(어휘사전)을 활용하여 학습에 필요한 충분한 양의 학습말뭉치를 확보하는 방안을 적용하였다. 이렇게 확보된 학습용 코퍼스와 학습된 자동추출 모듈을 가지고, 새로운 지명 용례를 찾아 추가하는 지명 데이터베이스 확장 도구를 만들었으며, 소설지명을 지도 위에 시각화하는 시스템을 설계하였다. 또한, 시범시스템을 구현함으로써 실험적으로 그 타당성을 입증하였다. 끝으로, 현재 시스템의 보완점을 제시하였다.

Abstract

This study aimed to design a semi-automatic web-based pilot system 1) to build a Korean novel geo-name, 2) to update the database using automatic geo-name extraction for a scalable database, and 3) to retrieve/visualize the usage of an old geo-name on the map. In particular, the problem of extracting novel geo-names, which are currently obsolete, is difficult to solve because obtaining a corpus used for training dataset is burden. To build a corpus for training data, an admin tool, HTML crawler and parser in Python, crawled geo-names and usages from a vocabulary dictionary for Korean New Novel enough to train a named entity tagger for extracting even novel geo-names not shown up in a training corpus. By means of a training corpus and an automatic extraction tool, the geo-name database was made scalable. In addition, the system can visualize the geo-name on the map. The work of study also designed, implemented the prototype and empirically verified the validity of the pilot system. Lastly, items to be improved have also been addressed.

2
오유진(전북대학교) ; 오효정(전북대학교) ; 김종혁(전북대학교) ; 김용(전북대학교) 2016, Vol.33, No.1, pp.247-268 https://doi.org/10.3743/KOSIM.2016.33.1.247
초록보기
초록

Abstract

Although it has been a long subject of study why researchers prefer some cited documents to others, the existing relative researches have had a variety of perspectives on the nature and complexity of the citation behavior and not provided a complete answer to this question. In particular, Korea researchers mainly used statistical analysis of bibliographic information, which has limitations in revealing dynamic and complex cognitive aspects of the citation process. In this study, I investigate the citer perception of citing motives and bibliographic factors through survey and compared the responses according to the researchers’ characteristics. After extracting the 22 motivations and 21 factors through the literature analysis and configuring a 5-point Likert scale questions, I conducted a survey in the wat of an e-mail attachment. From the SPSS 22.0, the frequency analysis, t-test, and one-way ANOVA were performed on the 354 valid samples. As a result, it is found that supporting is considered the most important citing motive and social connection, self-citation have little influence. In the case of bibliographic factors, the journal’s reputation was recognized the most influential factor and the number of pages and authors was the least. Significant differences in fields of study and research careers were showed in some parts. These results can substantiate earlier studies, determine whether the factors assumed influential in selecting references were intended, and suggest the search point to the specialty library or academic database.

초록보기
초록

기록관리학은 전통적인 기록학과 문서관리, 디지털 데이터의 처리에 이르기까지 복합학적인 학문으로 재정립하였다. 본 연구에서는 국내 기록관리학 대표 학술지인 「한국기록관리학회지」와 「기록학연구」에 2000년부터 2015년까지 게재된 681편의 논문을 조사하여 기록관리 분야의 학제성과 주제 변화 추이에 대해 분석하였다. 이를 위해 두 학술지에 발표된 모든 논문으로부터 저자의 소속기관, 직업, 학문분야, 공저자, 그리고 주제 분야를 추출하였다. 분석방법으로 빈도분석과 네트워크 분석을 사용하였다. 분석 내용은 다음과 같다. 첫째, 두 학회지는 연구자 배경(소속 기관, 직업, 학문문야)에서 분명한 차이를 보인다. 둘째, 공동연구는 점차 증가하는 추세이며, 대학이 중심이 되어 연구가 이루어졌다. 셋째, 각 학회지별 주제 변화 추이를 살펴보았다. 마지막으로 각 기관별로 중심이 되는 주제 영역에 차이를 확인할 수 있었다.

Abstract

In recent years, Korea’s archives management is reestablished as an academic subject. This study presents the interdisciplinarity and the research trend of Archives management in Korea. For the study, 681 articles from Journal of Records Management & Archives Society of Korea and The Korean Journal of Archival Studies published between 2000 and 2015 is analyzed. In this articles, author’s background (agency, job, discipline) and subject is extracted. Cross- tabulation analysis and network analysis are used as major methods. The summary of the study is as follows: First, there are distinct difference between two journals about researcher’s backgrounds. Second, joint-research is gradually increasing and the majority of co-authors are belong to the university. Third, two journals show different research trend. Finally, each institution have different interest about specific subjects.

4
이재윤(명지대학교) 2016, Vol.33, No.3, pp.7-29 https://doi.org/10.3743/KOSIM.2016.33.3.007
초록보기
초록

연구자 성과 평가를 위해 널리 사용되는 h-지수는 일관성 부족 문제와 공저자 수를 고려하지 않는다는 문제를 가지고 있다. 이를 극복하기 위해 h-지수와 g-지수, 그리고 공저 보정 방안을 검토하고 2004년부터 2013년 사이의 실제 KCI 데이터를 대상으로 분석해본 결과는 다음과 같다. 첫째, 일관성 결여 문제를 해소하기 위해서는 g-지수를 사용하는 것이 더 바람직하다고 판단된다. 둘째, 연구 성과의 양적인 측면과 질적인 측면을 한꺼번에 반영하는 복합 지수라는 h-지수와 g-지수의 고유한 특성을 유지하기 위해서는 반드시 공저를 보정하여 지수를 측정해야 한다. 셋째, 공저자 수로 나눈 인용빈도를 사용하는 hC-지수와 gC-지수를 적용하면 단독 저술 비중이 높은 인문학 분야 연구자도 공정하게 평가할 수 있고, 특정 분야나 특정 기관에 속한 연구자가 상위 순위를 과점하는 현상을 방지할 수 있다.

Abstract

The h-index is a popular bibliometric indicator for evaluating individual researchers. However, it has been criticized for its inconsistency with reflecting increased number of citations and disregarding the number of co-authors in a paper. In order to overcome these problems, we examined the g-index and other Hirsch-type indices considering the number of co-authors. Test data collection was extracted from Korean Citation Index database published from 2004 to 2013. The results of this study are as follows: First, g-index is more reliable indicator than h-index with consistency. Second, number of co-authors must be considered to maintain the h-index as an complex indicator applying the quality and the quantity of research performance. Finally, hc-index and gc-index, with fractionalised counting of the papers, can fairly measure the research performance of humanities researchers, and successfully prevent specific disciplines or institutions occupying majority of top rankings.

5
이지연(연세대학교) ; 감미아(연세대학교) ; 한남기(연세대학교) ; 송한나(연세대학교) 2016, Vol.33, No.2, pp.177-200 https://doi.org/10.3743/KOSIM.2016.33.2.177
초록보기
초록

본 연구는 학제성이 강한 HCI 연구 내에서 문헌정보학 분야 연구가 수행한 연구내용과 역할을 분석하고 향후 타 학문분야와의 협력 가능성 및 수행 가능한 연구주제를 살펴보고자 하였다. 연구에서 사용된 데이터는 문헌정보학 분야의 대표적인 국내 학술지 및 한국HCI학회 학술대회의 발표논문집에서 추출한 키워드와 소속 정보이며, 이들을 활용하여 네트워크 분석과 빈도 분석을 하였다. 국내 HCI 분야에서는 정보통신, 컴퓨터공학, 기술산업 등이 활발한 교류를 보이고 있었으며, 문헌정보학은 연구 협력에 있어서 비교적 소극적이었다. 문헌정보학 연구의 HCI 분야 내 역할을 살펴본 결과, 타 분야와 협력이 필요한 전문적인 주제에 대해서는 그 관심도가 높지 않음을 발견했다. 그러나 문헌정보학 분야 학술지에 타 학문분야 연구자들이 HCI 관련 논문을 다수 게재했다는 점과 기술산업 분야와도 어느 정도 연결성을 가지고 있다는 점에서, 향후 문헌정보학 분야가 기술산업 등 타 분야와의 협력을 통한 공동연구를 적극적으로 수행한다면 학계 간의 연구주제 확장 및 발전에 기여할 수 있음을 발견하였다.

Abstract

The purpose of this study was to analyze how the Library and Information Science (LIS) related research efforts in Korea contributed to the progress of the Human Computer Interaction (HCI) discipline to identify the potential collaboration research partners and topics. The following data was used for the network and frequency analysis: titles, keywords and affiliation information extracted from the Korean journals serving the LIS fields as well as the conference proceedings of the Korean HCI society. Information communication technology, computer engineering, and technology industry had been active in research collaborations but LIS field was comparatively not active. This study was able to determine that LIS researchers carried out important research but they had not much interests in the topics that required interdisciplinary collaboration. However, there were a number of papers, which were not authored by LIS discipline researchers, in the LIS related journals. In addition, there are a few ongoing interdisciplinary research projects which included LIS researchers. This reveals that it is possible for the LIS field could play an important role in the future if the researchers actively participate the collaborative projects.

6
진설아(과학기술정책연구원) ; 송민(연세대학교) 2016, Vol.33, No.1, pp.7-32 https://doi.org/10.3743/KOSIM.2016.33.1.007
초록보기
초록

본 연구는 인용 정보와 주제범주 분류체계를 기반으로 한 기존 하향식 접근법과 달리 문헌에 출현한 단어정보를 기반으로 세부주제를 자동 추출하는 토픽 모델링을 사용하여 학제성을 측정하였다. JCR 2013의 Information & Library Science 주제범주에서 5년 영향력 지수 상위 20개 학술지의 최근 5년 동안의 논문 제목과 초록 텍스트를 분석대상으로 사용하였다. 학제성을 측정하기 위한 지수로 ‘분야적 다양성’을 나타내는 Shannon 엔트로피 지수와 Stirling 다양성 지수, ‘네트워크 응집성’을 나타내는 지수로는 토픽 네트워크의 평균 경로길이를 사용하였다. 계산된 다양성과 응집성 지수를 통해 학제성의 유형을 분류한 후 각 유형을 대표하는 학술지들의 토픽 네트워크를 비교하였다. 이를 통해 본 연구의 텍스트 기반 다양성 지수는 기존의 인용정보 기반 다양성 지수와 다른 양상을 보이고 있어 상호보완적으로 활용될 수 있으며, 다양성과 응집성을 모두 고려하여 분류된 각 학술지의 토픽 네트워크를 통해 개별 학술지가 다루는 세부주제의 특성과 연결 정도를 직관적으로 파악할 수 있었다. 이를 통해 토픽 모델링을 통한 텍스트 기반의 학제성 측정이 학술지의 학제성을 나타내는 데에 다양한 역할이 가능함을 확인하였다.

Abstract

This study has measured interdisciplinarity using a topic modeling, which automatically extracts sub-topics based on term information appeared in documents group unlike the traditional top-down approach employing the references and classification system as a basis. We used titles and abstracts of the articles published in top 20 journals for the past five years by the 5-year impact factor under the category of ‘Information & Library Science’ in JCR 2013. We applied ‘Discipline Diversity’ and ‘Network Coherence’ as factors in measuring interdisciplinarity; ‘Shannon Entropy Index’ and ‘Stirling Diversity Index’ were used as indices to gauge diversity of fields while topic network’s average path length was employed as an index representing network cohesion. After classifying the types of interdisciplinarity with the diversity and cohesion indices produced, we compared the topic networks of journals that represent each type. As a result, we found that the text-based diversity index showed different ranking when compared to the reference-based diversity index. This signifies that those two indices can be utilized complimentarily. It was also confirmed that the characteristics and interconnectedness of the sub-topics dealt with in each journal can be intuitively understood through the topic networks classified by considering both the diversity and cohesion. In conclusion, the topic modeling-based measurement of interdisciplinarity that this study proposed was confirmed to be applicable serving multiple roles in showing the interdisciplinarity of the journals.

7
최예진(이화여자대학교 문헌정보학과) ; 정연경(이화여자대학교) 2016, Vol.33, No.3, pp.63-83 https://doi.org/10.3743/KOSIM.2016.33.3.063
초록보기
초록

다양한 매체와 유형으로 생산되는 정보자원에 대한 이용이 높아짐에 따라, 정보자원을 기술하기 위한 정보조직의 도구로서 메타데이터에 대한 중요성이 높아지고 있다. 본 연구에서는 메타데이터 분야의 연구 영역을 파악할 수 있도록 동시출현단어 분석을 사용하여 메타데이터 분야의 지적 구조를 규명하고자 하였다. 이를 위하여 1998년 1월 1일부터 2016년 7월 8일까지 Web of Science 핵심컬렉션에 등재된 저널에 게재된 문헌을 대상으로 ‘metadata’라는 질의어로 Topic 검색을 수행하여, 총 727건의 논문에 대한 서지정보를 수집하였다. 이 중 저자 키워드를 가진 410건의 논문의 저자 키워드로 수집하고, 전처리 과정을 거쳐 저자 키워드 총 1,137개를 추출하여 최종적으로 빈도수 6회 이상의 키워드 37개를 분석대상으로 선정하였다. 이후 메타데이터 분야의 지적구조 규명을 위해 첫째, 네트워크 분석을 통하여 2개 영역 9개 군집을 도출하였으며, 메타데이터 분야 키워드들의 지적 관계를 시각화하고, 중심성 분석을 통한 전역 중심 키워드와 지역 중심이 높은 키워드를 제시하였다. 둘째, 군집분석을 실시하여 형성된 6개의 군집을 다차원축적지도상에 표시하였으며, 각 키워드들 간의 상관관계에 따른 지적구조를 제시하였다. 이러한 연구의 결과는 메타데이터 분야의 지적구조를 시각적으로 파악할 수 있게 하며, 향후 메타데이터 관련 교육과 연구의 방향성 모색에 유용하게 사용될 수 있을 것이다.

Abstract

As the usage of information resources produced in various media and forms has been increased, the importance of metadata as a tool of information organization to describe the information resources becomes increasingly crucial. The purposes of this study are to analyze and to demonstrate the intellectual structure in the field of metadata through co-word analysis. The data set was collected from the journals which were registered in the Core collection of Web of Science citation database during the period from January 1, 1998 to July 8, 2016. Among them, the bibliographic data from 727 journals was collected using Topic category search with the query word ‘metadata’. From 727 journal articles, 410 journals with author keywords were selected and after data preprocessing, 1,137 author keywords were extracted. Finally, a total of 37 final keywords which had more than 6 frequency were selected for analysis. In order to demonstrate the intellectual structure of metadata field, network analysis was conducted. As a result, 2 domains and 9 clusters were derived, and intellectual relations among keywords from metadata field were visualized, and proposed keywords with high global centrality and local centrality. Six clusters from cluster analysis were shown in the map of multidimensional scaling, and the knowledge structure was proposed based on the correlations among each keywords. The results of this study are expected to help to understand the intellectual structure of metadata field through visualization and to guide directions in new approaches of metadata related studies.

정보관리학회지