바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 추출, 검색결과: 97
초록보기
초록

본 연구의 목적은 1) 소설 속 지명 데이터베이스(DB)를 구축하고, 2) 확장 가능한 지명 DB를 위해 자동으로 지명을 추출하여 데이터베이스를 갱신하며, 3) 데이터베이스 내의 소설지명과 용례를 검색하고 시각화하는 파일럿시스템을 구현하는 데 있다. 특히, 학습자료(training)에 해당하는 말뭉치(corpus)를 확보하기 어려운, 소설지명과 같이 현재 잘 쓰이지 않는 개체명을 자동으로 추출하는 것은 매우 어려운 문제이다. 효과적인 지명 정보 추출용 학습자료 말뭉치 확보 문제를 해결하기 위해 본 논문에서는 이미 수작업으로 구축된 웹 지식(어휘사전)을 활용하여 학습에 필요한 충분한 양의 학습말뭉치를 확보하는 방안을 적용하였다. 이렇게 확보된 학습용 코퍼스와 학습된 자동추출 모듈을 가지고, 새로운 지명 용례를 찾아 추가하는 지명 데이터베이스 확장 도구를 만들었으며, 소설지명을 지도 위에 시각화하는 시스템을 설계하였다. 또한, 시범시스템을 구현함으로써 실험적으로 그 타당성을 입증하였다. 끝으로, 현재 시스템의 보완점을 제시하였다.

Abstract

This study aimed to design a semi-automatic web-based pilot system 1) to build a Korean novel geo-name, 2) to update the database using automatic geo-name extraction for a scalable database, and 3) to retrieve/visualize the usage of an old geo-name on the map. In particular, the problem of extracting novel geo-names, which are currently obsolete, is difficult to solve because obtaining a corpus used for training dataset is burden. To build a corpus for training data, an admin tool, HTML crawler and parser in Python, crawled geo-names and usages from a vocabulary dictionary for Korean New Novel enough to train a named entity tagger for extracting even novel geo-names not shown up in a training corpus. By means of a training corpus and an automatic extraction tool, the geo-name database was made scalable. In addition, the system can visualize the geo-name on the map. The work of study also designed, implemented the prototype and empirically verified the validity of the pilot system. Lastly, items to be improved have also been addressed.

초록보기
초록

본 연구는 웹에서 접근 가능한 내용기반 음악검색(CBMR) 시스템들을 조사하여, 탐색질의의 종류, 접근점, 입출력, 탐색기능, 데이터베이스 성격과 크기 등의 관점에서 특성을 비교 분석하고자 하였다. 비교 분석에 사용된 특성을 추출하기 위해 내용기반 음악정보의 특성과 시스템 구축에 필요한 파일의 변환, 멜로디 추출 및 분할, 색인자질 추출과 색인, 매칭에 사용되는 기술들을 선행연구로 리뷰하였다. 15개의 시스템을 분석한 결과 다음과 같은 특성과 문제점이 분석되었다. 첫째, 도치색인, N-gram 색인, 불리언 탐색, 용어절단검색, 키워드 및 어구 탐색, 음길이 정규화, 필터링, 브라우징, 편집거리, 정렬과 같은 텍스트 정보 검색 기법이 CBMR에서도 검색성능을 향상시키는 도구로 사용되고 있었다. 둘째, 시스템들은 웹에서 크롤링하거나 탐색질의를 DB에 추가하는 등으로 DB의 성장과 실용성을 위한 노력을 하고 있었다. 셋째, 개선되어야 할 문제점으로 선율이나 주선율을 추출하는데 부정확성, 색인자질을 추출할 때 사용되는 불용음(stop notes)을 탐색질의에서도 자동 제거할 필요성, 옥타브를 무시한 solfege 검색의 문제점 등이 분석되었다.

Abstract

This study compared and analyzed 15 CBMR (Content-based Music Retrieval) systems accessible on the web in terms of DB size and type, query type, access point, input and output type, and search functions, with reviewing features of music information and techniques used for transforming or transcribing of music sources, extracting and segmenting melodies, extracting and indexing features of music, and matching algorithms for CBMR systems. Application of text information retrieval techniques such as inverted indexing, N-gram indexing, Boolean search, truncation, keyword and phrase search, normalization, filtering, browsing, exact matching, similarity measure using edit distance, sorting, etc. to enhancing the CBMR; effort for increasing DB size and usability; and problems in extracting melodies, deleting stop notes in queries, and using solfege as pitch information were found as the results of analysis.

23
박상규(중앙대학교) ; 김성희(중앙대학교) ; 이찬규(중앙대학교) ; 이준호(숭실대학교) ; 윤경현(중앙대학교) 2007, Vol.24, No.4, pp.255-265 https://doi.org/10.3743/KOSIM.2007.24.4.255
초록보기
초록

본 연구에서는 12개의 표본 비디오 집단과 14명의 피조사자들을 이용하여 영상 초록 및 전체 클립 보기를 통한 색인어 및 요약문 추출의 정확도를 측정해 보았다. 측정 결과 첫째, 비디오 유형에 따라 정확도가 차이가 있는 것으로 나타났으며 이는 이미지에 주로 의존하여 정보를 표출하는 비디오의 경우 텍스트 초록만으로 의미 파악을 하기에는 한계가 있으며 텍스트 초록이 영상 초록과 함께 사용되었을 때 시너지 효과를 낼 수 있음을 보여주고 있다. 둘째, 영상 초록의 색인어 및 요약문 정확도가 전체 클립의 정확도 보다 떨어지지만 절반치에 근접한 것으로 나타나 영상 초록이 비디오 의미 추출에 효율적으로 활용될 수 있음을 확인하였다. 또한 영상 초록의 색인어 정확도(0.45)가 요약문 정확도(0.40) 보다 더 높게 나타나 영상 초록을 통해서 색인어 추출 작업을 더 효율적으로 할 수 있음을 확인할 수 있었다. 이러한 실험 결과에 기초하여 영상 초록이 색인어 또는 요약문 추출 작업에 활용될 수 있을 뿐만 아니라, 디지털 도서관 환경에서 텍스트 초록과 같은 다른 메타데이터 요소들과 함께 사용된다면 이용자의 적합성 판정을 좀 더 용이하게 할 것이며, 더 나아가 영상 질의의 매칭 자료로도 이용될 수 있음을 제안하였다. 끝으로 영상 초록의 품질을 높이기 위한 키프레임 추출 알고리즘 및 키프레임 배열 모형 설계 등 후속 연구에 대해서 제언하였다.

Abstract

This study is designed to assess whether storyboard surrogates are useful enough to be utilized for indexing sources as well as for metadata elements using 12 sample videos and 14 participants. Study shows that first, the match rates of index terms and summaries are significantly different according to video types, which means storyboard surrogates are especially useful for the type of videos of conveying their meanings mainly through images. Second, participants could assign subject keywords and summaries to digital video, sacrificing a little loss of full video clips' match rates. Moreover, the match rate of index terms (0.45) is higher than that of summaries (0.40). This means storyboard surrogates could be more useful for indexing videos rather than summarizing them. The study suggests that 1)storyboard surrogates can be used as sources for indexing and abstracting digital videos; 2) using storyboard surrogates along with other metadata elements (e.g., text-based abstracts) can be more useful for users' relevance judgement; and 3)storyboard surrogates can be utilized as match sources of image-based queries. Finally, in order to improve storyboard surrogates quality, this study proposes future studies: constructing key frame extraction algorithms and designing key frame arrangement models.

24
변우영(명지대학교 기록정보관리학과) ; 임진희(명지대학교 기록정보과학전문대학원) 2022, Vol.39, No.1, pp.195-217 https://doi.org/10.3743/KOSIM.2022.39.1.195
초록보기
초록

SIARD_KR은 스위스 연방 기록보존소에서 개발한 관계형 데이터베이스 컨텐츠의 장기보존에 이용하는 기술인 SIARD를 우리나라의 실정에 맞게 일부 수정한 행정정보 데이터세트 보존 도구이다. 기존의 선행연구는 SIARD가 얼마나 관계형 데이터베이스안에 들어있는 모든 데이터를 손실 없이 잘 추출할 수 있는지에 초점이 맞춰져 있다. 하지만 데이터베이스에 들어있는 데이터 전부가 의미 있는 정보, 즉 행정정보 데이터세트는 아니다. 따라서 이 논문은 SIARD_KR이 행정정보 데이터세트의 특성을 반영하고 있는가에 대한 문제의식에서 시작한다. SIARD_KR이 단순히 DB에 저장된 데이터를 추출하는 도구가 아니고 의미 있는 정보만을 식별하여 추출할 수 있을지, 본래의 시스템에서 유리되어도 의미 있는 정보를 유지할 수 있을지 확인하려 한다. 본 논문은 SIARD_KR의 구조를 분석하고, 예상되는 문제점을 도출하여 그에 대한 개선방안을 제시하는 것을 목적으로 한다.

Abstract

SIARD_KR is an administrative information dataset preservation tool. It is a partially modified version of SIARD, technology used for long-term preservation of relational databases developed by the Swiss Federal Archives, to suit Korea’s situation better. Previous studies have focused on how SIARD is able to effectively extract all data contained in the relational database without loss. However, not all data contained in the database is meaningful information, that is, an administrative information dataset. This paper began, therefore, with the awareness of the problem of whether SIARD_KR reflects the characteristics of the administrative information dataset. SIARD_KR is not only a tool for extracting data stored in the DB. We want to see if it is capable of identifying and extracting only meaningful information, and maintaining meaningful information, even if it is separated from the original system. The purpose of this paper is to analyze the structure of SIARD_KR, identify expected problems, and suggest improvement measures for them.

초록보기
초록

본 연구는 공공기관에서 생산되는 기록물로서 가장 일반적이고 대표적인 공문서를 효율적으로 관리하고 활용할 수 있도록 생산단계에서 메타데이터 정보를 획득, 관리하는데 그 목적이 있다. 공문서는 행정정보의 근원이면서 생산기관의 의사결정을 표현하고 실현하는 핵심주체로서, 생산된 공문서는 체계적으로 관리함과 동시에 효율적으로 활용할 수 있는 시스템이 구축되어야 한다. 이를 위해 공문서 관련 주요 양식의 구조 분석을 통해 항목별로 관련 데이터 요소를 추출하였으며, 추출된 요소는 국제표준기록물 기술의 데이터 요소와 상호 비교, 분석하여 공문서의 생산배경 및 의도, 특징 등이 충분히 반영된 공문서 메타데이터 요소를 영역별로 구분하여 선정하였다. 이는 향후 우리나라 환경에 적합한 표준화된 기록물 메타데이터를 구축하는데 유용한 기초자료로 활용할 수 있을 것이다.

Abstract

This study aims to collect and manage in the step of creation metadata information to effectively manage and use official document which is a typical and normal records. To do it, data elements are extracted through analyzing structure of official document format. And we also select metadata elements reflecting creation background, publisher's intention, characteristic of official documents through evaluating and comparing extracted elements with data elements defined in ISAD rules. It would be draft data in constructing standardized metadata structure for records in Korea.

26
지선영(경기대학교 일반대학원 문헌정보학과) ; 최성필(경기대학교 문헌정보학과) 2021, Vol.38, No.1, pp.221-242 https://doi.org/10.3743/KOSIM.2021.38.1.221
초록보기
초록

본 연구에서는 사전학습 된 언어 모델을 기반으로 양방향 게이트 순환 유닛 모델과 조건부 랜덤 필드 모델을 활용하여 참고문헌을 구성하는 메타데이터를 자동으로 인식하기 위한 연구를 진행하였다. 실험 집단은 2018년에 발행된 학술지 40종을 대상으로 수집한 PDF 형식의 학술문헌 53,562건을 규칙 기반으로 분석하여 추출한 참고문헌 161,315개이다. 실험 집합을 구축하기 위하여 PDF 형식의 학술 문헌에서 참고문헌을 분석하여 참고문헌의 메타데이터를 자동으로 추출하는 연구를 함께 진행하였다. 본 연구를 통하여 가장 높은 성능을 나타낸 언어 모델을 파악하였으며 해당 모델을 대상으로 추가 실험을 진행하여 학습 집합의 규모에 따른 인식 성능을 비교하고 마지막으로 메타데이터별 성능을 확인하였다.

Abstract

This study applied reference metadata recognition using bidirectional GRU-CRF model based on pre-trained language model. The experimental group consists of 161,315 references extracted by 53,562 academic documents in PDF format collected from 40 journals published in 2018 based on rules. In order to construct an experiment set. This study was conducted to automatically extract the references from academic literature in PDF format. Through this study, the language model with the highest performance was identified, and additional experiments were conducted on the model to compare the recognition performance according to the size of the training set. Finally, the performance of each metadata was confirmed.

27
김현희(명지대학교) ; 장우권(전남대학교) ; 곽병희(전북대학교) ; 안태경(대외경제정책연구원) 2005, Vol.22, No.3, pp.103-127 https://doi.org/10.3743/KOSIM.2005.22.3.103
초록보기
초록

본 연구에서는 두 단계를 거쳐서, 즉 리포지토리 운영에 필요한 이슈들을 제시한 SPARC 체크리스트 문헌 등을 분석하고(제 1 단계), 16개 국내외 대학의 리포지토리 운영현황을 사례 연구를 통해서 살펴본 후(제 2 단계), 리포지토리 운영에 중요한 여섯가지 요인을 추출하였다. 추출된 여섯가지 요인인 ①학내 합의 형성과 운영 체제, ②콘텐츠, ③지식 재산권, ④학내 동종 사업과의 제휴, ⑤기술과 시스템 및 ⑥도서리를 앞으로 구축할 계획 중인 대학은 물론 이미 구축된 리포지토리를 다각적으로 검토하여 활성화 방안을 모색하고 있는 대학에 하나의 지침이 될 것이다.

Abstract

The purpose of the study is to implement the management model o f the institutional repositories for the efficient di ational knowledge focusing on the dCollection system which is operated by KERIS (service provider ). In order to build the management model, the two steps were utilized. The first step is to investigate the checklists epository implementation through literature review. On the other hand, the second one is to sur vey the current status of the sixteen domestic and foreign in stitutional repositories through interviews, surveys and email hrough the two steps, the management model including six components such as content and l ibrarian role was proposed. The proposed management model will be utilized to suply guide s both to the universities which plan to build their institutional repositories and to the universities which try to promote the activities of their repositories.

초록보기
초록

본 연구에서는 기관 레포지터리의 운영을 활성화시키기 위한 품질관리 요인들을 추출하고 그 중에서 유의미한 영향을 미치는 핵심 품질 관리 요인을 재추출하였다. 그리고 핵심 품질 관리 요인의 개선안을 반영한 운영모형을 개발하여 이용자에게 미치는 효과를 파악하였다. 개발된 기관 레포지터리 운영모형과 시스템 전반에 대한 만족도를 검증한 결과 일반 이용자보다 사서의 만족도가 더 높게 나타났다. 국내 대학은 저작자의 셀프 아카이빙 제출 방식보다는 사서의 대행 제출 방식을 선호하고 있다. 따라서 본 연구에서 개발된 운영 모형을 기반으로 국내 대학도서관의 사서를 중심으로 한 기관 레포지터리 운영 활성화가 촉진될 수 있을 것이다.

Abstract

This study extracted quality control factors for invigorating Institutional Repository operations, and re-extracted key quality control factors with significant influence among them. Furthermore, this study developed an operating model reflecting an improvement scheme of these key quality control factors, and estimated how much effective the operating model was to the user. As a result of inspecting satisfaction for IR operating model and the general system, it has been found that librarians’ satisfaction for them is higher than that of the general user. Korea’s universities prefer a proxy submission mode by librarians to a self-archiving submission mode by writers. Therefore, based on the operation model developed by this study, it is suggested that Institutional Repository operation can be actively invigorated with librarians of these universities as central players.

29
신유미(상명대학교 문헌정보학과) ; 박옥남(상명대학교) 2019, Vol.36, No.2, pp.105-131 https://doi.org/10.3743/KOSIM.2019.36.2.105
초록보기
초록

본 연구는 장서개발관리 분야의 최근 연구동향을 분석함으로써 핵심 연구주제를 파악하고 학문의 지적구조를 규명하고자 하였다. 2003년부터 2017년까지 15년간 문헌정보학 분야 4개 학회지에 등재된 논문 중 장서개발관리 분야의 키워드를 가진 연구논문을 선정하여 저자키워드를 추출하였다. 추출된 저자키워드를 가지고 NetMiner4 프로그램을 이용하여 키워드 네트워크를 구성한 뒤 빈도분석, 연결중심성 분석, 매개중심성 분석을 수행하였다. 분석은 시간의 흐름에 따른 연구 변화를 살펴보기 위하여 2003년부터 2017년까지 전 구간을 대상으로 한 분석과 5년 단위의 3구간으로 나누어 살펴보았다. 연구결과, ‘오픈액세스’, ‘기관 레포지터리’, ‘학술지’ 등의 장서개발관리 분야의 핵심키워드를 파악하고, ‘대학도서관’ 등의 계속 연구될 분야의 주제어를 파악하였다.

Abstract

The purpose of this study is to investigate the development direction of future scholarship by analyzing recent research trends in collection development and management field using keyword network analysis. Data was collected from four journals in library and information science field during period of 2003 to 2017. Related articles of Collection Development and Management field were retrieved, and author keywords were extracted from selected papers. Keyword network analysis using NetMiner4 program was performed based on frequency analysis, connection-centered analysis, and parametric analysis. The analysis covers all sections from 2003 to 2017 to look at the changes in research over time, and three sections on five-year basis. As a result, main keywords such as ‘open access’, ‘institutional repository’ and ‘academic journals’ were identified, and topics to be continuously researched were identified.

30
김용(전북대학교) ; 김늘봄(정읍시립도서관) ; 이태영(전북대학교) 2008, Vol.25, No.4, pp.87-113 https://doi.org/10.3743/KOSIM.2008.25.4.087
초록보기
초록

본 연구는 호주 이메일메타데이터표준 및 한국기록관리메타데이터 표준에 기반하여 국제표준을 준용하는 이메일기록에 대한 표준화된 메타데이터요소를 개발하는데 있다. 이러한 목표를 달성하기 위하여 본 연구에서는 기록관리 및 기록물 메타데이터와 관련된 국제표준인 ISO 15489와 ISO 23081을 분석 및 조사하였다. 두 번째로, 국내 공공기관에서 생산된 이메일기록에 대한 특징을 추출하기 위하여 사례연구를 수행하였다. 또한, 호주의 이메일 메타데이터표준에 대한 상대평가 연구를 수행하였다. 위의 과정을 통하여 추출된 결과와 함께, 본 연구에서는 이메일기록에 대한 관리를 위한 필수 및 선택적 메타데이터요소를 제안하였다. 또한 제안된 이메일 메타데이터요소에 적용 가능한 XML DTD를 개발하였다. 한편, 제안된 이메일 메타데이터요소는 한국의 지방자치단체의 행정정보시스템에서 생산된 실제 이메일기록에 적용하였다.

Abstract

The purpose of this paper is to develop standardized metadata elements of e-mail records with respect to international standards based on analyzing the Australian Government Email Metadata Standard(AGEMS) elements and Korean Records Management Metadata Standard including e-mail records. To achieve the goal, we investigated and analyzed ISO15489 and ISO 23081 which are the international standard related to records and metadata of records. Second, a case study related to the features of e-mail records produced in public institutions in Korea was performed. Third, we made a comparative study of Australian Government Email Metadata Standard(AGEMS). With the results, we proposed mandatory and optional metadata elements for managing e-mail records. Also, the DTD of proposed metadata elements were developed. The proposed metadata elements of e-mail was applied to e-mails which were produced from a administrative information system of a local government in Korea.

정보관리학회지