바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: extraction, 검색결과: 5
1
변우영(명지대학교 기록정보관리학과) ; 임진희(명지대학교 기록정보과학전문대학원) 2022, Vol.39, No.1, pp.195-217 https://doi.org/10.3743/KOSIM.2022.39.1.195
초록보기
초록

SIARD_KR은 스위스 연방 기록보존소에서 개발한 관계형 데이터베이스 컨텐츠의 장기보존에 이용하는 기술인 SIARD를 우리나라의 실정에 맞게 일부 수정한 행정정보 데이터세트 보존 도구이다. 기존의 선행연구는 SIARD가 얼마나 관계형 데이터베이스안에 들어있는 모든 데이터를 손실 없이 잘 추출할 수 있는지에 초점이 맞춰져 있다. 하지만 데이터베이스에 들어있는 데이터 전부가 의미 있는 정보, 즉 행정정보 데이터세트는 아니다. 따라서 이 논문은 SIARD_KR이 행정정보 데이터세트의 특성을 반영하고 있는가에 대한 문제의식에서 시작한다. SIARD_KR이 단순히 DB에 저장된 데이터를 추출하는 도구가 아니고 의미 있는 정보만을 식별하여 추출할 수 있을지, 본래의 시스템에서 유리되어도 의미 있는 정보를 유지할 수 있을지 확인하려 한다. 본 논문은 SIARD_KR의 구조를 분석하고, 예상되는 문제점을 도출하여 그에 대한 개선방안을 제시하는 것을 목적으로 한다.

Abstract

SIARD_KR is an administrative information dataset preservation tool. It is a partially modified version of SIARD, technology used for long-term preservation of relational databases developed by the Swiss Federal Archives, to suit Korea’s situation better. Previous studies have focused on how SIARD is able to effectively extract all data contained in the relational database without loss. However, not all data contained in the database is meaningful information, that is, an administrative information dataset. This paper began, therefore, with the awareness of the problem of whether SIARD_KR reflects the characteristics of the administrative information dataset. SIARD_KR is not only a tool for extracting data stored in the DB. We want to see if it is capable of identifying and extracting only meaningful information, and maintaining meaningful information, even if it is separated from the original system. The purpose of this paper is to analyze the structure of SIARD_KR, identify expected problems, and suggest improvement measures for them.

2
심지영(연세대학교 대학도서관발전연구소) 2022, Vol.39, No.2, pp.299-324 https://doi.org/10.3743/KOSIM.2022.39.2.299
초록보기
초록

본 연구는 기존의 도서추천 시스템 연구에서 간과되어 온 도서이용의 맥락 요소를 파악하기 위해, 다양한 도서탐색 배경을 지닌 적극적인 도서 이용자 15명을 대상으로 6가지 도서탐색 상황에서 생성하는 내용을 사고구술(think-aloud) 프로토콜을 통해 수집하였다. 수집된 도서이용 내용은 내용분석 과정을 통해 독자자문 서비스의 이론적 개념인 ‘어필 요소(appeal factor)’를 토대로 도서이용에 영향을 미치는 내부 어필 요소와 외부 어필 요소를 각각 식별하였으며, 도서탐색에 사용하는 정보원과 탐색방법 관련 개념들을 또한 세분화하였다. 본 연구의 결과는 향후 도서추천 시스템 설계에 의미 있는 속성 데이터를 추출하고 반영하는 데 사용될 수 있을 것이다.

Abstract

In this study, in order to explore the contextual elements of book use that were overlooked in the existing book recommender system research, for 15 avid readers with various book search backgrounds, the contents generated in 6 book search situations were collected through the think-aloud protocol. By using content analysis from the collected book use contents, not only the internal and external appeal factors affecting book use, based on the ‘appeal factor’, the theoretical concept of the readers’ advisory service, but also information sources and search methods regarding book use were identified and categorized. The results of this study can be used to extract and reflect meaningful attribute data in the future book recommender system design process.

3
김선욱(경북대학교 사회과학대학 문헌정보학과) ; 양기덕(영남고문헌아카이브센터) 2022, Vol.39, No.3, pp.99-132 https://doi.org/10.3743/KOSIM.2022.39.3.099
초록보기
초록

본 연구의 목적은 LDA 토픽모델링 결과와 BERTopic 토픽모델링 결과를 합성하는 방법론인 Augmented and Extended Topics(AET)를 제안하고, 이를 사용해 문헌정보학 분야의 연구주제를 분석하는 데 있다. AET의 실제 적용결과를 확인하기 위해 2001년 1월부터 2021년 10월까지의 Web of Science 내 문헌정보학 학술지 85종에 게재된 학술논문 서지 데이터 55,442건을 분석하였다. AET는 서로 다른 토픽모델링 결과의 관계를 WORD2VEC 기반 코사인 유사도 매트릭스로 구축하고, 매트릭스 내 의미적 관계가 유효한 범위 내에서 매트릭스 재정렬 및 분할 과정을 반복해 증강토픽(Augmented Topics, 이하 AT)을 추출한 뒤, 나머지 영역에서 코사인 유사도 평균값 순위와 BERTopic 토픽 규모 순위에 대한 조화평균을 통해 확장토픽(Extended Topics, 이하 ET)을 결정한다. 최적 표준으로 도출된 LDA 토픽모델링 결과와 AET 결과를 비교한 결과, AT는 LDA 토픽모델링 토픽을 한층 더 구체화하고 세분화하였으며 ET는 유효한 토픽을 발견하였다. AT(Augmented Topics)의 성능은 LDA 이상이었으며 ET(Extended Topics)는 일부 경우를 제외하고 대부분 LDA와 유사한 수준의 성능을 나타내었다.

Abstract

The purpose of this study is to propose AET (Augmented and Extended Topics), a novel method of synthesizing both LDA and BERTopic results, and to analyze the recently published LIS articles as an experimental approach. To achieve the purpose of this study, 55,442 abstracts from 85 LIS journals within the WoS database, which spans from January 2001 to October 2021, were analyzed. AET first constructs a WORD2VEC-based cosine similarity matrix between LDA and BERTopic results, extracts AT (Augmented Topics) by repeating the matrix reordering and segmentation procedures as long as their semantic relations are still valid, and finally determines ET (Extended Topics) by removing any LDA related residual subtopics from the matrix and ordering the rest of them by (BERTopic topic size rank, Inverse cosine similarity rank). AET, by comparing with the baseline LDA result, shows that AT has effectively concretized the original LDA topic model and ET has discovered new meaningful topics that LDA didn’t. When it comes to the qualitative performance evaluation, AT performs better than LDA while ET shows similar performances except in a few cases.

4
김은진(한국법제연구원 기록물관리전문요원) ; 구정화(한남대학교 문헌정보학과) 2022, Vol.39, No.4, pp.159-189 https://doi.org/10.3743/KOSIM.2022.39.4.159
초록보기
초록

본 연구는 인류의 자산이자 중요기록물인 세계기록유산의 홍보활동을 활성화하기 위한 초기 연구로, 국내 세계기록유산의 웹사이트를 통한 온라인 홍보현황을 파악하고 개선방안을 제안하였다. 세계기록유산의 홍보의 의미를 정의하고 문헌연구를 통해 현황 분석을 위한 기준을 도출하였다. 홍보활동 분석영역을 홍보내용, 홍보유형, 홍보매체으로 나누고 세부 홍보항목과 내용을 설정하였다. 도출된 분석기준을 바탕으로 국내 세계기록유산을 소장 관리하고 있으며 온라인홍보 활동을 수행하고 있는 11개 기관의 21개 웹사이트를 분석하였다. 분석 결과 내용을 바탕으로 첫째, 세계기록유산의 홍보내용에는 보존가치와 활용가치가 상호 강조되어야 하며 둘째, 이용자 세분화를 통한 홍보가 이루어져야 하며 셋째, 관련 기록유산을 통합하거나 연결하는 시스템 및 서비스 구축하여 기록유산에 대한 이용자의 접근성을 높여야 하며 끝으로, 세계기록유산 홍보 관련 지침 또는 매뉴얼을 마련해야 할 것을 개선방안으로 제언하였다.

Abstract

The research aims to recommend strategies to promote PR activities of ‘the Memory of the World(MoW)’ on the websites. To achieve the goal, the researchers analyzed the current conditions of online PRs of the MoW in S. Korea by developing the standards/elements for analysis. The research examined the two main concepts of MoW and extracted the three core standards/elements for evaluating current online PRs of MoW through reviewing earlier studies: contents of PRs, ways of PRs, and features of media. The research examined PR activities on the 21 websites of 11 institutions which manage MoW in South Korea. The research found the significant features of the online PRs and suggested detailed strategies for improving the online PRs of MoW: first, it is required to emphasize the values of both preservation and utilization of MoW equally. Second, it is necessary to promote the PRs of MoW by using the way of ‘user segmentation’. Third, it needs to develop the unit systems and/or services to integrate with related documentary heritages so that users can access documentary heritages effectively and efficiently. Finally, it is required to develop the guidelines or/and manuals to conduct and promote the PRs of the MoW by providing specific directions and methods of publicities.

5
이재윤(명지대학교 문헌정보학과) ; 정은경(이화여자대학교 문헌정보학과) 2022, Vol.39, No.1, pp.309-330 https://doi.org/10.3743/KOSIM.2022.39.1.309
초록보기
초록

학문의 구조, 특성, 하위 분야 등을 계량적으로 규명하는 지적구조 분석 연구가 최근 급격히 증가하는 추세이다. 지적구조 분석 연구를 수행하기 위하여 전통적으로 사용되는 분석기법은 서지결합분석, 동시인용분석, 단어동시출현분석, 저자서지결합분석 등이다. 이 연구의 목적은 키워드서지결합분석(KBCA, Keyword Bibliographic Coupling Analysis)을 새로운 지적구조 분석 방식으로 제안하고자 한다. 키워드서지결합분석 기법은 저자서지결합분석의 변형으로 저자 대신에 키워드를 표지로 하여 키워드가 공유한 참고문헌의 수를 두 키워드의 주제적 결합 정도로 산정한다. 제안된 키워드서지결합분석 기법을 사용하여 Web of Science에서 검색된 ‘Open Data’ 분야의 1,366건의 논문집합을 대상으로 분석하였다. 1,366건의 논문집합에서 추출된 7회 이상 출현한 63종의 키워드를 오픈데이터 분야의 핵심 키워드로 선정하였다. 63종의 핵심 키워드를 대상으로 키워드서지결합분석 기법으로 제시된 지적구조는 열린정부와 오픈사이언스라는 주된 영역과 10개의 소주제로 규명되었다. 이에 반해 단어동시출현분석의 지적구조 네트워크는 전체 구성과 세부 영역 구조 규명에 있어 미진한 것으로 나타났다. 이러한 결과는 키워드서지결합분석이 키워드 간의 서지결합도를 사용하여 키워드 간의 관계를 풍부하게 측정하기 때문이라고 볼 수 있다.

Abstract

Intellectual structure analysis, which quantitatively identifies the structure, characteristics, and sub-domains of fields, has rapidly increased in recent years. Analysis techniques traditionally used to conduct intellectual structure analysis research include bibliographic coupling analysis, co-citation analysis, co-occurrence analysis, and author bibliographic coupling analysis. This study proposes a novel intellectual structure analysis method, Keyword Bibliographic Coupling Analysis (KBCA). The Keyword Bibliographic Coupling Analysis (KBCA) is a variation of the author bibliographic coupling analysis, which targets keywords instead of authors. It calculates the number of references shared by two keywords to the degree of coupling between the two keywords. A set of 1,366 articles in the field of ‘Open Data’ searched in the Web of Science were collected using the proposed KBCA technique. A total of 63 keywords that appeared more than 7 times, extracted from 1,366 article sets, were selected as core keywords in the open data field. The intellectual structure presented by the KBCA technique with 63 key keywords identified the main areas of open government and open science and 10 sub-areas. On the other hand, the intellectual structure network of co-occurrence word analysis was found to be insufficient in the overall structure and detailed domain structure. This result can be considered because the KBCA sufficiently measures the relationship between keywords using the degree of bibliographic coupling.

정보관리학회지