바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: title, 검색결과: 5
초록보기
초록

이 연구는 짧은 텍스트인 서명에 단어 임베딩이 미치는 영향을 분석하기 위해 Word2vec, GloVe, fastText 모형을 이용하여 단행본 서명을 임베딩 벡터로 생성하고, 이를 분류자질로 활용하여 자동분류에 적용하였다. 분류기는 k-최근접 이웃(kNN) 알고리즘을 사용하였고 자동분류의 범주는 도서관에서 도서에 부여한 DDC 300대 강목을 기준으로 하였다. 서명에 대한 단어 임베딩을 적용한 자동분류 실험 결과, Word2vec와 fastText의 Skip-gram 모형이 TF-IDF 자질보다 kNN 분류기의 자동분류 성능에서 더 우수한 결과를 보였다. 세 모형의 다양한 하이퍼파라미터 최적화 실험에서는 fastText의 Skip-gram 모형이 전반적으로 우수한 성능을 나타냈다. 특히, 이 모형의 하이퍼파라미터로는 계층적 소프트맥스와 더 큰 임베딩 차원을 사용할수록 성능이 향상되었다. 성능 측면에서 fastText는 n-gram 방식을 사용하여 하부문자열 또는 하위단어에 대한 임베딩을 생성할 수 있어 재현율을 높이는 것으로 나타났다. 반면에 Word2vec의 Skip-gram 모형은 주로 낮은 차원(크기 300)과 작은 네거티브 샘플링 크기(3이나 5)에서 우수한 성능을 보였다.

Abstract

To analyze the impact of word embedding on book titles, this study utilized word embedding models (Word2vec, GloVe, fastText) to generate embedding vectors from book titles. These vectors were then used as classification features for automatic classification. The classifier utilized the k-nearest neighbors (kNN) algorithm, with the categories for automatic classification based on the DDC (Dewey Decimal Classification) main class 300 assigned by libraries to books. In the automatic classification experiment applying word embeddings to book titles, the Skip-gram architectures of Word2vec and fastText showed better results in the automatic classification performance of the kNN classifier compared to the TF-IDF features. In the optimization of various hyperparameters across the three models, the Skip-gram architecture of the fastText model demonstrated overall good performance. Specifically, better performance was observed when using hierarchical softmax and larger embedding dimensions as hyperparameters in this model. From a performance perspective, fastText can generate embeddings for substrings or subwords using the n-gram method, which has been shown to increase recall. The Skip-gram architecture of the Word2vec model generally showed good performance at low dimensions(size 300) and with small sizes of negative sampling (3 or 5).

2
김선욱(경북대학교 사회과학대학 문헌정보학과) ; 이혜경(경북대학교 문헌정보학과) ; 이용구(경북대학교) 2023, Vol.40, No.2, pp.183-209 https://doi.org/10.3743/KOSIM.2023.40.2.183
초록보기
초록

이 연구의 목적은 ChatGPT가 도서의 표지, 표제지, 판권기 데이터를 활용하여 생성한 더블린코어의 품질 평가를 통하여 ChatGPT의 메타데이터의 생성 능력과 그 가능성을 확인하는 데 있다. 이를 위하여 90건의 도서의 표지, 표제지와 판권기 데이터를 수집하여 ChatGPT에 입력하고 더블린 코어를 생성하게 하였으며, 산출물에 대해 완전성과 정확성 척도로 성능을 파악하였다. 그 결과, 전체 데이터에 있어 완전성은 0.87, 정확성은 0.71로 준수한 수준이었다. 요소별로 성능을 보면 Title, Creator, Publisher, Date, Identifier, Right, Language 요소가 다른 요소에 비해 상대적으로 높은 성능을 보였다. Subject와 Description 요소는 완전성과 정확성에 대해 다소 낮은 성능을 보였으나, 이들 요소에서 ChatGPT의 장점으로 알려진 생성 능력을 확인할 수 있었다. 한편, DDC 주류인 사회과학과 기술과학 분야에서 Contributor 요소의 정확성이 다소 낮았는데, 이는 ChatGPT의 책임표시사항 추출 오류 및 데이터 자체에서 메타데이터 요소용 서지 기술 내용의 누락, ChatGPT가 지닌 영어 위주의 학습데이터 구성 등에 따른 것으로 판단하였다.

Abstract

The purpose of this study is to evaluate the Dublin Core metadata generated by ChatGPT using book covers, title pages, and colophons from a collection of books. To achieve this, we collected book covers, title pages, and colophons from 90 books and inputted them into ChatGPT to generate Dublin Core metadata. The performance was evaluated in terms of completeness and accuracy. The overall results showed a satisfactory level of completeness at 0.87 and accuracy at 0.71. Among the individual elements, Title, Creator, Publisher, Date, Identifier, Rights, and Language exhibited higher performance. Subject and Description elements showed relatively lower performance in terms of completeness and accuracy, but it confirmed the generation capability known as the inherent strength of ChatGPT. On the other hand, books in the sections of social sciences and technology of DDC showed slightly lower accuracy in the Contributor element. This was attributed to ChatGPT’s attribution extraction errors, omissions in the original bibliographic description contents for metadata, and the language composition of the training data used by ChatGPT.

3
감미아(연세대학교 문헌정보학과) ; 이지연(연세대학교 문헌정보학과) 2023, Vol.40, No.1, pp.121-148 https://doi.org/10.3743/KOSIM.2023.40.1.121
초록보기
초록

본 연구는 ‘우수한 성능의 메타데이터 속성 유사도 기반의 학술 문헌추천시스템’을 제안하는 데에 목적을 두고 있다. 본 연구에서는 정보조직에서 다루는 메타데이터의 활용과 계량정보학에서 다루고 있는 동시인용, 저자-서지결합법, 동시출현 빈도, 코사인 유사도의 개념을 활용한 문헌정보학 기반의 학술 문헌 추천기법을 제안하고자 하였다. 실험을 위해 수집한 ‘불평등’, ‘격차’ 관련 총 9,643개의 논문 메타데이터를 정제하여 코사인 유사도를 활용한 저자, 키워드, 제목 속성 간의 상대적 좌표 수치를 도출하였고, 성능 좋은 가중치 조건 및 차원의 수를 선정하기 위해 실험을 수행하였다. 실험 결과를 제시하여 이용자의 평가를 거쳤으며, 이를 이용해 기준노드와 추천조합 특성 분석 및 컨조인트 분석, 결과 비교 분석을 수행하여 연구질문 중심의 논의를 수행하였다. 그 결과 전반적으로는 저자 관련 속성을 제한 조합 혹은 제목 관련 속성만 사용하는 경우 성능이 뛰어난 것으로 나타났다. 본 연구에서 제시한 기법을 활용하고 광범위한 표본의 확보를 이룬다면, 향후 정보서비스의 문헌 추천 분야뿐 아니라 사회의 다양한 분야에 대한 추천기법 성능 향상에 도움을 줄 수 있을 것이다.

Abstract

The purpose of this study is to propose a scholarly paper recommendation system based on metadata attribute similarity with excellent performance. This study suggests a scholarly paper recommendation method that combines techniques from two sub-fields of Library and Information Science, namely metadata use in Information Organization and co-citation analysis, author bibliographic coupling, co-occurrence frequency, and cosine similarity in Bibliometrics. To conduct experiments, a total of 9,643 paper metadata related to “inequality” and “divide” were collected and refined to derive relative coordinate values between author, keyword, and title attributes using cosine similarity. The study then conducted experiments to select weight conditions and dimension numbers that resulted in a good performance. The results were presented and evaluated by users, and based on this, the study conducted discussions centered on the research questions through reference node and recommendation combination characteristic analysis, conjoint analysis, and results from comparative analysis. Overall, the study showed that the performance was excellent when author-related attributes were used alone or in combination with title-related attributes. If the technique proposed in this study is utilized and a wide range of samples are secured, it could help improve the performance of recommendation techniques not only in the field of literature recommendation in information services but also in various other fields in society.

초록보기
초록

이 연구는 우리나라 지자체가 운영하는 통합도서관들을 대상으로 통합검색 서비스의 기능적 특성을 분석하는 것을 목적으로 한다. 분석대상은 서울시의 25개 지자체에서 운영하는 통합도서관들이며, 분석항목은 통합검색과 관련된 12가지 영역의 서비스 기능들로 선택하였다. 연구의 결과는 다음과 같다. 첫째, 통합도서관은 자치구 내 공공도서관과 작은도서관의 연합체이며, 통합검색 서비스를 제공하고 있다. 제공되는 통합검색 서비스의 기능, 서지정보의 항목과 패싯의 유형이 다양하지 못하다. 둘째, 검색결과의 레코드는 타이틀 형식이 아니라, 대부분 아이템 형식이었다. 셋째, 도서정보를 보완하는 보강정보는 책에 대한 소개와 연관정보, 책과 관련된 키워드, 대출관련 정보 등으로 구성된다. 넷째, 통합검색이 디스커버리형 검색보다, 통합목록DB를 기반으로 하는 통합OPAC의 형태를 나타내고 있다. 자치구 내 공공도서관이나 작은도서관들에 분산되어 있는 소장목록DB들에 대한 통합검색을 제공하는데 집중하고 있다. 다섯째, 대부분의 통합도서관은 유사한 서비스 형태를 제공한다. 이 결과를 바탕으로 국내 공공도서관들이 디스커버리형 통합검색 서비스를 기대할 수 있는 개선방안을 제안하였다.

Abstract

The purpose of this study is to analyze the characteristics of the integrated search services for integrated libraries operated by local governments in Korea. The target of analysis was integrated libraries operated by 25 local governments in Seoul, and the analysis elements were selected from service functions in 12 areas related to integrated search. The results of the study are as follows. First, the integrated library is an association of public libraries and small libraries in autonomous districts and provides integrated search services. The provided integrated search service function, types of bibliographic information, and facets are not diverse. Second, the records in the search results were mostly item types, not title types. Third, enrichment information supplementing book information consists of book introductions, related information, book-related keywords, and loan-related information. Fourth, integrated search shows the form of integrated OPAC based on integrated catalog DB rather than discovery-type search. It concentrates on providing an integrated search for catalog DBs distributed in public libraries or small libraries in the autonomous district. Fifth, most integrated libraries provide similar service types. Based on these results, improvement plans were proposed for domestic public libraries to expect discovery-type integrated search services.

5
허수진(대구가톨릭대학교 기록대학원 석사과정) ; 최상희(대구가톨릭대학교 문헌정보학과) 2023, Vol.40, No.4, pp.351-373 https://doi.org/10.3743/KOSIM.2023.40.4.351
초록보기
초록

이 연구는 국내 기록관리표준의 연구동향을 분석한 것으로 이를 위해 기록관리표준 관련 논문의 표제-주제어-초록의 키워드를 추출하여 상위빈도 키워드의 분석과 키워드 네트워크 분석을 수행하였다. 분석 대상 기간은 2000년부터 현재까지이며 RISS와 ScienceON 등의 국내 학술논문 검색사이트에서 총 212편의 논문을 수집하여 연구를 수행하였다. 분석 결과 2000~2010년까지는 아카이브 설계를 위한 OAIS의 연구, OAIS를 통한 디지털 기록 보존연구 ISO 표준의 분석 연구 등이 주로 진행되었고, 2011년 이후부터 지금까지는 기록경영인증, ISAD(G)의 RiC 전환 등의 연구가 진행되었음을 알 수 있었다. 이 연구는 기록관리표준 연구의 국내 연구동향을 분석함으로써 연구 흐름을 파악하는 기초자료로 활용되며, 기존 기록관리표준을 연구할 때 참고자료로 역할을 할 것으로 기대한다.

Abstract

This study aimed to analyze and collect research trends of archival management standards in Korea. For this purpose, keywords from the titles, author keywords, and abstracts of papers related to records management standards were statistically analyzed to investigate the major keywords with high-frequency. Network analysis with high frequency keywords was also conducted to identify the subject areas of research in archival management standards. The analysis period is from 2000 to the present, and a total of 212 papers were collected from domestic academic paper search sites such as RISS and ScienceON. As a result of the analysis, from 2000 to 2010, OAIS for archive design, digital record preservation with OAIS, and analysis on ISO standards were mainly conducted in research areas. From 2011 until now, records management certification and ISAD(G)’s conversion to RiC emerged as new research areas. This study will be expected to be basic data to understand research trends in records management standards in Korea and to be a reference for research on records management standards studies.

정보관리학회지