바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 분류, 검색결과: 125
81
정영미(연세대학교) ; 김용광(연세대학교) 2008, Vol.25, No.4, pp.227-243 https://doi.org/10.3743/KOSIM.2008.25.4.227
초록보기
초록

이 연구에서는 사건중심 뉴스기사 요약문을 자동생성하기 위해 뉴스기사들을 SVM 분류기를 이용하여 사건 주제범주로 먼저 분류한 후, 각 주제범주 내에서 싱글패스 클러스터링 알고리즘을 통해 특정한 사건 관련 기사들을 탐지하는 기법을 제안하였다. 사건탐지 성능을 높이기 위해 고유명사에 가중치를 부여하고, 뉴스의 발생시간을 고려한 시간벌점함수를 제안하였다. 또한 일정 규모 이상의 클러스터를 분할하여 적절한 크기의 사건 클러스터를 생성하도록 수정된 싱글패스 알고리즘을 사용하였다. 이 연구에서 제안한 사건탐지 기법의 성능은 단순 싱글패스 클러스터링 기법에 비해 정확률, 재현율, F-척도에서 각각 37.1%, 0.1%, 35.4%의 성능 향상률을 보였고, 오보율과 탐지비용에서는 각각 74.7%, 11.3%의 향상률을 나타냈다.

Abstract

This study investigates an event detection method with the aim of generating an event-focused news summary from a set of news articles on a certain event using a multi-document summarization technique. The event detection method first classifies news articles into the event related topic categories by employing a SVM classifier and then creates event clusters containing news articles on an event by a modified single pass clustering algorithm. The clustering algorithm applies a time penalty function as well as cluster partitioning to enhance the clustering performance. It was found that the event detection method proposed in this study showed a satisfactory performance in terms of both the F-measure and the detection cost.

82
진설아(과학기술정책연구원) ; 송민(연세대학교) 2016, Vol.33, No.1, pp.7-32 https://doi.org/10.3743/KOSIM.2016.33.1.007
초록보기
초록

본 연구는 인용 정보와 주제범주 분류체계를 기반으로 한 기존 하향식 접근법과 달리 문헌에 출현한 단어정보를 기반으로 세부주제를 자동 추출하는 토픽 모델링을 사용하여 학제성을 측정하였다. JCR 2013의 Information & Library Science 주제범주에서 5년 영향력 지수 상위 20개 학술지의 최근 5년 동안의 논문 제목과 초록 텍스트를 분석대상으로 사용하였다. 학제성을 측정하기 위한 지수로 ‘분야적 다양성’을 나타내는 Shannon 엔트로피 지수와 Stirling 다양성 지수, ‘네트워크 응집성’을 나타내는 지수로는 토픽 네트워크의 평균 경로길이를 사용하였다. 계산된 다양성과 응집성 지수를 통해 학제성의 유형을 분류한 후 각 유형을 대표하는 학술지들의 토픽 네트워크를 비교하였다. 이를 통해 본 연구의 텍스트 기반 다양성 지수는 기존의 인용정보 기반 다양성 지수와 다른 양상을 보이고 있어 상호보완적으로 활용될 수 있으며, 다양성과 응집성을 모두 고려하여 분류된 각 학술지의 토픽 네트워크를 통해 개별 학술지가 다루는 세부주제의 특성과 연결 정도를 직관적으로 파악할 수 있었다. 이를 통해 토픽 모델링을 통한 텍스트 기반의 학제성 측정이 학술지의 학제성을 나타내는 데에 다양한 역할이 가능함을 확인하였다.

Abstract

This study has measured interdisciplinarity using a topic modeling, which automatically extracts sub-topics based on term information appeared in documents group unlike the traditional top-down approach employing the references and classification system as a basis. We used titles and abstracts of the articles published in top 20 journals for the past five years by the 5-year impact factor under the category of ‘Information & Library Science’ in JCR 2013. We applied ‘Discipline Diversity’ and ‘Network Coherence’ as factors in measuring interdisciplinarity; ‘Shannon Entropy Index’ and ‘Stirling Diversity Index’ were used as indices to gauge diversity of fields while topic network’s average path length was employed as an index representing network cohesion. After classifying the types of interdisciplinarity with the diversity and cohesion indices produced, we compared the topic networks of journals that represent each type. As a result, we found that the text-based diversity index showed different ranking when compared to the reference-based diversity index. This signifies that those two indices can be utilized complimentarily. It was also confirmed that the characteristics and interconnectedness of the sub-topics dealt with in each journal can be intuitively understood through the topic networks classified by considering both the diversity and cohesion. In conclusion, the topic modeling-based measurement of interdisciplinarity that this study proposed was confirmed to be applicable serving multiple roles in showing the interdisciplinarity of the journals.

83
노영희(건국대학교) ; 오의경(상명대학교) ; 정대근(전남대학교 문헌정보학과) 2018, Vol.35, No.2, pp.7-36 https://doi.org/10.3743/KOSIM.2018.35.2.007
초록보기
초록

본 연구는 기초학문자료센터가 인문자산 원스톱(One-Stop) 포털 서비스 구축에 있어 효과적인 데이터연계 방향성 제안을 목적으로 하였다. 이를 위해 인문자산을 보유한 국내 기관에 대한 현황을 수집하고 분석하였으며, 대상 기관이 보유한 데이터 분석을 통해 연계 방향성을 제시하였다. 본 연구에서는 첫째, 인문자산의 주제에 대하여 기존 분류체계 검토를 기반으로 인문자산의 분류체계를 제안하였다. 둘째, 조사 대상기관이 보유하고 있는 데이터의 주제와 유형에 대한 구체적인 분석을 통해 인문자산으로 편입될 수 있는 잠재적 데이터의 범주를 설정하였다. 셋째, 인문자산 원스톱 포털 서비스를 제공하고 있는 유사사례 기관의 플랫폼을 분석하였으며, 유사성을 중심으로 원스톱 시스템 구축 시, 적용 가능한 메타필드를 제시하였다.

Abstract

The purpose of this study is to propose an effective direction of data linkage for building the humanities assets one-stop portal service. For this purpose, We collected and analyzed the actual status of the domestic institution with humanities assets, and presented the linkage direction through analysis of the data held by the target organization. The results of this study are as follows: First, we proposed a classification system of humanities assets based on the reviewing the existing classification system on the subject of humanities assets. Second, we set up the categories of potential data that can be incorporated into humanities assets through a detailed analysis of the subject and type of data held by the subject institutions. Third, we analyzed the platforms of similar case organizations providing one-stop portal services for humanities assets and proposed the applicable meta fields when constructing one-stop system based on similarity.

84
송영(전남대학교 문헌정보학과 박사과정) ; 김지현(전남대학교 문헌정보학과) 2023, Vol.40, No.1, pp.73-93 https://doi.org/10.3743/KOSIM.2023.40.1.073
초록보기
초록

이 연구는 국내 대학도서관에서 운영하는 유튜브 콘텐츠에 대한 내용분석과 이용자의 댓글에 대한 감성 반응 분석을 통해 국내 대학도서관들의 유튜브를 활용한 도서관 서비스에 대해 종합적인 분석과 평가를 하였다. 연구 분석대상은 61개 대학도서관의 2,169개 유튜브 콘텐츠와 이용자의 댓글 6,487개였다. 연구결과로 국내 대학도서관의 유튜브 콘텐츠는 대분류 중 ‘자료’ 콘텐츠의 수량이 가장 많고 ‘소통’ 콘텐츠와 ‘교육’ 콘텐츠가 뒤를 이었으며, ‘홍보’ 콘텐츠가 가장 적었다. 소분류 중 ‘정보서비스’ 콘텐츠의 수량이 가장 많았으며 연구지원 서비스를 주된 내용으로 수록하였다. 국내 대학도서관의 유튜브 콘텐츠를 열람한 이용자의 감성 반응에 대한 분석에서 이용자 감성 반응이 가장 높게 나타난 대분류는 ‘자료’ 콘텐츠와 ‘소통’ 콘텐츠였다. 이용자 감성 반응은 모든 범주의 콘텐츠에서 긍정 반응이 대부분이었고 부정 반응은 긍정 반응에 비하여 적었으며, 빈번히 나타난 이용자 감성 표현은 ‘좋다’였다. 또한, 이용자 감성 반응에 사용된 어휘는 유튜브 콘텐츠의 내용에 대한 표현보다 영상에 등장하는 인물에 대한 표현이 많았다. 이용자의 평가는 콘텐츠의 기술적 품질에 관한 것 평가보다 콘텐츠의 내용에 관한 것이 많았다.

Abstract

This study conducted a comprehensive analysis and evaluation of library services using YouTube through content analysis of YouTube content and emotional response analysis of user comments. This study analyzed 2,169 YouTube contents and 6,487 comments of users from 61 university libraries. The results showed that the number of ‘data’ content was the largest among 4 categories, followed by ‘communication’ and ‘education’ content, and ‘promotion’ content. Among the sub-classifications, the number of ‘information services’ contents was the largest. In the analysis of users’ emotional responses to YouTube content, the major categories of users’ emotional responses were ‘data’ content and ‘communication’ content. Most of the user’s emotional responses were positive in all categories of content, and the most frequent user emotional expression was ‘good’. In addition, the vocabulary used in the user’s emotional response was more about the person appearing in the video than the expression of the content of YouTube contents.

85
박서정(연세대학교 문헌정보학과) ; 이수빈(연세대학교 문헌정보학과) ; 김우정(연세대학교 의과대학 용인세브란스병원 정신건강의학교실) ; 송민(연세대학교 문헌정보학과) 2022, Vol.39, No.1, pp.91-117 https://doi.org/10.3743/KOSIM.2022.39.1.091
초록보기
초록

국내를 비롯하여 전 세계적으로 우울증 환자 수가 매년 증가하는 추세이다. 그러나 대다수의 정신질환 환자들은 자신이 질병을 앓고 있다는 사실을 인식하지 못해서 적절한 치료가 이루어지지 않고 있다. 우울 증상이 방치되면 자살과 불안, 기타 심리적인 문제로 발전될 수 있기에 우울증의 조기 발견과 치료는 정신건강 증진에 있어 매우 중요하다. 이러한 문제점을 개선하기 위해 본 연구에서는 한국어 소셜 미디어 텍스트를 활용한 딥러닝 기반의 우울 경향 모델을 제시하였다. 네이버 지식인, 네이버 블로그, 하이닥, 트위터에서 데이터 수집을 한 뒤 DSM-5 주요 우울 장애 진단 기준을 활용하여 우울 증상 개수에 따라 클래스를 구분하여 주석을 달았다. 이후 구축한 말뭉치의 클래스 별 특성을 살펴보고자 TF-IDF 분석과 동시 출현 단어 분석을 실시하였다. 또한, 다양한 텍스트 특징을 활용하여 우울 경향 분류 모델을 생성하기 위해 단어 임베딩과 사전 기반 감성 분석, LDA 토픽 모델링을 수행하였다. 이를 통해 문헌 별로 임베딩된 텍스트와 감성 점수, 토픽 번호를 산출하여 텍스트 특징으로 사용하였다. 그 결과 임베딩된 텍스트에 문서의 감성 점수와 토픽을 모두 결합하여 KorBERT 알고리즘을 기반으로 우울 경향을 분류하였을 때 가장 높은 정확률인 83.28%를 달성하는 것을 확인하였다. 본 연구는 다양한 텍스트 특징을 활용하여 보다 성능이 개선된 한국어 우울 경향 분류 모델을 구축함에 따라, 한국 온라인 커뮤니티 이용자 중 잠재적인 우울증 환자를 조기에 발견해 빠른 치료 및 예방이 가능하도록 하여 한국 사회의 정신건강 증진에 도움을 줄 수 있는 기반을 마련했다는 점에서 의의를 지닌다.

Abstract

The number of depressed patients in Korea and around the world is rapidly increasing every year. However, most of the mentally ill patients are not aware that they are suffering from the disease, so adequate treatment is not being performed. If depressive symptoms are neglected, it can lead to suicide, anxiety, and other psychological problems. Therefore, early detection and treatment of depression are very important in improving mental health. To improve this problem, this study presented a deep learning-based depression tendency model using Korean social media text. After collecting data from Naver KonwledgeiN, Naver Blog, Hidoc, and Twitter, DSM-5 major depressive disorder diagnosis criteria were used to classify and annotate classes according to the number of depressive symptoms. Afterwards, TF-IDF analysis and simultaneous word analysis were performed to examine the characteristics of each class of the corpus constructed. In addition, word embedding, dictionary-based sentiment analysis, and LDA topic modeling were performed to generate a depression tendency classification model using various text features. Through this, the embedded text, sentiment score, and topic number for each document were calculated and used as text features. As a result, it was confirmed that the highest accuracy rate of 83.28% was achieved when the depression tendency was classified based on the KorBERT algorithm by combining both the emotional score and the topic of the document with the embedded text. This study establishes a classification model for Korean depression trends with improved performance using various text features, and detects potential depressive patients early among Korean online community users, enabling rapid treatment and prevention, thereby enabling the mental health of Korean society. It is significant in that it can help in promotion.

초록보기
초록

본 연구에서는 FRBR의 저작 단위로 태그(tag)가 부여되고 있는 LibraryThing에 나타난 태그를 활용하여, 소설(Fiction) 분야 태그들의 특성, 패턴의 형식적인 측면과 동시에 태그의 내용 분석을 시도하였다. 저작의 서지사항 기술 용어, LCSH 용어와 비교하여 관련 정도를 파악하였고, 이에 포함되지 않는 기타 태그의 출처는 어디인지, 저작의 어떤 측면을 표현하고 있는지, 저작과 연계하여 태그의 용어를 살펴보았다. 특히 소설이란 한 분야로 한정함으로써, 소설만이 가지는 특성인 소설의 3요소(주제, 구성, 문체), 소설 구성의 3요소(인물, 사건, 배경)를 반영한 태그를 파악하여, 향후 소설 정보의 조직 및 검색 요소로서 활용할 수 있는 가능성을 보여주었다. 이를 통해 기존의 색인어를 보완하는 폭소노미 태그의 역할을 규명하고 태깅시스템이 나아갈 새로운 방향을 제시하였다.

Abstract

This study aims to analyze the properties of the tags used in the fiction genre, the structural aspect of the patterns and the contents of the tags by utilizing LibraryThing, where the tags are assigned in work units of FRBR. A comparative analysis was conducted in terms of the level of association between the descriptive terms in bibliography and LCSH terms. The study also examined the sources of the tags not included in the bibliographic descriptions or LCSHs, what aspects of work they represented, and the terms used as tags in relation to the work. By restricting the study to a single genre, a number of tags that reflected the characteristics of fiction (three elements of the fiction which are theme, plot, style and three elements of the fiction composition which are character, event, setting) were extracted. This study finds out the role of the tag making up the taxonomy and proposes a new direction for the tagging system by demonstrating the possibility of using tags as facets in information organization and retrieval.

초록보기
초록

본 논문에서는 문헌의 적합성수준을 적합성정도에 따라 4그룹(부적합한, 조금 적합한, 적합한, 매우 적합한)으로 나눈 후 서로 다른 심사자가 적합성 판정을 내린 4개의 적합성 판정세트(A, B, C, D)에서 “조금 적합한” 문헌을 부적합문헌으로 분류했을 때와 적합문헌으로 분류하였을 때에, 초록/표제 시스템과 전문검색시스템에서 적합성피드백으로 인한 검색효율성의 증진은 어느 쪽이 더 혜택을 받게 되는 지를 연구하였다. “조금 적합한” 문헌을 적합문헌으로 포함시켰을 때 초록/표제시스템이 전문검색시스템보다 모든 적합성판정세트에서 검색효율성의 증가율이 높았고, 반면에 전문검색시스템에서는 “조금 적합한” 문헌을 적합문헌그룹에서 제외시켰을 때 검색효율성의 증가율이 일관성 있게 높아지는 것을 발견하였다. 이는 전문검색시스템에서는 적합문헌으로 포함된 “조금 적합한” 문헌으로부터 얻어지는 적합성피드백 정보는 잡음의 역할을 하게 되어 검색효율성의 증진에 도움이 안 되고 있음을 암시하고 있다. 특히, 매우 동질적인 문헌을 색인 및 검색대상으로 하고 있는 전문검색시스템에서는 잡음에 의해 초래되는 낮은 정확률을 개선하는 정교한 검색기법에 대한 연구가 지속되어야만 한다.

Abstract

This study examined the relative retrieval effectiveness after relevance feedback between two systems (Title/Abstract and Full-text) using four different sets of relevance judgment. Four relevance levels (not relevant, marginally relevant, relevant, highly relevant) are also used, each of which is determined by referees giving a relevance score to documents. This study also investigated how much the average precision was improved after relevance feedback when “marginally relevant” documents are included in the relevant class with the Title/Abstract system, and with the Full-text retrieval system as well. It is found that the Title/Abstract system benefited from relevance feedback with the marginally relevant documents. In case of the Title/Abstract system, the higher percentage of improvement was consistently obtained when including the marginally relevant documents in the relevance class, however the result was vice versa in case of the Full-text retrieval system. It implied that the marginally relevant documents in the relevant class had caused noises in the Full-text retrieval system.

88
박자현(연세대학교) ; 송민(연세대학교) 2013, Vol.30, No.1, pp.7-32 https://doi.org/10.3743/KOSIM.2013.30.1.007
초록보기
초록

본 연구는 국내 문헌정보학 분야의 연구동향을 규명하기 위하여 문헌정보학 주요 학술지인, 정보관리학회지, 한국문헌정보학회지, 한국도서관․정보학회지, 한국비블리아학회지의 1970년도부터 2012년도까지 발표 논문 초록을 수집하여 LDA(Latent Dirichlet Allocation)기반의 토픽 모델링 실험을 수행하였다. 그 결과를 종합하면 다음과 같다. 첫째, 토픽모델링 실험에서 도출된 연구주제를 문헌정보학 주제분류표와 비교․분석한 결과, ‘정보학’영역의 디지털도서관, 이용연구, 인터넷, 전문가시스템, 계량정보학, 자동화, 정보검색, 정보시스템, ‘도서관 서비스’영역의 정보서비스, 도서관 유형별 서비스, 이용자 교육/정보리터러시, 서비스 평가, ‘문헌정보학 기초’영역의 도서관과 사회, 전문성, ‘자료조직’영역의 분류, 편목, 메타데이터, ‘도서관 경영’영역의 도서관 평가, 장서개발/관리, ‘서지학’영역의 고서지, ‘도서관 체제’영역의 도서관 및 정보정책, ‘출판’영역의 도서/출판, ‘기록관리학’영역의 하위주제 등과 연결할 수 있었다. 또한 가장 많은 연구주제가 발견된 학문영역은 정보학과 도서관서비스로 나타났다. 둘째, 문헌정보학의 주요 연구주제에서 도서관 유형별 서비스 및 평가, 인터넷, 메타데이터의 연구주제는 상승세를 보였으나, 도서, 분류, 편목, 고서지에 관한 연구주제는 하강세를 보였다. 셋째, 학술지를 구분하여 비교․분석한 결과, 정보관리학회지는 도서관에 관한 연구주제보다 정보학에 관한 연구주제가 많이 출현하였고, 한국문헌정보학회지와 한국도서관․정보학회지, 한국비블리아학회지는 도서관에 관한 연구주제가 정보학에 관한 주제보다 많이 나타났다.

Abstract

The goal of the present study is to identify the topic trend in the field of library and information science in Korea. To this end, we collected titles and abstracts of the papers published in four major journals such as Journal of the Korean Society for information Management, Journal of the Korean Society for Library and Information Science, Journal of Korean Library and Information Science Society, and Journal of the Korean BIBLIA Society for library and Information Science during 1970 and 2012. After that, we applied the well-received topic modeling technique, Latent Dirichlet Allocation(LDA), to the collected data sets. The research findings of the study are as follows: 1) Comparison of the extracted topics by LDA with the subject headings of library and information science shows that there are several distinct sub-research domains strongly tied with the field. Those include library and society in the domain of “introduction to library and information science,” professionalism, library and information policy in the domain of “library system,” library evaluation in the domain of “library management,” collection development and management, information service in the domain of “library service,” services by library type, user training/information literacy, service evaluation, classification/cataloging/meta-data in the domain of “document organization,” bibliometrics/digital libraries/user study/internet/expert system/information retrieval/information system in the domain of “information science,” antique documents in the domain of “bibliography,” books/publications in the domain of “publication,” and archival study. The results indicate that among these sub-domains, information science and library services are two most focused domains. Second, we observe that there is the growing trend in the research topics such as service and evaluation by library type, internet, and meta-data, but the research topics such as book, classification, and cataloging reveal the declining trend. Third, analysis by journal show that in Journal of the Korean Society for information Management, information science related topics appear more frequently than library science related topics whereas library science related topics are more popular in the other three journals studied in this paper.

89
박소연(계명대학교) ; 이준호(숭실대학교) 2002, Vol.19, No.3, pp.111-122 https://doi.org/10.3743/KOSIM.2002.19.3.111
초록보기
초록

본 연구에서는 웹 검색 이용자들의 전반적인 검색 행태를 이해하기 위하여 국내에서 널리 사용되고 있는 웹 검색 서비스 네이버에서 생성된 검색 트랜잭션 로그를 분석하였다. 본 연구에서는 웹 검색 트랜잭션 로그 분석에 필요한 세션 정의 방법을 설명하고 로그 정제 및 질의 유형 분류방법을 제시하였으며, 한글 검색 트랜잭션 로그 분석에 필수절인 검색어 정의 방법을 제안하였다. 본 연구의 결과는 보다 효과적인 국내 웹 검색 시스템 개발과 서비스 구축에 기여할 것으로 기대된다.

Abstract

In order to investigate information seeking behavior of web search users, this study analyzes transaction logs posed by users of NAVER, a major Korean Internet search service. We present a session definition method for Web transaction log analysis, a way of cleaning original logs and a query classification method. We also propose a query term definition method that is necessary for Korean Web transaction log analysis. It is expected that this study could contribute to the development and implementation of more effective Web search systems and services.

초록보기
초록

본 연구는 먼저 민간의 고객관계관리(CRM)시스템을 정부차원에서 적용한 정책고객관계관리(PCRM)시스템의 개념과 현황, PCRM과 CRM의 비교, 그리고 통일부의 도입사례를 통해 PCRM의 핵심인 고객의 정의와 분류 과정에 대해 살펴본다. 다음, 통일부 소속 전문도서관인 북한자료센터의 사례를 통해 다른 정부기관 전문도서관에서의 활용 방향과 전자정부에서 시도된 다른 연계 시스템들과의 관계에 대해 논구한다. 마지막으로 이를 통해 PCRM이 전문도서관에서 발전적으로 정착하기 위해서 보안해야 할 문제에 대해서 고찰한다.

Abstract

This study examines firstly concept and present condition of Policy Customer Relationship Management(PCRM) system which applying in the governmental dimension Customer Relationship Management(CRM) system of enterprises(profit-making organizations), comparison of PCRM and CRM, and definition of customer and customer classification process as a key of PCRM. Next, investigates applying plan in the other special libraries of governmental institution through the case study of Information Center on North Korea(special library attached to the Ministry of Unification) and relationship with different connection systems attempted in e-government(Enterprise Architecture). Lastly, through this, considers complemental issues for developmental fixation in special libraries.

정보관리학회지