바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: classifier, 검색결과: 63
21
심경(Systems R&D Center, Iris.Net) ; 정영미(연세대학교) 2006, Vol.23, No.2, pp.265-285 https://doi.org/10.3743/KOSIM.2006.23.2.265
초록보기
초록

문헌범주화에서는 학습문헌집합에 부여된 주제범주의 정확성이 일정 수준을 가진다고 가정한다. 그러나, 이는 실제 문헌집단에 대한 지식이 없이 이루어진 가정이다. 본 연구는 실제 문헌집단에서 기 부여된 주제범주의 정확성의 수준을 알아보고, 학습문헌집합에 기 부여된 주제범주의 정확도와 문헌범주화 성능과의 관계를 확인하려고 시도하였다. 특히, 학습문헌집합에 부여된 주제범주의 질을 수작업 재색인을 통하여 향상시킴으로써 어느 정도까지 범주화 성능을 향상시킬 수 있는가를 파악하고자 하였다. 이를 위하여 과학기술분야의 1,150 초록 레코드 1,150건을 전문가 집단을 활용하여 재색인한 후, 15개의 중복문헌을 제거하고 907개의 학습문헌집합과 227개의 실험문헌집합으로 나누었다. 이들을 초기문헌집단, Recat-1, Recat-2의 재 색인 이전과 이후 문헌집단의 범주화 성능을 kNN 분류기를 이용하여 비교하였다. 초기문헌집단의 범주부여 평균 정확성은 16%였으며, 이 문헌집단의 범주화 성능은 F1값으로 17%였다. 반면, 주제범주의 정확성을 향상시킨 Recat-1 집단은 F1값 61%로 초기문헌집단의 성능을 3.6배나 향상시켰다.

Abstract

In text categorization a certain level of correctness of labels assigned to training documents is assumed without solid knowledge on that of real-world collections. Our research attempts to explore the quality of pre-assigned subject categories in a real-world collection, and to identify the relationship between the quality of category assignment in training set and text categorization performance. Particularly, we are interested in to what extent the performance can be improved by enhancing the quality (i.e., correctness) of category assignment in training documents. A collection of 1,150 abstracts in computer science is re-classified by an expert group, and divided into 907 training documents and 227 test documents (15 duplicates are removed). The performances of before and after re-classification groups, called Initial set and Recat-1/Recat-2 sets respectively, are compared using a kNN classifier. The average correctness of subject categories in the Initial set is 16%, and the categorization performance with the Initial set shows 17% in F1 value. On the other hand, the Recat-1 set scores F1 value of 61%, which is 3.6 times higher than that of the Initial set.

22
이수빈(연세대학교 문헌정보학과) ; 김성덕(연세대학교 문헌정보학과) ; 이주희(연세대학교 문헌정보학과) ; 고영수(연세대학교 문헌정보학과) ; 송민(연세대학교) 2021, Vol.38, No.2, pp.153-172 https://doi.org/10.3743/KOSIM.2021.38.2.153
초록보기
초록

본 연구는 공황장애 말뭉치 구축과 분석을 통해 공황장애의 특성을 살펴보고 공황장애 경향 문헌을 분류할 수 있는 딥러닝 자동 분류 모델을 만들고자 하였다. 이를 위해 소셜미디어에서 수집한 공황장애 관련 문헌 5,884개를 정신 질환 진단 매뉴얼 기준으로 직접 주석 처리하여 공황장애 경향 문헌과 비 경향 문헌으로 분류하였다. 이 중 공황장애 경향 문헌에 나타난 어휘적 특성 및 어휘의 관계성을 분석하기 위해 TF-IDF값을 산출하고 단어 동시출현 분석을 실시하였다. 공황장애의 특성 및 증상 간의 관련성을 분석하기 위해 증상 빈도수와 주석 처리된 증상 번호 간의 동시출현 빈도수를 산출하였다. 또한, 구축한 말뭉치를 활용하여 딥러닝 자동 분류 모델 학습 및 성능 평가를 하였다. 이를 위하여 최신 딥러닝 언어 모델 BERT 중 세 가지 모델을 활용하였고 이 중 KcBERT가 가장 우수한 성능을 보였다. 본 연구는 공황장애 관련 증상을 겪는 사람들의 조기 진단 및 치료를 돕고 소셜미디어 말뭉치를 활용한 정신 질환 연구의 영역을 확장하고자 시도한 점에서 의의가 있다.

Abstract

This study is to create a deep learning based classification model to examine the characteristics of panic disorder and to classify the panic disorder tendency literature by the panic disorder corpus constructed for the present study. For this purpose, 5,884 documents of the panic disorder corpus collected from social media were directly annotated based on the mental disease diagnosis manual and were classified into panic disorder-prone and non-panic-disorder documents. Then, TF-IDF scores were calculated and word co-occurrence analysis was performed to analyze the lexical characteristics of the corpus. In addition, the co-occurrence between the symptom frequency measurement and the annotated symptom was calculated to analyze the characteristics of panic disorder symptoms and the relationship between symptoms. We also conducted the performance evaluation for a deep learning based classification model. Three pre-trained models, BERT multi-lingual, KoBERT, and KcBERT, were adopted for classification model, and KcBERT showed the best performance among them. This study demonstrated that it can help early diagnosis and treatment of people suffering from related symptoms by examining the characteristics of panic disorder and expand the field of mental illness research to social media.

23
이호신(한성대학교 디지털인문정보학 트랙) 2023, Vol.40, No.1, pp.199-224 https://doi.org/10.3743/KOSIM.2023.40.1.199
초록보기
초록

이 연구는 도서관의 전자책 서비스가 지속되기 위한 전제 조건으로서, 전자책 라이선스의 합리적인 개선방안을 마련하기 위한 것이다. 전자책 라이선스를 둘러싸고 벌어지는 국내 도서관과 출판계의 첨예한 갈등을 이해하고, 이를 바탕으로 그 해결방안을 제안하고자 한다. 이를 위해서 전자책 대출 라이선스가 가지는 법적인 의미를 분석한다. 출판계와 도서관이 갈등을 빚는 근본적인 원인을 전자책의 특성을 함께 다루었다. 아울러 전자책 라이선스의 다양한 유형을 정리하고 우리나라를 비롯한 세계 주요 국가들(미국, 독일, 프랑스, 일본)의 도서관 전자책 라이선스 현황과 갈등의 양상을 파악하였다. 이를 바탕으로 국내의 문제를 해결하는 데 도움이 될 시사점을 제시하였다.

Abstract

The purpose of this study is to develop a reasonable improvement plan for e-book licenses as a prerequisite for the continued operation of library e-book services. The study aims to understand the fierce conflict surrounding e-book licenses between domestic libraries and the publishing industry and to propose solutions based on this understanding. To achieve this, the legal meaning of e-book licenses is analyzed, and the fundamental reasons for conflict between the publishing industry and libraries are examined in relation to the characteristics of e-books. In addition, various types of e-book licenses are classified, and the status of library e-book licenses and conflicts in major countries around the world, including Korea, the United States, Germany, France, and Japan, are investigated. Based on this, implications that can help resolve domestic issues are presented.

24
진설아(과학기술정책연구원) ; 송민(연세대학교) 2016, Vol.33, No.1, pp.7-32 https://doi.org/10.3743/KOSIM.2016.33.1.007
초록보기
초록

본 연구는 인용 정보와 주제범주 분류체계를 기반으로 한 기존 하향식 접근법과 달리 문헌에 출현한 단어정보를 기반으로 세부주제를 자동 추출하는 토픽 모델링을 사용하여 학제성을 측정하였다. JCR 2013의 Information & Library Science 주제범주에서 5년 영향력 지수 상위 20개 학술지의 최근 5년 동안의 논문 제목과 초록 텍스트를 분석대상으로 사용하였다. 학제성을 측정하기 위한 지수로 ‘분야적 다양성’을 나타내는 Shannon 엔트로피 지수와 Stirling 다양성 지수, ‘네트워크 응집성’을 나타내는 지수로는 토픽 네트워크의 평균 경로길이를 사용하였다. 계산된 다양성과 응집성 지수를 통해 학제성의 유형을 분류한 후 각 유형을 대표하는 학술지들의 토픽 네트워크를 비교하였다. 이를 통해 본 연구의 텍스트 기반 다양성 지수는 기존의 인용정보 기반 다양성 지수와 다른 양상을 보이고 있어 상호보완적으로 활용될 수 있으며, 다양성과 응집성을 모두 고려하여 분류된 각 학술지의 토픽 네트워크를 통해 개별 학술지가 다루는 세부주제의 특성과 연결 정도를 직관적으로 파악할 수 있었다. 이를 통해 토픽 모델링을 통한 텍스트 기반의 학제성 측정이 학술지의 학제성을 나타내는 데에 다양한 역할이 가능함을 확인하였다.

Abstract

This study has measured interdisciplinarity using a topic modeling, which automatically extracts sub-topics based on term information appeared in documents group unlike the traditional top-down approach employing the references and classification system as a basis. We used titles and abstracts of the articles published in top 20 journals for the past five years by the 5-year impact factor under the category of ‘Information & Library Science’ in JCR 2013. We applied ‘Discipline Diversity’ and ‘Network Coherence’ as factors in measuring interdisciplinarity; ‘Shannon Entropy Index’ and ‘Stirling Diversity Index’ were used as indices to gauge diversity of fields while topic network’s average path length was employed as an index representing network cohesion. After classifying the types of interdisciplinarity with the diversity and cohesion indices produced, we compared the topic networks of journals that represent each type. As a result, we found that the text-based diversity index showed different ranking when compared to the reference-based diversity index. This signifies that those two indices can be utilized complimentarily. It was also confirmed that the characteristics and interconnectedness of the sub-topics dealt with in each journal can be intuitively understood through the topic networks classified by considering both the diversity and cohesion. In conclusion, the topic modeling-based measurement of interdisciplinarity that this study proposed was confirmed to be applicable serving multiple roles in showing the interdisciplinarity of the journals.

25
명순희(용인송담대학) ; 김인철(경기대학교) 2002, Vol.19, No.4, pp.35-51 https://doi.org/10.3743/KOSIM.2002.19.4.035
초록보기
초록

본 논문에서는 다중 모델 기계학습 기법을 이용하여 자동 문서 분류의 성능과 신뢰도를 향상시킬 수 있는 연구와 실험 결과를 기술하였다. 기존의 다중 모델 기계 학습법들이 훈련 데이터 또는 학습 알고리즘의 편향에 의한 오류를 극복하고자 한 것인데 비해 본 논문에서 제안한 메타 학습을 이용한 하이브리드 다중 모델 방식은 이 두 가지의 오류 원인을 동시에 해소하고자 하였다. 다양한 문서 집합에 대한 실험 결과. 본 논문에서 제안한 하이브리드 다중 모델 학습법이 전반적으로 기존의 일반 다중모델 학습법들에 비해 높은 성능을 보였으며, 다중 모델의 결합 방식으로서 메타 학습이 투표 방식에 비해 효율적인 것으로 나타났다.

Abstract

Inductive learning and classification techniques have been employed in various research and applications that organize textual data to solve the problem of information access. In this study, we develop hybrid model combination methods which incorporate the concepts and techniques for multiple modeling algorithms to improve the accuracy of text classification, and conduct experiments to evaluate the performances of proposed schemes. Boosted stacking, one of the extended stacking schemes proposed in this study yields higher accuracy relative to the conventional model combination methods and single classifiers.

초록보기
초록

이 연구는 2000년 이후 발표된 정보활용능력 분야의 국내 학위논문을 분석함으로써, 양적연구의 동향과 흐름을 분석하였다. 이를 위해 양적연구 동향을 분석하였다. 양적 연구를 위해 양적 연구 과정과 양적조사 관련 규정, 양적연구 관련 기술요소를 비교분석하였다. 또한, 각 요소 측정을 위해 5개 변인과 기준을 사용하였다. 이를 바탕으로 논문에 대한 연구주제, 조사방법, 표집방법, 표본대상, 표본크기에 대한 일반적 특징을 살펴보고, 이를 연도별, 전공별로 구분하여 측정변인에 대한 동향을 분석하였다. 또한 연구에서 사용한 통계분석방법을 목적에 따라 분류하여 연구목적에 따른 통계분석기법의 사용동향을 제시하였다.

Abstract

This study has analyzed the trend of the quantitative research by analyzing domestic dissertations on information literacy that were published since 2000. The procedures, regulations, and descriptive elements of the quantitative study were compared and analyzed for this study. In addition, the study used 5 variables and criterions to measure these items. Based on the calculations, the study has examined the general characteristics of the thesis, research method, sampling method and sampling population of the dissertations. The study has also analyzed the trend of the measurement variables by categorizing the characteristics by published year and majors. Furthermore, the study has also presented the trend of the usage of statistic analysis method on research purpose by classifying the method into each purpose.

27
윤재웅(광운대학교 경영학부) ; 이창섭(광운대학교 경영학부) ; 이석준(광운대학교) 2016, Vol.33, No.2, pp.103-133 https://doi.org/10.3743/KOSIM.2016.33.2.103
초록보기
초록

최근 특허기술의 가치평가가 크게 강조되고 있으며, 특허의 피인용횟수는 특허기술 가치평가에 있어 중요한 척도이다. 본 연구에서는 국내 특허를 대상으로 피인용횟수에 영향을 주는 변수들을 도출하기 위하여 일반화 선형모형 회귀분석을 실시하였다. 총 12개의 변수를 형태적, 기술적 그리고 개념적 요인으로 분류하였고, 국내 의료기기 특허 14개의 분야에 적용하여 분석한 결과 출원인 국적, 출원인 유형, 발명자 수, 출원국가 수, IPC 수, 참고문헌 수, 서지결합도가 특허 피인용횟수에 유의미한 영향을 미치는 것으로 나타났다. 본 연구는 국내 실정에 적용 가능한 연구를 수행함으로써 국내 특허에 대한 인용 분석 방법론에 있어서 실질적인 기초적 자료를 제공했다는데 의의가 있다.

Abstract

The valuation of patented technology has been recently emphasized, and the patent citation is known as an important factor. This study performed a generalized linear model to find variables that effect the patent citation. We classified 13 variables as morphological, technological and conceptual factors and used them to find out effective variables in 14 medical devices classification. Through the empirical study, we found seven effective variables (assignee nationality, assignee character, the number of inventors, the number of application countries, the number of IPC, the number of references, the strength of bibliographic coupling). In order to apply to Korean industry, this study has significance that provides basic research to citation analysis model.

초록보기
초록

Abstract

As IT technology develops rapidly and the personal dissemination of smart devices increases, video material is especially used as a medium of information transmission among audiovisual materials. Video as an information service content has become an indispensable element, and it has been used in various ways such as unidirectional delivery through TV, interactive service through the Internet, and audiovisual library borrowing. Especially, in the Internet environment, the information provider tries to reduce the effort and cost for the processing of the provided information in view of the video service through the smart device. In addition, users want to utilize only the desired parts because of the burden on excessive network usage, time and space constraints. Therefore, it is necessary to enhance the usability of the video by automatically classifying, summarizing, and indexing similar parts of the contents. In this paper, we propose a method of automatically segmenting the shots that make up videos by analyzing the contents and characteristics of language education videos and indexing the detailed contents information of the linguistic videos by combining visual features. The accuracy of the semantic based shot segmentation is high, and it can be effectively applied to the summary service of language education videos.

초록보기
초록

본 연구는 인쇄형 해외학술지 원문제공서비스(DDS)의 경제성을 분석하기 위해 이용자 기반의 경제적 가치 평가 방법론 및 모델을 개발하고자 하였다. 본 연구를 위해 K기관의 구독중인 해외학술지 원문제공서비스의 데이터 중 일부가 분석을 위해 사용되었고 K기관 원문제공서비스 이용자를 대상으로 웹 서베이를 실시하였다. 해외학술지 원문제공서비스의 경제적 가치는 사용가치, 비사용가치, 그리고 기대가치가 고려되었고 사용가치 산출을 위해서는 소득접근법과 시장접근법을 제안하였다. 이용자에 의한 가치 산출을 위해, 본 연구는 조건부가치평가법을 적용하였고 이를 위해 가상 시나리오를 설정하였다.

Abstract

This study is to develope a user-based economic valuation methodology and model for the economic analysis on the DDS of foreign journals. For this study, the sampling data on the annual subscribed journals by K institution was used and the online questionnaire was used to collect data. There are three aspects of the economic value of DDS journals was classified as use value, non-use value, and expectancy value. We suggested the income and market approach to measure its economic use value. To estimate the its value by individual users, this study applied a contingent valuation method and designed the imaginary scenarios.

30
박서정(연세대학교 문헌정보학과) ; 이수빈(연세대학교 문헌정보학과) ; 김우정(연세대학교 의과대학 용인세브란스병원 정신건강의학교실) ; 송민(연세대학교 문헌정보학과) 2022, Vol.39, No.1, pp.91-117 https://doi.org/10.3743/KOSIM.2022.39.1.091
초록보기
초록

국내를 비롯하여 전 세계적으로 우울증 환자 수가 매년 증가하는 추세이다. 그러나 대다수의 정신질환 환자들은 자신이 질병을 앓고 있다는 사실을 인식하지 못해서 적절한 치료가 이루어지지 않고 있다. 우울 증상이 방치되면 자살과 불안, 기타 심리적인 문제로 발전될 수 있기에 우울증의 조기 발견과 치료는 정신건강 증진에 있어 매우 중요하다. 이러한 문제점을 개선하기 위해 본 연구에서는 한국어 소셜 미디어 텍스트를 활용한 딥러닝 기반의 우울 경향 모델을 제시하였다. 네이버 지식인, 네이버 블로그, 하이닥, 트위터에서 데이터 수집을 한 뒤 DSM-5 주요 우울 장애 진단 기준을 활용하여 우울 증상 개수에 따라 클래스를 구분하여 주석을 달았다. 이후 구축한 말뭉치의 클래스 별 특성을 살펴보고자 TF-IDF 분석과 동시 출현 단어 분석을 실시하였다. 또한, 다양한 텍스트 특징을 활용하여 우울 경향 분류 모델을 생성하기 위해 단어 임베딩과 사전 기반 감성 분석, LDA 토픽 모델링을 수행하였다. 이를 통해 문헌 별로 임베딩된 텍스트와 감성 점수, 토픽 번호를 산출하여 텍스트 특징으로 사용하였다. 그 결과 임베딩된 텍스트에 문서의 감성 점수와 토픽을 모두 결합하여 KorBERT 알고리즘을 기반으로 우울 경향을 분류하였을 때 가장 높은 정확률인 83.28%를 달성하는 것을 확인하였다. 본 연구는 다양한 텍스트 특징을 활용하여 보다 성능이 개선된 한국어 우울 경향 분류 모델을 구축함에 따라, 한국 온라인 커뮤니티 이용자 중 잠재적인 우울증 환자를 조기에 발견해 빠른 치료 및 예방이 가능하도록 하여 한국 사회의 정신건강 증진에 도움을 줄 수 있는 기반을 마련했다는 점에서 의의를 지닌다.

Abstract

The number of depressed patients in Korea and around the world is rapidly increasing every year. However, most of the mentally ill patients are not aware that they are suffering from the disease, so adequate treatment is not being performed. If depressive symptoms are neglected, it can lead to suicide, anxiety, and other psychological problems. Therefore, early detection and treatment of depression are very important in improving mental health. To improve this problem, this study presented a deep learning-based depression tendency model using Korean social media text. After collecting data from Naver KonwledgeiN, Naver Blog, Hidoc, and Twitter, DSM-5 major depressive disorder diagnosis criteria were used to classify and annotate classes according to the number of depressive symptoms. Afterwards, TF-IDF analysis and simultaneous word analysis were performed to examine the characteristics of each class of the corpus constructed. In addition, word embedding, dictionary-based sentiment analysis, and LDA topic modeling were performed to generate a depression tendency classification model using various text features. Through this, the embedded text, sentiment score, and topic number for each document were calculated and used as text features. As a result, it was confirmed that the highest accuracy rate of 83.28% was achieved when the depression tendency was classified based on the KorBERT algorithm by combining both the emotional score and the topic of the document with the embedded text. This study establishes a classification model for Korean depression trends with improved performance using various text features, and detects potential depressive patients early among Korean online community users, enabling rapid treatment and prevention, thereby enabling the mental health of Korean society. It is significant in that it can help in promotion.

정보관리학회지