바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: feature combination, 검색결과: 9
초록보기
초록

의견 검색은 사용자의 정보 요구에 주제적으로 연관되면서도 의견이 포함되어 있는 정보를 검색하는 태스크이다. 본 연구는 효과적인 의견 검색을 위해 사용자 정보 요구를 표현하는 방법과 이 요구를 만족시킬만한 여러 의견 자질들을 효과적으로 결합할 수 있는 방법에 대하여 실험을 통해 분석하였다. 본 실험에서는 추론 네트워크 모델을 기본 검색 모델로 사용하였고, Blogs06 컬렉션과 100개의 TREC 토픽에 대해 실험을 수행하였다. 실험 결과, 가상의 ‘의견’ 개념을 설정하여 효과적으로 의견 검색의 정보 요구를 표현할 수 있었으며, 극히 소량의 일반 의견 단어집만을 사용했는데도 동일한 환경에서 기존 모델과 견줄 만한 의견 검색 성능을 달성할 수 있었다.

Abstract

Opinion retrieval is to retrieve items which are relevant to the user information need topically and include opinion about the topic. This paper aims to find a method to represent user information need for effective opinion retrieval and to analyze the combination methods for opinion features through various experiments. The experiments are carried out in the inference network framework using the Blogs06 collection and 100 TREC test topics. The results show that our suggested representation method based on hidden ‘opinion’ concept is effective, and the compact model with very small opinion lexicon shows the comparable performance to the previous model on the same test data set.

초록보기
초록

Abstract

Titles have been regarded as having effective clustering features, but they sometimes fail to represent the topic of a document and result in poorly generated document clusters. This study aims to improve the performance of document clustering with titles by suggesting titles in the citation bibliography as a clustering feature. Titles of original literature, titles in the citation bibliography, and an aggregation of both titles were adapted to measure the performance of clustering. Each feature was combined with three hierarchical clustering methods, within group average linkage, complete linkage, and Ward's method in the clustering experiment. The best practice case of this experiment was clustering document with features from both titles by within-groups average method.

3
김판준(신라대학교 문헌정보학과) 2023, Vol.40, No.1, pp.1-21 https://doi.org/10.3743/KOSIM.2023.40.1.001
초록보기
초록

본 연구는 텍스트 분류를 위한 효율적인 자질선정 방법으로 자질 순위화 기법의 성능을 구체적으로 검토하였다. 지금까지 자질 순위화 기법은 주로 문헌빈도에 기초한 경우가 대부분이며, 상대적으로 용어빈도를 사용한 경우는 많지 않았다. 따라서 텍스트 분류를 위한 자질선정 방법으로 용어빈도와 문헌빈도를 개별적으로 적용한 단일 순위화 기법들의 성능을 살펴본 다음, 양자를 함께 사용하는 조합 순위화 기법의 성능을 검토하였다. 구체적으로 두 개의 실험 문헌집단(Reuters-21578, 20NG)과 5개 분류기(SVM, NB, ROC, TRA, RNN)를 사용하는 환경에서 분류 실험을 진행하였고, 결과의 신뢰성 확보를 위해 5-fold cross validation과 t-test를 적용하였다. 결과적으로, 단일 순위화 기법으로는 문헌빈도 기반의 단일 순위화 기법(chi)이 전반적으로 좋은 성능을 보였다. 또한, 최고 성능의 단일 순위화 기법과 조합 순위화 기법 간에는 유의한 성능 차이가 없는 것으로 나타났다. 따라서 충분한 학습문헌을 확보할 수 있는 환경에서는 텍스트 분류의 자질선정 방법으로 문헌빈도 기반의 단일 순위화 기법(chi)을 사용하는 것이 보다 효율적이라 할 수 있다.

Abstract

This study specifically reviewed the performance of the ranking schemes as an efficient feature selection method for text classification. Until now, feature ranking schemes are mostly based on document frequency, and relatively few cases have used the term frequency. Therefore, the performance of single ranking metrics using term frequency and document frequency individually was examined as a feature selection method for text classification, and then the performance of combination ranking schemes using both was reviewed. Specifically, a classification experiment was conducted in an environment using two data sets (Reuters-21578, 20NG) and five classifiers (SVM, NB, ROC, TRA, RNN), and to secure the reliability of the results, 5-Fold cross-validation and t-test were applied. As a result, as a single ranking scheme, the document frequency-based single ranking metric (chi) showed good performance overall. In addition, it was found that there was no significant difference between the highest-performance single ranking and the combination ranking schemes. Therefore, in an environment where sufficient learning documents can be secured in text classification, it is more efficient to use a single ranking metric (chi) based on document frequency as a feature selection method.

초록보기
초록

최근 다양한 주제 분야의 블로그가 이용자의 정보요구를 충족시켜주는 웹 정보원 중 하나로 활용되고 있다. 본 연구에서는 블로그 페이지의 검색 성능을 향상시키기 위하여 이용자가 부여한 태그 및 트랙백을 이용하여 블로그 페이지의 검색 실험을 수행하였다. 실험을 위해 4,908개의 블로그 페이지와 각 페이지에 트랙백으로 연결된 다른 블로그 페이지의 URL을 수집하였다. 검색 자질로 본문의 용어에 이용자 태그를 추가하였을 경우와 네트워크 중심성 값을 반영하였을 경우 모두 검색 성능이 향상되었고, 본문 용어와 이용자 태그를 검색 자질로 함께 사용하고 여기에 중심성 값을 반영하였을 경우 가장 좋은 성능을 보였다.

Abstract

Blogs are now one of the major information resources on the web. The purpose of this study is to enhance the performance of blog retrieval by means of user assigned tags and trackback information. To this end, retrieval experiments were performed with a dataset of 4,908 blog pages together with their associated trackback URLs. In the experiments, text terms, user tags, and network centrality values based on trackbacks were variously combined as retrieval features. The experimental results showed that employing user tags and network centrality values as retrieval features in addition to text words could improve the performance of blog retrieval.

5
곽승진(충남대학교 문헌정보학과 교수) ; 노영희(건국대학교 문헌정보학과 교수) ; 오상희(충남대학교 문헌정보학과 부교수) ; 김정택(배재대학교 학술정보팀 팀장) ; 노지윤(건국대학교 문헌정보학과 박사과정) 2020, Vol.37, No.4, pp.27-60 https://doi.org/10.3743/KOSIM.2020.37.4.027
초록보기
초록

본 연구에서 제안되는 세종시립도서관 정보서비스 및 프로그램은 국내 지역대표도서관 및 해외도서관 사례들을 종합하여 제안한다. 제안의 특징으로 첫째, 세종시립도서관에서 제공가능한 정보서비스를 영역별, 이용자별, 자료 유형별, 매체별, 협력기관별 등으로 다양하게 제안한다. 둘째, 생애주기별 이용자프로그램을 강화하여 독서토론, 독서체험, 독서 이벤트 등의 다양한 연령별․관심별 독서 프로그램을 제공한다. 성인, 어린이, 가족프로그램 등 세종시 인구 특성을 반영한 이용자 기반의 프로그램을 강화한다. 셋째, 메이커스페이스 공간을 확보하여 활용한다. 넷째, 세종시립도서관에서 개발한 독서 프로그램을 지역 도서관과 협력하여 홍보 및 공유한다. 다섯째, 세종시 지역주민의 봉사 활동 및 재능 기부 등의 참여를 유도한다. 여섯째, 도서관 웹사이트, 소셜 미디어 등을 활용한 도서관 정보서비스를 제안하고, 이용자와의 상호 협력 채널을 개발한다.

Abstract

Sejong City Library information services and programs proposed in this study are proposed by combining cases of local representative libraries and overseas libraries. As a feature of the proposal, first, various information services that can be provided by the Sejong City Library are proposed by area, by user, by data type, by media, by partner institution, etc. Second, by reinforcing user programs for each life cycle, various reading programs by age and interest, such as reading discussion, reading experience, and reading events, are provided. Reinforce user-based programs that reflect the characteristics of Sejong City’s population, such as adult, child, and family programs. Third, secure and utilize maker space space. Fourth, the reading program developed by the Sejong City Library is promoted and shared in cooperation with local libraries. Fifth, induce participation of local residents in Sejong City, volunteer activities and talent donation. Sixth, propose library information services using library websites and social media, and develop channels for mutual cooperation with users.

초록보기
초록

Abstract

As IT technology develops rapidly and the personal dissemination of smart devices increases, video material is especially used as a medium of information transmission among audiovisual materials. Video as an information service content has become an indispensable element, and it has been used in various ways such as unidirectional delivery through TV, interactive service through the Internet, and audiovisual library borrowing. Especially, in the Internet environment, the information provider tries to reduce the effort and cost for the processing of the provided information in view of the video service through the smart device. In addition, users want to utilize only the desired parts because of the burden on excessive network usage, time and space constraints. Therefore, it is necessary to enhance the usability of the video by automatically classifying, summarizing, and indexing similar parts of the contents. In this paper, we propose a method of automatically segmenting the shots that make up videos by analyzing the contents and characteristics of language education videos and indexing the detailed contents information of the linguistic videos by combining visual features. The accuracy of the semantic based shot segmentation is high, and it can be effectively applied to the summary service of language education videos.

7
신혜원((전)숙명여자대학교 문헌정보학과 석사과정) ; 신동희(숙명여자대학교 문헌정보학과 조교수) 2023, Vol.40, No.3, pp.245-271 https://doi.org/10.3743/KOSIM.2023.40.3.245
초록보기
초록

본 연구는 전자책 이용률이 높은 디지털 네이티브 세대인 20대를 대상으로 전자책 구독서비스에 대한 인식을 파악하고자 하였다. 설문조사와 사용성 평가(usability testing)를 병행한 혼합연구 방법을 통해 전자책 이용률이 높은 20대 대학생의 전자책 구독 서비스이용 실태 및 서비스에 대한 인식을 조사하였다. 설문조사를 통해 국내 대학생 202명의 의견을 수집하였고, 전자책 비이용자와 이용자를 구분하여 분석하였다. 설문 결과, 비이용자와 이용자 간의 전자책에 인식의 차이가 나타났으며, 휴대성 및 편의성은 두 연구 참여자 그룹에게 공통적으로 나타나는 전자책의 장점으로 조사되었다. 사용성 평가에서 사용된 ‘밀리의 서재’ 애플리케이션은 가장 대중적인 전자책 플랫폼으로 해당 서비스를 활용하여 전자책 이용 경험이 없는 20대 대학생 10명을 대상으로 평가가 진행되었다. 실험 결과, 연구 참여자들은 전자책의 편의성, 디자인, 다양한 부가 기능, 가성비 등에 대해 긍정적인 반응을 보인 반면, 흥미 부족, 기능 실용성, 터치 오류 및 오작동, 장서 부족, 시스템 문제에 대해서는 부정적인 의견을 나타냈다.

Abstract

The purpose of this study was to assess the perception of e-book subscription services among the digitally native generation in their twenties, who have a high e-book usage rate. This study employed a mixed-methods approach, combining survey responses and usability testing. It aimed to assess the awareness and usage of e-book subscription services among university students in their twenties, a demographic known for their high utilization of electronic devices and e-books. The survey was conducted among 202 university students, and the responses were categorized and examined based on whether they were users or non-users. As a result of the survey, I found there is different awareness of e-book between users and non-users, on the other hand, convenience and portability are the strong point of e-books for users and non-users commonly also. Usability testing was performed on a group of 10 university students in their twenties who had not previously used the ‘Millies Library’ application, which is renowned as the most widely-used e-book platform. Following the experiment, participants expressed positive feedback regarding various optional features, convenience, design, and cost-effectiveness. However, they also had negative reactions concerning touch errors, malfunctions, functional practicality, a lack of interest, system issues, and the absence of a library.

8
박서정(연세대학교 문헌정보학과) ; 이수빈(연세대학교 문헌정보학과) ; 김우정(연세대학교 의과대학 용인세브란스병원 정신건강의학교실) ; 송민(연세대학교 문헌정보학과) 2022, Vol.39, No.1, pp.91-117 https://doi.org/10.3743/KOSIM.2022.39.1.091
초록보기
초록

국내를 비롯하여 전 세계적으로 우울증 환자 수가 매년 증가하는 추세이다. 그러나 대다수의 정신질환 환자들은 자신이 질병을 앓고 있다는 사실을 인식하지 못해서 적절한 치료가 이루어지지 않고 있다. 우울 증상이 방치되면 자살과 불안, 기타 심리적인 문제로 발전될 수 있기에 우울증의 조기 발견과 치료는 정신건강 증진에 있어 매우 중요하다. 이러한 문제점을 개선하기 위해 본 연구에서는 한국어 소셜 미디어 텍스트를 활용한 딥러닝 기반의 우울 경향 모델을 제시하였다. 네이버 지식인, 네이버 블로그, 하이닥, 트위터에서 데이터 수집을 한 뒤 DSM-5 주요 우울 장애 진단 기준을 활용하여 우울 증상 개수에 따라 클래스를 구분하여 주석을 달았다. 이후 구축한 말뭉치의 클래스 별 특성을 살펴보고자 TF-IDF 분석과 동시 출현 단어 분석을 실시하였다. 또한, 다양한 텍스트 특징을 활용하여 우울 경향 분류 모델을 생성하기 위해 단어 임베딩과 사전 기반 감성 분석, LDA 토픽 모델링을 수행하였다. 이를 통해 문헌 별로 임베딩된 텍스트와 감성 점수, 토픽 번호를 산출하여 텍스트 특징으로 사용하였다. 그 결과 임베딩된 텍스트에 문서의 감성 점수와 토픽을 모두 결합하여 KorBERT 알고리즘을 기반으로 우울 경향을 분류하였을 때 가장 높은 정확률인 83.28%를 달성하는 것을 확인하였다. 본 연구는 다양한 텍스트 특징을 활용하여 보다 성능이 개선된 한국어 우울 경향 분류 모델을 구축함에 따라, 한국 온라인 커뮤니티 이용자 중 잠재적인 우울증 환자를 조기에 발견해 빠른 치료 및 예방이 가능하도록 하여 한국 사회의 정신건강 증진에 도움을 줄 수 있는 기반을 마련했다는 점에서 의의를 지닌다.

Abstract

The number of depressed patients in Korea and around the world is rapidly increasing every year. However, most of the mentally ill patients are not aware that they are suffering from the disease, so adequate treatment is not being performed. If depressive symptoms are neglected, it can lead to suicide, anxiety, and other psychological problems. Therefore, early detection and treatment of depression are very important in improving mental health. To improve this problem, this study presented a deep learning-based depression tendency model using Korean social media text. After collecting data from Naver KonwledgeiN, Naver Blog, Hidoc, and Twitter, DSM-5 major depressive disorder diagnosis criteria were used to classify and annotate classes according to the number of depressive symptoms. Afterwards, TF-IDF analysis and simultaneous word analysis were performed to examine the characteristics of each class of the corpus constructed. In addition, word embedding, dictionary-based sentiment analysis, and LDA topic modeling were performed to generate a depression tendency classification model using various text features. Through this, the embedded text, sentiment score, and topic number for each document were calculated and used as text features. As a result, it was confirmed that the highest accuracy rate of 83.28% was achieved when the depression tendency was classified based on the KorBERT algorithm by combining both the emotional score and the topic of the document with the embedded text. This study establishes a classification model for Korean depression trends with improved performance using various text features, and detects potential depressive patients early among Korean online community users, enabling rapid treatment and prevention, thereby enabling the mental health of Korean society. It is significant in that it can help in promotion.

9
이용구(계명대학교) ; 정영미(연세대학교) 2007, Vol.24, No.1, pp.321-342 https://doi.org/10.3743/KOSIM.2007.24.1.321
초록보기
초록

이 연구에서는 수작업 태깅없이 기계가독형 사전을 이용하여 자동으로 의미를 태깅한 후 학습데이터로 구축한 분류기에 대해 의미를 분류하는 단어 중의성 해소 모형을 제시하였다. 자동 태깅을 위해 사전 추출 정보 기반 방법과 연어 공기 기반 방법을 적용하였다. 실험 결과, 자동 태깅에서는 복수 자질 축소를 적용한 사전 추출 정보 기반 방법이 70.06%의 태깅 정확도를 보여 연어 공기 기반 방법의 56.33% 보다 24.37% 향상된 성능을 가져왔다. 사전 추출 정보 기반 방법을 이용한 분류기의 분류 정학도는 68.11%로서 연어 공기 기반 방법의 62.09% 보다 9.7% 향상된 성능을 보였다. 또한 두 자동 태깅 방법을 결합한 결과 태깅 정확도는 76.09%, 분류 정확도는 76.16%로 나타났다.

Abstract

This study presents an effective word sense disambiguation model that does not require manual sense tagging process by automatically tagging the right sense using a machine-readable dictionary, and attempts to classify the senses of those words using a classifier built from the training data. The automatic tagging technique was implemnted by the dictionary information-based and the collocation co-occurrence-based methods. The dictionary information-based method that applied multiple feature selection showed the tagging accuracy of 70.06%, and the collocation co-occurrence-based method 56.33%. The sense classifier using the dictionary information-based tagging method showed the classification accuracy of 68.11%, and that using the collocation co-occurrence-based tagging method 62.09%. The combined tagging method applying data fusion technique achieved a greater performance of 76.09% resulting in the classification accuracy of 76.16%.

정보관리학회지