바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: social classification, 검색결과: 9
초록보기
초록

본 연구에서는 FRBR의 저작 단위로 태그(tag)가 부여되고 있는 LibraryThing에 나타난 태그를 활용하여, 소설(Fiction) 분야 태그들의 특성, 패턴의 형식적인 측면과 동시에 태그의 내용 분석을 시도하였다. 저작의 서지사항 기술 용어, LCSH 용어와 비교하여 관련 정도를 파악하였고, 이에 포함되지 않는 기타 태그의 출처는 어디인지, 저작의 어떤 측면을 표현하고 있는지, 저작과 연계하여 태그의 용어를 살펴보았다. 특히 소설이란 한 분야로 한정함으로써, 소설만이 가지는 특성인 소설의 3요소(주제, 구성, 문체), 소설 구성의 3요소(인물, 사건, 배경)를 반영한 태그를 파악하여, 향후 소설 정보의 조직 및 검색 요소로서 활용할 수 있는 가능성을 보여주었다. 이를 통해 기존의 색인어를 보완하는 폭소노미 태그의 역할을 규명하고 태깅시스템이 나아갈 새로운 방향을 제시하였다.

Abstract

This study aims to analyze the properties of the tags used in the fiction genre, the structural aspect of the patterns and the contents of the tags by utilizing LibraryThing, where the tags are assigned in work units of FRBR. A comparative analysis was conducted in terms of the level of association between the descriptive terms in bibliography and LCSH terms. The study also examined the sources of the tags not included in the bibliographic descriptions or LCSHs, what aspects of work they represented, and the terms used as tags in relation to the work. By restricting the study to a single genre, a number of tags that reflected the characteristics of fiction (three elements of the fiction which are theme, plot, style and three elements of the fiction composition which are character, event, setting) were extracted. This study finds out the role of the tag making up the taxonomy and proposes a new direction for the tagging system by demonstrating the possibility of using tags as facets in information organization and retrieval.

2
이수빈(연세대학교 문헌정보학과) ; 김성덕(연세대학교 문헌정보학과) ; 이주희(연세대학교 문헌정보학과) ; 고영수(연세대학교 문헌정보학과) ; 송민(연세대학교) 2021, Vol.38, No.2, pp.153-172 https://doi.org/10.3743/KOSIM.2021.38.2.153
초록보기
초록

본 연구는 공황장애 말뭉치 구축과 분석을 통해 공황장애의 특성을 살펴보고 공황장애 경향 문헌을 분류할 수 있는 딥러닝 자동 분류 모델을 만들고자 하였다. 이를 위해 소셜미디어에서 수집한 공황장애 관련 문헌 5,884개를 정신 질환 진단 매뉴얼 기준으로 직접 주석 처리하여 공황장애 경향 문헌과 비 경향 문헌으로 분류하였다. 이 중 공황장애 경향 문헌에 나타난 어휘적 특성 및 어휘의 관계성을 분석하기 위해 TF-IDF값을 산출하고 단어 동시출현 분석을 실시하였다. 공황장애의 특성 및 증상 간의 관련성을 분석하기 위해 증상 빈도수와 주석 처리된 증상 번호 간의 동시출현 빈도수를 산출하였다. 또한, 구축한 말뭉치를 활용하여 딥러닝 자동 분류 모델 학습 및 성능 평가를 하였다. 이를 위하여 최신 딥러닝 언어 모델 BERT 중 세 가지 모델을 활용하였고 이 중 KcBERT가 가장 우수한 성능을 보였다. 본 연구는 공황장애 관련 증상을 겪는 사람들의 조기 진단 및 치료를 돕고 소셜미디어 말뭉치를 활용한 정신 질환 연구의 영역을 확장하고자 시도한 점에서 의의가 있다.

Abstract

This study is to create a deep learning based classification model to examine the characteristics of panic disorder and to classify the panic disorder tendency literature by the panic disorder corpus constructed for the present study. For this purpose, 5,884 documents of the panic disorder corpus collected from social media were directly annotated based on the mental disease diagnosis manual and were classified into panic disorder-prone and non-panic-disorder documents. Then, TF-IDF scores were calculated and word co-occurrence analysis was performed to analyze the lexical characteristics of the corpus. In addition, the co-occurrence between the symptom frequency measurement and the annotated symptom was calculated to analyze the characteristics of panic disorder symptoms and the relationship between symptoms. We also conducted the performance evaluation for a deep learning based classification model. Three pre-trained models, BERT multi-lingual, KoBERT, and KcBERT, were adopted for classification model, and KcBERT showed the best performance among them. This study demonstrated that it can help early diagnosis and treatment of people suffering from related symptoms by examining the characteristics of panic disorder and expand the field of mental illness research to social media.

3
고영수(연세대학교 문헌정보학과 석사과정) ; 이수빈(연세대학교 문헌정보학과 박사과정) ; 차민정(연세대학교 소셜오믹스 연구센터) ; 김성덕(연세대학교 문헌정보학과 석사과정) ; 이주희(연세대학교 문헌정보학과 석사과정) ; 한지영(연세대학교 문헌정보학과 석사과정) ; 송민(연세대학교 문헌정보학과) 2022, Vol.39, No.2, pp.111-129 https://doi.org/10.3743/KOSIM.2022.39.2.111
초록보기
초록

불면증은 최근 5년 새 환자가 20% 이상 증가하고 있는 현대 사회의 만성적인 질병이다. 수면이 부족할 경우 나타나는 개인 및 사회적 문제가 심각하고 불면증의 유발 요인이 복합적으로 작용하고 있어서 진단 및 치료가 중요한 질환이다. 본 연구는 자유롭게 의견을 표출하는 소셜 미디어 ‘Reddit’의 불면증 커뮤니티인 ‘insomnia’를 대상으로 5,699개의 데이터를 수집하였고 이를 국제수면장애분류 ICSD-3 기준과 정신의학과 전문의의 자문을 받은 가이드라인을 바탕으로 불면증 경향 문헌과 비경향 문헌으로 태깅하여 불면증 말뭉치를 구축하였다. 구축된 불면증 말뭉치를 학습데이터로 하여 5개의 딥러닝 언어모델(BERT, RoBERTa, ALBERT, ELECTRA, XLNet)을 훈련시켰고 성능 평가 결과 RoBERTa가 정확도, 정밀도, 재현율, F1점수에서 가장 높은 성능을 보였다. 불면증 소셜 데이터를 심층적으로 분석하기 위해 기존에 많이 사용되었던 LDA의 약점을 보완하며 새롭게 등장한 BERTopic 방법을 사용하여 토픽 모델링을 진행하였다. 계층적 클러스터링 분석 결과 8개의 주제군(‘부정적 감정’, ‘조언 및 도움과 감사’, ‘불면증 관련 질병’, ‘수면제’, ‘운동 및 식습관’, ‘신체적 특징’, ‘활동적 특징’, ‘환경적 특징’)을 확인할 수 있었다. 이용자들은 불면증 커뮤니티에서 부정 감정을 표현하고 도움과 조언을 구하는 모습을 보였다. 또한, 불면증과 관련된 질병들을 언급하고 수면제 사용에 대한 담론을 나누며 운동 및 식습관에 관한 관심을 표현하고 있었다. 발견된 불면증 관련 특징으로는 호흡, 임신, 심장 등의 신체적 특징과 좀비, 수면 경련, 그로기상태 등의 활동적 특징, 햇빛, 담요, 온도, 낮잠 등의 환경적 특징이 확인되었다.

Abstract

Insomnia is a chronic disease in modern society, with the number of new patients increasing by more than 20% in the last 5 years. Insomnia is a serious disease that requires diagnosis and treatment because the individual and social problems that occur when there is a lack of sleep are serious and the triggers of insomnia are complex. This study collected 5,699 data from ‘insomnia’, a community on ‘Reddit’, a social media that freely expresses opinions. Based on the International Classification of Sleep Disorders ICSD-3 standard and the guidelines with the help of experts, the insomnia corpus was constructed by tagging them as insomnia tendency documents and non-insomnia tendency documents. Five deep learning language models (BERT, RoBERTa, ALBERT, ELECTRA, XLNet) were trained using the constructed insomnia corpus as training data. As a result of performance evaluation, RoBERTa showed the highest performance with an accuracy of 81.33%. In order to in-depth analysis of insomnia social data, topic modeling was performed using the newly emerged BERTopic method by supplementing the weaknesses of LDA, which is widely used in the past. As a result of the analysis, 8 subject groups (‘Negative emotions’, ‘Advice and help and gratitude’, ‘Insomnia-related diseases’, ‘Sleeping pills’, ‘Exercise and eating habits’, ‘Physical characteristics’, ‘Activity characteristics’, ‘Environmental characteristics’) could be confirmed. Users expressed negative emotions and sought help and advice from the Reddit insomnia community. In addition, they mentioned diseases related to insomnia, shared discourse on the use of sleeping pills, and expressed interest in exercise and eating habits. As insomnia-related characteristics, we found physical characteristics such as breathing, pregnancy, and heart, active characteristics such as zombies, hypnic jerk, and groggy, and environmental characteristics such as sunlight, blankets, temperature, and naps.

초록보기
초록

이 연구는 KCI 기타인문학, 기타사회과학, 사회과학일반 분야(이하 ‘일반 및 기타 분야’로 표기)에 속한 학술지의 다학문성과 학제성을 분석한 후, 이를 바탕으로 일반 및 기타 분야의 학술지 분류에 대한 개선방안을 제안하는 것이 목적이다. 개별 학술지의 다학문성과 학제성은 인용관계에 나타난 학술지 단위 엔트로피와 논문 단위 엔트로피로 각각 측정하였다. 학술지 간 인용관계 분석 결과 KCI 일반 및 기타 분야에는 다학문성과 학제성 측면에서 다양한 학술지가 혼재되어 있는 것으로 나타났다. 일반 및 기타 분야 학술지의 분류를 바로잡기 위해서는 우선 학술연구분야 분류표에 인문학일반 분야를 새로 설정할 필요가 있음을 밝혔다. 나아가서 각 학술지의 다학문성 수준 및 학제성 수준을 고려하여 일반 및 기타 분야 학술지를 재분류하는 방안을 제안하였다.

Abstract

This study analyzed humanities and social science (HSS) journals of KCI to examine the multidisciplinarity and interdisciplinarity in the general and miscellaneous fields (hereinafter referred to as ‘GM fields’), The multidisciplinarity and interdisciplinarity identified in this study will be a foundation to improve classification of KCI journals in GM fields. Each journal’s multidisciplinarity and interdisciplinarity were measured by journal-level entropy and document-level entropy, respectively, in the citation relationships. According to the analysis, GM field journals have wide ranges of multidisciplinarity and interdisciplinarity. To improve classification quality of journals in GM fields, the general humanities should be considered as a new classification class for the multidisciplinary and interdisciplinary journals in the humanities. Furthermore, this study proposes a strategy to reclassify GM field journals of HSS according to their multidisciplinarity and interdisciplinarity.

초록보기
초록

이 연구에서는 한 대학도서관의 신착 도서 리스트 중 사회 과학 분야 6,253권에 대해 목차 정보를 이용하여 자동 분류를 적용하였다. 분류기는 kNN 알고리즘을 사용하였으며 자동 분류의 범주로 도서관에서 도서에 부여한 DDC 300대 강목을 사용하였다. 분류 자질은 도서의 서명과 목차를 사용하였으며, 목차는 인터넷 서점으로부터 Open API를 통해 획득하였다. 자동 분류 실험 결과, 목차 자질은 분류 재현율과 분류 정확률 모두를 향상시키는 좋은 자질임을 알 수 있었다. 또한 목차는 풍부한 자질로 불균형인 데이터의 과적합 문제를 완화시키는 것으로 나타났다. 법학과 교육학은 사회 과학 분야에서 특정성이 높아 서명 자질만으로도 좋은 분류 성능을 가져오는 점도 파악할 수 있었다.

Abstract

This study applied automatic classification using table of contents (TOC) text for 6,253 social science books from a newly arrived list collected by a university library. The k-nearest neighbors (kNN) algorithm was used as a classifier, and the ten divisions on the second level of the DDC’s main class 300 given to books by the library were used as classes (labels). The features used in this study were keywords extracted from titles and TOCs of the books. The TOCs were obtained through the OpenAPI from an Internet bookstore. As a result, it was found that the TOC features were good for improving both classification recall and precision. The TOC was shown to reduce the overfitting problem of imbalanced data with its rich features. Law and education have high topic specificity in the field of social sciences, so the only title features can bring good classification performance in these fields.

6
임진솔(전북대학교 일반대학원 기록관리학과) ; 한희정(한국국토정보공사 운영지원부) ; 오효정(전북대학교) 2023, Vol.40, No.2, pp.137-156 https://doi.org/10.3743/KOSIM.2023.40.2.137
초록보기
초록

사회․정치적 패러다임의 변화에 따라 공공기관의 기관업무 및 직제는 시시각각 신설되거나 통합 또는 폐지된다. 효과적인 기록관리 관점에서는 이러한 변화를 반영하여 이전에 구축된 기록물 분류체계와 현행 업무 맥락이 적정한지 검토할 필요가 있다. 그러나 대부분 기관에서는 분류체계 재정비 과정이 실무담당자나 기관 기록물 담당자의 실무 경험적 판단에 의존한 수작업으로 진행되고 있어, 기업의 변화가 적시에 반영되거나 전체 큰 맥락을 통합적으로 파악하기가 어렵다. 이에 본 연구는 이러한 문제를 보완하고 나아가 기록의 효율적인 관리를 위해 자동화 및 지능화 기술을 활용한 기록물 분류체계 재정비 방안을 제안한다. 또한 제안된 방법론을 실제 공공기관에 적용하고, 도출된 결과물을 기관의 기능분류 담당 실무자와 면담을 수행하여 그 실효성과 한계점을 검증하였다. 이를 통해 재정비한 기록물 분류체계의 정확도와 신뢰도를 높여 기록물 관리의 표준화 실현을 도모하고자 한다.

Abstract

As social and political paradigms change, public institution tasks and structures are constantly created, integrated, or abolished. From an effective record management perspective, it is necessary to review whether the previously established record classification schemes reflect these changes and remain relevant to current tasks. However, in most institutions, the restructuring process relies on manual labor and the experiential judgment of practitioners or institutional record managers, making it difficult to reflect changes in a timely manner or comprehensively understand the overall context. To address these issues and improve the efficiency of record management, this study proposes an approach using automation and intelligence technologies to restructure the classification schemes, ensuring records are filed within an appropriate context. Furthermore, the proposed approach was applied to the target institution, its results were used as the basis for interviews with the practitioners to verify the effectiveness and limitations of the approach. It is, aiming to enhance the accuracy and reliability of the restructured record classification schemes and promote the standardization of record management.

초록보기
초록

정보관리기관은 기관의 디지털 성숙도를 효과적으로 평가하고 개선 방향을 명확히 하여 급속도로 발전하는 정보기술환경에 대응할 필요가 있다. 본 연구는 급변하는 정보환경 속에서 정보관리기관의 효과적인 평가 및 방향설정이 용이하도록 디지털 전환의 관점에서 KISTI가 개발한 디지털 큐레이션 성숙도 모델의 가중치를 도출하였다. AHP기법을 통해 모델의 대분류와 중분류에서 상대적 중요도를 가중치로서 도출하였다. 그 결과를 정리해 보면, 전체 모형의 대분류를 100점 기준으로 측정할 때 기술은 27점, 데이터는 24점, 전략은 19점, 조직(인력)은 16점, (사회적)영향력은 14점으로 계산 가능하였다. 그리고 각 대분류 내 중분류에 대해서도 세부항목 별 가중치를 각각 100점 만점을 기준으로 제시하였다. 본 연구에서 도출한 영역별 가중치를 디지털전환 성숙도 평가 모델에 적용함으로써 보다 객관적이고 합리적인 평가가 가능할 것으로 기대된다.

Abstract

In the rapidly developing information technology environment, information management organizations need to effectively evaluate their digital maturity and clarify the direction of improvement to effectively respond to rapidly changing environments. This study derived weights for the digital curation maturity model developed by KISTI from the perspective of digital transformation to facilitate effective evaluation and direction setting of information management organizations. Relative importance was derived as a weight in the major and middle categories of the model through the AHP technique. Summarizing the results, when the major categories of the entire model are measured on the basis of 100 points, technology is 27 points, data is 24 points, strategy is 19 points, organization (manpower) is 16 points, and (social) influence is calculated as 14 points. In addition, weights for each subcategory were presented for each major classification based on a perfect score of 100 points. It is expected that a more objective and reasonable evaluation will be possible by applying the weights for each area derived from this study to the digital transformation maturity evaluation model.

8
박서정(연세대학교 문헌정보학과) ; 이수빈(연세대학교 문헌정보학과) ; 김우정(연세대학교 의과대학 용인세브란스병원 정신건강의학교실) ; 송민(연세대학교 문헌정보학과) 2022, Vol.39, No.1, pp.91-117 https://doi.org/10.3743/KOSIM.2022.39.1.091
초록보기
초록

국내를 비롯하여 전 세계적으로 우울증 환자 수가 매년 증가하는 추세이다. 그러나 대다수의 정신질환 환자들은 자신이 질병을 앓고 있다는 사실을 인식하지 못해서 적절한 치료가 이루어지지 않고 있다. 우울 증상이 방치되면 자살과 불안, 기타 심리적인 문제로 발전될 수 있기에 우울증의 조기 발견과 치료는 정신건강 증진에 있어 매우 중요하다. 이러한 문제점을 개선하기 위해 본 연구에서는 한국어 소셜 미디어 텍스트를 활용한 딥러닝 기반의 우울 경향 모델을 제시하였다. 네이버 지식인, 네이버 블로그, 하이닥, 트위터에서 데이터 수집을 한 뒤 DSM-5 주요 우울 장애 진단 기준을 활용하여 우울 증상 개수에 따라 클래스를 구분하여 주석을 달았다. 이후 구축한 말뭉치의 클래스 별 특성을 살펴보고자 TF-IDF 분석과 동시 출현 단어 분석을 실시하였다. 또한, 다양한 텍스트 특징을 활용하여 우울 경향 분류 모델을 생성하기 위해 단어 임베딩과 사전 기반 감성 분석, LDA 토픽 모델링을 수행하였다. 이를 통해 문헌 별로 임베딩된 텍스트와 감성 점수, 토픽 번호를 산출하여 텍스트 특징으로 사용하였다. 그 결과 임베딩된 텍스트에 문서의 감성 점수와 토픽을 모두 결합하여 KorBERT 알고리즘을 기반으로 우울 경향을 분류하였을 때 가장 높은 정확률인 83.28%를 달성하는 것을 확인하였다. 본 연구는 다양한 텍스트 특징을 활용하여 보다 성능이 개선된 한국어 우울 경향 분류 모델을 구축함에 따라, 한국 온라인 커뮤니티 이용자 중 잠재적인 우울증 환자를 조기에 발견해 빠른 치료 및 예방이 가능하도록 하여 한국 사회의 정신건강 증진에 도움을 줄 수 있는 기반을 마련했다는 점에서 의의를 지닌다.

Abstract

The number of depressed patients in Korea and around the world is rapidly increasing every year. However, most of the mentally ill patients are not aware that they are suffering from the disease, so adequate treatment is not being performed. If depressive symptoms are neglected, it can lead to suicide, anxiety, and other psychological problems. Therefore, early detection and treatment of depression are very important in improving mental health. To improve this problem, this study presented a deep learning-based depression tendency model using Korean social media text. After collecting data from Naver KonwledgeiN, Naver Blog, Hidoc, and Twitter, DSM-5 major depressive disorder diagnosis criteria were used to classify and annotate classes according to the number of depressive symptoms. Afterwards, TF-IDF analysis and simultaneous word analysis were performed to examine the characteristics of each class of the corpus constructed. In addition, word embedding, dictionary-based sentiment analysis, and LDA topic modeling were performed to generate a depression tendency classification model using various text features. Through this, the embedded text, sentiment score, and topic number for each document were calculated and used as text features. As a result, it was confirmed that the highest accuracy rate of 83.28% was achieved when the depression tendency was classified based on the KorBERT algorithm by combining both the emotional score and the topic of the document with the embedded text. This study establishes a classification model for Korean depression trends with improved performance using various text features, and detects potential depressive patients early among Korean online community users, enabling rapid treatment and prevention, thereby enabling the mental health of Korean society. It is significant in that it can help in promotion.

9
노영희(건국대학교) ; 장인호(대진대학교 문헌정보학과) ; 심효정(경기대학교 문헌정보학과) ; 곽우정(건국대학교 GLOCAL(글로컬)캠퍼스 지식콘텐츠연구소) 2022, Vol.39, No.4, pp.191-213 https://doi.org/10.3743/KOSIM.2022.39.4.191
초록보기
초록

기존 국립세종도서관 정책정보포털(POINT)의 국정과제 서비스를 뛰어넘는 고품질 정책정보서비스 제공을 위하여, 새로운 국정과제 이행에 필요한 정책자료를 효과적으로 서비스할 수 있는 방안이 필요하다고 생각된다. 이에 본 연구에서는 BRM기반 국정과제와 정책정보콘텐츠 연계 및 구축방안을 모색하고자 하였다. 이를 위해, 첫째, 新정부 120대 국정과제를 중심으로 국정과제 유형과 정부기능분류체계 분야․영역별 콘텐츠를 분석하였다. 또 이전 정부의 국정과제와 현 정보의 국정과제를 비교․분석하여 국정과제 관련 콘텐츠 구축 시 중점적으로 반영해야 할 내용을 파악하였다. 둘째, 정책정보 및 국가 정보 포털의 현황 분석 등을 통해 정책 정보의 연계 및 수집 방안을 모색하였다. 연구 결과, 첫째, 국정과제의 1단계 BRM을 보면, 사회복지 21개, 통일외교 14개, 산업통상중소기업 17개, 일반공공행정 12개, 재정세제금융이 8개, 문화체육관광과 과학기술, 교육이 각 6개, 통신과 공공질서및안전이 5개, 보건, 교통및물류, 환경이 각 4개, 농림 3개, 국방, 지역개발이 각 2개, 해양수산이 각 1개 등의 순으로 나타났다. 新정부의 경우 과학기술과 IT를 중시하는 것을 알 수 있어 핵심 국정과제 정보서비스 구축 시에도 이를 고려할 필요가 있다. 둘째, 외부 기관과의 데이터베이스 연계를 위해서는 연계운영협의회를 구성하고, 국정과제 정보의 연계 및 수집, 국정과제 관련 정보 POINT 연계 및 제공이 필요하다.

Abstract

With a view to providing a high-quality policy information service beyond the existing national task service of the national policy information portal (POINT) of the National Library of Korea Sejong, it would be necessary to effectively provide the policy data needed for the implementation of the new national tasks. Accordingly, in this study, an attempt has been made to find a way to connect and develop the BRM-based national tasks and the policy information contents. Towards this end, first, the types of national tasks and the contents of each field and area of the government function’s classification system were analyzed, with a focus placed on the 120 national tasks of the new administration. Furthermore, by comparing and analyzing the national tasks of the previous administration and the current information, the contents ought to be reflected for the development of contents related to the national tasks identified. Second, the method for linking and collecting the policy information was sought based on the analysis of the current status of policy information and the national information portal. As a result of the study, first, examining the 1st stage BRM of the national tasks, it turned out that there were 21 tasks for social welfare, 14 for unification and diplomacy, 17 for small and medium-sized businesses in industry and trade, 12 for general public administration, 8 for the economy, taxation and finance, 6 for culture, sports and tourism, science and technology, and education each, 5 for communication, public order and safety each, 4 for health, transportation and logistics, and environment each, 3 for agriculture and forestry, 2 for national defense and regional development each, and 1 for maritime and fisheries each, among others. As for the new administration, it is apparent that science technology and IT are important, and hence, it is necessary to consider such when developing the information services for the core national tasks. Second, to link the database with external organizations, it would be necessary to form a linked operation council, link and collect the information on the national tasks, and link and provide the national task-related information for the POINTs.

정보관리학회지