바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 분류모형, 검색결과: 16
1
백지원(이화여자대학교) ; 정연경(이화여자대학교) 2006, Vol.23, No.1, pp.63-81 https://doi.org/10.3743/KOSIM.2006.23.1.063
초록보기
초록

본 연구는 모든 지식조직체계의 근간인 용어관계가 동일성, 계층성, 연관성이라는 세 가지 포괄적인 기준에 의해 정의되어 사용됨으로써 정보의 정확성이 중시되는 오늘날의 정보 환경에서 제 기능을 다하지 못하고 있으므로, 그 해결 방안의 하나로 용어관계의 분류 모형을 제시하고자 하는데 목적이 있다. 이를 위해 기존의 여러 지식조직체계에 나타나는 각종 용어관계의 사례와 용어관계에 대한 이론적 연구들을 광범위하게 수집하여 다양한 용어관계의 유형을 파악하였다. 그리고 이를 바탕으로 용어관계를 명확하게 정의하고 범주화할 수 있는 용어관계 분류의 근거를 세우고 용어관계의 분류 모형을 개발하였다. 더 나아가 이 분류 모형을 정보검색을 비롯한 다양한 방면에 활용할 수 있는 방안을 모색하고 향후 용어관계 분류 연구에 대한 제언을 했다.용어관계의 분류 모형 개발에 관한 연구*

Abstract

The purpose of this study is to present the limitation of terminological relationships in the current information environment and to propose a solution to result the richer and refined terminological resources. For this, various kinds of terminological relationships in knowledge organization systems and theoretical researches were collected and analyzed. Based upon the analysis, a methodology for classification of terminological relationships was suggested and classification models were presented. Additionally, four suggestions were made for the practical uses of the classification models.

2
박용부(PAX자료정보연구소) ; 김태수(연세대학교) 2011, Vol.28, No.3, pp.83-101 https://doi.org/10.3743/KOSIM.2011.28.3.083
초록보기
초록

국제 표준인 ISO 15489와 관련코드에 따르면 공공조직이든 민간조직이든지를 막론하고 안정적인 기록물 분류체계를 구현하게 하는 기능 분류 사용을 권고하고 있다. 기업에서도 이를 따라 업무 수행 기록물을 분류․축적하여 검색․활용할 수 있는 체계를 구축하는 것은 기업 성장을 위해서 중요하다. 따라서 기업의 기록물 분류체계 개발에 적용할 수 있는 분류기준이나 개발 방법론 연구 및 모형의 연구가 반드시 필요하다. 본 연구에서는 우리나라 대기업 3개 회사와 중소기업 4개 회사 등 총 7개의 종합건설기업의 기록물 분류체계 사례연구를 통하여 분류체계의 내용을 비교 분석하였다. 사례연구를 통하여 도출한 분류원칙을 정리 종합하여 핵심적인 건설기록물 분류기준을 제시하고, 건설기록물 분류체계 모형을 도출하기 위하여 대기업 사례기업의 본사조직 및 프로젝트조직의 대분류 및 중분류 항목 구성을 상호 비교하면서 표준적인 본사조직 및 프로젝트조직 기록물 분류 항목을 도출하는 과정을 기술하고 그 결과로 개발된 건설기록물 분류체계 모형을 제시하였다.

Abstract

The international standards, ISO 15489 and Family Code, recommend using functional classification method both in public and private organizations. In this study made a comparative analysis of the details of classification systems through case studies on records classification systems of a total of seven comprehensive construction companies in Korea including three large corporations and four small and medium-size businesses. Findings of this study suggester the direction of developing construction records classification system and its methodology. By summarizing classification standards derived from these case studies, key construction records classification standards were presented.

초록보기
초록

이 연구는 짧은 텍스트인 서명에 단어 임베딩이 미치는 영향을 분석하기 위해 Word2vec, GloVe, fastText 모형을 이용하여 단행본 서명을 임베딩 벡터로 생성하고, 이를 분류자질로 활용하여 자동분류에 적용하였다. 분류기는 k-최근접 이웃(kNN) 알고리즘을 사용하였고 자동분류의 범주는 도서관에서 도서에 부여한 DDC 300대 강목을 기준으로 하였다. 서명에 대한 단어 임베딩을 적용한 자동분류 실험 결과, Word2vec와 fastText의 Skip-gram 모형이 TF-IDF 자질보다 kNN 분류기의 자동분류 성능에서 더 우수한 결과를 보였다. 세 모형의 다양한 하이퍼파라미터 최적화 실험에서는 fastText의 Skip-gram 모형이 전반적으로 우수한 성능을 나타냈다. 특히, 이 모형의 하이퍼파라미터로는 계층적 소프트맥스와 더 큰 임베딩 차원을 사용할수록 성능이 향상되었다. 성능 측면에서 fastText는 n-gram 방식을 사용하여 하부문자열 또는 하위단어에 대한 임베딩을 생성할 수 있어 재현율을 높이는 것으로 나타났다. 반면에 Word2vec의 Skip-gram 모형은 주로 낮은 차원(크기 300)과 작은 네거티브 샘플링 크기(3이나 5)에서 우수한 성능을 보였다.

Abstract

To analyze the impact of word embedding on book titles, this study utilized word embedding models (Word2vec, GloVe, fastText) to generate embedding vectors from book titles. These vectors were then used as classification features for automatic classification. The classifier utilized the k-nearest neighbors (kNN) algorithm, with the categories for automatic classification based on the DDC (Dewey Decimal Classification) main class 300 assigned by libraries to books. In the automatic classification experiment applying word embeddings to book titles, the Skip-gram architectures of Word2vec and fastText showed better results in the automatic classification performance of the kNN classifier compared to the TF-IDF features. In the optimization of various hyperparameters across the three models, the Skip-gram architecture of the fastText model demonstrated overall good performance. Specifically, better performance was observed when using hierarchical softmax and larger embedding dimensions as hyperparameters in this model. From a performance perspective, fastText can generate embeddings for substrings or subwords using the n-gram method, which has been shown to increase recall. The Skip-gram architecture of the Word2vec model generally showed good performance at low dimensions(size 300) and with small sizes of negative sampling (3 or 5).

4
정영미(연세대학교) ; 한승희(서울여자대학교) ; 김명옥(숭의여자대학) ; 유재복(한국원자력연구원) ; 이재윤(연세대학교) 2002, Vol.19, No.1, pp.135-161 https://doi.org/10.3743/KOSIM.2002.19.1.135
초록보기
초록

과학기술 분류표, 시소러스, 용어사전 등의 주요한 색인 및 검색 도구를 한국어, 영어, 일본어의 3개 언어로 통합 구축하고 활용할 수 있도록 다기능, 다국어 과학기술 통합 개념체계의 개발 방안을 마련하였다. 개념을 기본 단위로 시소러스 모델을 개발하였으며, 용어사전 레코드는 ISO 12620 표준에 근거하여 필수요소를 지정하였다. 또한 과학기술분야 표준분류표를 대분류 수준까지 작성하고 기존 분류표와의 매핑 테이블을 작성하여 다른 분류표를 통한 접근이 가능하도록 하였다. 시소러스, 용어사전, 분류표의 원활한 상호 연계와 운용을 위해서 통합 개념체계 모형을 설계하였다. 본 연구에서 개발한 통합 개념체계를 이용하여 원자력 분야를 대상으로 한 프로토타입 시스템을 구축하고 실제 검색 사례를 제시하였다.

Abstract

초록보기
초록

조선총독부 공문서는 근대사 연구의 가장 핵심적인 정보원이다. 이 연구의 목적은 조선총독부 공문서를 원활히 활용할 수 있도록 지원하는 기능분류체계를 개발하기 위한 원칙과 단계를 제시하는 것이다. 우선, 기능적 분류체계를 위한 이론적 근거를 마련하기 위해 기록물 분류의 개념과 역할, 분류 원칙에 대해 살펴보고, ‘기능적 출처’ 개념 도입의 필요성을 제시하였다. 또한 조선총독부 공문서 분류에 왜 기능분류가 적합한지를 살펴보았고, 기능분류 사례와 그 시사점도 살펴보았다. 이러한 이론적 연구와 조선총독부 조직 및 기능 분석 결과를 토대로 조선총독부 기록물을 위한 분류체계 개발을 위한 원칙을 설정하였다. 아울러 개념화, 용어화, 기호화를 고려한 개발모형을 도출하였으며, 분류표와 함께 시소러스를 연계 구축할 수 있는 방안도 제시하였다.

Abstract

Public records, produced during the period of Government-General of Chosun, are essential sources for Korean modern history research. The purpose of this study is to provide a guideline for developing function-based classification scheme for the records. This present paper begins with analyzing archival principles regarding the function-based classification, and examines the problems of current arrangement practices. Based on these analyses, it suggests a guideline for constructing a classification system and a functional thesaurus for the public records of Government-General of Chosun. This guideline also covers functional analysis process and some considerations of different classification aspects which are conceptual, verbal and notational.

6
정영미(연세대학교) ; 이용구(계명대학교) 2005, Vol.22, No.2, pp.125-145 https://doi.org/10.3743/KOSIM.2005.22.2.125
초록보기
초록

이 연구에서는 문헌 및 질의의 내용을 대표하는 주제어의 중의성 해소를 위해 대표적인 지도학습 모형인 나이브 베이즈 분류기와 비지도학습 모형인 EM 알고리즘을 각각 적용하여 검색 실험을 수행한 다음, 주제어의 중의성 해소를 통해 검색 성능의 향상을 가져올 수 있는지를 평가하였다. 실험문헌 집단은 약 12만 건에 달하는 한국어 신문기사로 구성하였으며, 중의성 해소 대상 단어로는 한국어 동형이의어 9개를 선정하였다. 검색 실험에는 각 중의성 단어를 포함하는 18개의 질의를 사용하였다. 중의성 해소 실험 결과 나이브 베이즈 분류기는 최적의 조건에서 평균 92%의 정확률을 보였으며, EM 알고리즘은 최적의 조건에서 평균 67% 수준의 클러스터링 성능을 보였다. 중의성 해소 알고리즘을 통합한 의미기반 검색에서는 나이브 베이즈 분류기 통합 검색이 약 39.6%의 정확률을 보였고, EM 알고리즘 통합 검색이 약 36%의 정확률을 보였다. 중의성 해소 모형을 적용하지 않은 베이스라인 검색의 정확률 37%와 비교하면 나이브 베이즈 통합 검색은 약 7.4%의 성능 향상률을 보인 반면 EM 알고리즘 통합 검색은 약 3%의 성능 저하율을 보였다.

Abstract

This paper presents a semantic vector space retrieval model incorporating a word sense disambiguation algorithm in an attempt to improve retrieval effectiveness. Nine Korean homonyms are selected for the sense disambiguation and retrieval experiments. The total of approximately 120,000 news articles comprise the raw test collection and 18 queries including homonyms as query words are used for the retrieval experiments. A Naive Bayes classifier and EM algorithm representing supervised and unsupervised learning algorithms respectively are used for the disambiguation process. The Naive Bayes classifier achieved 92% disambiguation accuracy, while the clustering performance of the EM algorithm is 67% on the average. The retrieval effectiveness of the semantic vector space model incorporating the Naive Bayes classifier showed 39.6% precision achieving about 7.4% improvement. However, the retrieval effectiveness of the EM algorithm-based semantic retrieval is 3% lower than the baseline retrieval without disambiguation. It is worth noting that the performances of disambiguation and retrieval depend on the distribution patterns of homonyms to be disambiguated as well as the characteristics of queries.

7
이용구(계명대학교) ; 정영미(연세대학교) 2007, Vol.24, No.1, pp.321-342 https://doi.org/10.3743/KOSIM.2007.24.1.321
초록보기
초록

이 연구에서는 수작업 태깅없이 기계가독형 사전을 이용하여 자동으로 의미를 태깅한 후 학습데이터로 구축한 분류기에 대해 의미를 분류하는 단어 중의성 해소 모형을 제시하였다. 자동 태깅을 위해 사전 추출 정보 기반 방법과 연어 공기 기반 방법을 적용하였다. 실험 결과, 자동 태깅에서는 복수 자질 축소를 적용한 사전 추출 정보 기반 방법이 70.06%의 태깅 정확도를 보여 연어 공기 기반 방법의 56.33% 보다 24.37% 향상된 성능을 가져왔다. 사전 추출 정보 기반 방법을 이용한 분류기의 분류 정학도는 68.11%로서 연어 공기 기반 방법의 62.09% 보다 9.7% 향상된 성능을 보였다. 또한 두 자동 태깅 방법을 결합한 결과 태깅 정확도는 76.09%, 분류 정확도는 76.16%로 나타났다.

Abstract

This study presents an effective word sense disambiguation model that does not require manual sense tagging process by automatically tagging the right sense using a machine-readable dictionary, and attempts to classify the senses of those words using a classifier built from the training data. The automatic tagging technique was implemnted by the dictionary information-based and the collocation co-occurrence-based methods. The dictionary information-based method that applied multiple feature selection showed the tagging accuracy of 70.06%, and the collocation co-occurrence-based method 56.33%. The sense classifier using the dictionary information-based tagging method showed the classification accuracy of 68.11%, and that using the collocation co-occurrence-based tagging method 62.09%. The combined tagging method applying data fusion technique achieved a greater performance of 76.09% resulting in the classification accuracy of 76.16%.

8
김현희(명지대학교) ; 김용호(부경대학교) 2019, Vol.36, No.3, pp.131-148 https://doi.org/10.3743/KOSIM.2019.36.3.131
초록보기
초록

본 연구는 시청자가 사운드 자료의 주제를 파악하는 과정과 사운드의 특성을 이해하기 위한 인지적 정보처리 모형을 구성하였다. 이후 사건관련유발전위(event related potentials, ERP)의 두뇌의 전후측에 걸쳐서 발현하는 N400, P600 구성요소들을 인지적 정보처리 모형의 언어적 표상에 접목시켜 사운드 요약을 생성하는 방안을 제안하기 위해서 연구 가설들을 수립하였다. 뇌파 실험을 통해서 연구 가설들을 검증한 결과, P600이 사운드 요약의 핵심 구성 요소로 나타났다. 본 연구 결과는 분류 알고리즘 설계에 적용되어 내용 기반 메타데이터 즉, 일반적인 또는 개인화된 미디어 요약(사운드 요약, 비디오 스킴)을 생성하는 데에 활용될 수 있을 것이다.

Abstract

This study constructed a cognitive model of information processing to understand the topic of a sound material and its characteristics. It then proposed methods to generate sound summaries, by incorporating anterior-posterior N400/P600 components of event-related potential (ERP) response, into the language representation of the cognitive model of information processing. For this end, research hypotheses were established and verified them through ERP experiments, finding that P600 is crucial in screening topic-relevant shots from topic-irrelevant shots. The results of this study can be applied to the design of classification algorithm, which can then be used to generate the content-based metadata, such as generic or personalized sound summaries and video skims.

9
이종욱(경북대학교 문헌정보학과) ; 강우진(경북대학교 일반대학원 문헌정보학과) ; 박중규(경북대학교 심리학과) 2021, Vol.38, No.4, pp.1-23 https://doi.org/10.3743/KOSIM.2021.38.4.001
초록보기
초록

본 연구에서는 베스트셀러 목록에 포함된 도서의 순위가 공공도서관에서의 평균 대출 건수에 미치는 영향을 패널분석을 통해 살펴보고자 하였다. 본 연구를 위해 문화 빅데이터 플랫폼을 통하여 국립중앙도서관이 제공하는 데이터를 바탕으로 2018년 1월 1일부터 2019년 12월 29일까지 총 104주 동안의 분석 대상 도서 179권의 공공도서관 대출 데이터 세트를 생성하였고, YES24 웹사이트를 통해 같은 기간 주간 베스트셀러 목록 데이터 세트를 구축하였다. 공공도서관 대출과 베스트셀러 도서 순위 간 정확한 관계를 확인하기 위해 패널자료의 특성을 활용한 분석 방식인 선형회귀모형, 고정효과모형, 확률효과모형 등 세 개의 모형을 비교한 결과, 고정효과모형이 가장 적합한 것으로 나타났다. 순위 데이터 결측값이 47주 미만인 179권의 도서의 자료를 고정효과모형으로 분석한 결과, 도서의 베스트셀러 순위가 한 단계 내려가면 공공도서관에서의 해당 도서 평균 대출 건수가 0.108권 유의미한 수준에서 감소한다는 것을 밝혀내었다. 또한, 베스트셀러 순위가 도서 평균 대출 건수에 미치는 효과가 도서의 내용분류에 따라 상이함을 알 수 있었다. 이 연구는 베스트셀러 순위가 사람들의 도서관 대출행태에 영향을 미치고 있음을 실증적으로 확인한 것으로, 공공도서관에서는 이용자의 요구를 예측하고, 장서 개발 정책 수립에 베스트셀러 목록을 비롯한 사회문화적 맥락을 고려할 필요가 있음을 시사한다.

Abstract

The purpose of this study is to analyze the effects of the bestseller ranks on the book circulations in public libraries. To achieve this goal, the weekly data sets of 179 books’ library circulation and bestseller list from January 1, 2018 to December 29, 2019 were constructed based on the data collected from BigData MarketC and YES24. Three methods for analyzing panel data including linear regression, fixed-effect, and random effect models were compared, and it turned out that fixed-effect model was better than other methods. The results show that the average ranks of bestsellers were associated with their public library circulations visually. Also, the analysis of fixed-effect model showed that the single rank decline of a book on the bestseller list decreases its average circulation of 0.108 while the size of effect varied depending on subject of books. The study empirically demonstrated the impact of a bestseller list on people’s book circulation behavior, suggesting that public libraries need to reference sociocultural context as well as bestseller book lists to predict library user needs and to formulate collection development policy.

초록보기
초록

본 연구는 특정 영역 소규모 업무(Small Unit Operation) 수행을 지원하는 태스크 온톨로지 모형 개발에 관한 것이다. 기존 정보관리에서 효과적으로 진화된 지식시스템을 구축하기 위해서는 사전 작업인 온톨로지 개발이 필요하다. 대표적 SUO의 하나인 시민단체를 대상으로 선정하여 시민단체의 조직특성, 기대역할과 부진한 기능, 그리고 업무과정에서 발생되는 정보관리나 활용실태 등을 조사하였다. 그러나 온톨로지 구현의 기초 자료로 삼을 수 있는 시민운동이나 단체들에 대한 분류체계나 시소러스 등이 없는 상황에서 단체 특성 및 관련 업무 그리고 출판물 등의 생산정보나 사이트구성, 활동주제 및 내역 등의 기존 데이터만으로는 지식획득은 부족하다. 따라서 본 연구에서 채택된 모형 개발 방법론은 해당 분야 실무자 및 전문가와의 심도 높은 면담과 관찰이며 이를 통해 현장실무의 업무처리 과정에서 발생하는 지식을 추출하고 정보의 흐름 구조를 파악하여 그를 기반으로 시민단체의 역할 수행을 지원하는 태스크 온톨로지 모형을 구현하였다.

Abstract

This paper presents a model of Task-Ontology for small unit operations(SUO) such as non-government organizations. Despite the rapid development and extension of NGOs in domestic area, most has insufficient structural domain resources in existence and underestimates the importance of information management. To improve the citizen's participation and to activate the conjoint actions among the NGOs, which are critical to its social role-playing in global society, the modeling Task-Ontology is ultimately intended to implement the knowledge management system of NGO. In the perspective of ontology competency, not only the analysis of resources in vary, but also in-depth interviews with the NGO's practicing personnels and subject experts, and also the intensive observations of task-processing are required for the knowledge acquisition.

정보관리학회지