바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 용어색인, 검색결과: 7
초록보기
초록

본 연구에서는 의견이나 감정을 담고 있는 의견 문서들의 자동 분류 성능을 향상시키기 위하여 개념색인의 하나인 잠재의미색인 기법을 사용한 분류 실험을 수행하였다. 실험을 위해 수집한 1,000개의 의견 문서는 500개씩의 긍정 문서와 부정 문서를 포함한다. 의견 문서 텍스트의 형태소 분석을 통해 명사 형태의 내용어 집합과 용언, 부사, 어기로 구성되는 의견어 집합을 생성하였다. 각기 다른 자질 집합들을 대상으로 의견 문서를 분류한 결과 용어색인에서는 의견어 집합, 잠재의미색인에서는 내용어와 의견어를 통합한 집합, 지도적 잠재의미색인에서는 내용어 집합이 가장 좋은 성능을 보였다. 전체적으로 의견 문서의 자동 분류에서 용어색인 보다는 잠재의미색인 기법의 분류 성능이 더 좋았으며, 특히 지도적 잠재의미색인 기법을 사용할 경우 최고의 분류 성능을 보였다.

Abstract

The aim of this study is to apply latent semantic indexing(LSI) techniques for efficient automatic classification of opinionated documents. For the experiments, we collected 1,000 opinionated documents such as reviews and news, with 500 among them labelled as positive documents and the remaining 500 as negative. In this study, sets of content words and sentiment words were extracted using a POS tagger in order to identify the optimal feature set in opinion classification. Findings addressed that it was more effective to employ LSI techniques than using a term indexing method in sentiment classification. The best performance was achieved by a supervised LSI technique.

2
고영만(성균관대학교) ; 송민선(성균관대학교 정보관리연구소) ; 김비연(성균관대학교) ; 민혜령(성균관대학교) 2013, Vol.30, No.2, pp.227-243 https://doi.org/10.3743/KOSIM.2013.30.2.227
초록보기
초록

본 연구의 목적은 저자키워드의 출현빈도와 해당 키워드가 속한 논문들의 총피인용횟수 간 상관관계 여부를 확인하고자 하는 것이다. 연구의 배경은 인문사회과학 분야 학술용어사전을 구축하는데 있어서 실제 연구에서의 활용도가 높고 다른 키워드와의 의미적 연관관계가 많은 학술용어를 추출하기 위한 방법론을 개발해 보고자 하는 것이다. 본 연구의 목적을 이루기 위해 한국연구재단 한국학술지인용색인(KCI)에 수록된 2007년에서 2011년까지의 인문학 및 사회과학 분야 학술지 논문의 저자키워드와 피인용횟수를 분석하였다. 분석 결과 저자키워드의 출현빈도와 해당 키워드가 속한 논문들의 총피인용횟수는 통계적으로 상관관계가 있으며, 저자키워드의 출현빈도가 늘어날수록 논문의 총피인용횟수도 많아지는 것으로 나타났다.

Abstract

The purpose of this study is to verify the correlation between the appearance frequency of author keyword and the number of citation in journal articles. In this study, we were trying to develop a methodology that can select the term having semantic relation with other terms and higher utilization to build a structured scientific glossary. In order to achieve this purpose, we analyzed the number of citation and the author keyword of the humanities and social science journal articles of the Korea Citation Index (KCI) from 2007 to 2011. This study found a correlation between appearance frequency of author keyword and the number of citation of the journal articles, with higher appearance frequency of author keyword of the journal articles being more cited.

3
정영미(연세대학교) ; 한승희(서울여자대학교) ; 김명옥(숭의여자대학) ; 유재복(한국원자력연구원) ; 이재윤(연세대학교) 2002, Vol.19, No.1, pp.135-161 https://doi.org/10.3743/KOSIM.2002.19.1.135
초록보기
초록

과학기술 분류표, 시소러스, 용어사전 등의 주요한 색인 및 검색 도구를 한국어, 영어, 일본어의 3개 언어로 통합 구축하고 활용할 수 있도록 다기능, 다국어 과학기술 통합 개념체계의 개발 방안을 마련하였다. 개념을 기본 단위로 시소러스 모델을 개발하였으며, 용어사전 레코드는 ISO 12620 표준에 근거하여 필수요소를 지정하였다. 또한 과학기술분야 표준분류표를 대분류 수준까지 작성하고 기존 분류표와의 매핑 테이블을 작성하여 다른 분류표를 통한 접근이 가능하도록 하였다. 시소러스, 용어사전, 분류표의 원활한 상호 연계와 운용을 위해서 통합 개념체계 모형을 설계하였다. 본 연구에서 개발한 통합 개념체계를 이용하여 원자력 분야를 대상으로 한 프로토타입 시스템을 구축하고 실제 검색 사례를 제시하였다.

Abstract

4
정유경(연세대학교 근대한국학연구소 HK연구교수) ; 반재유(연세대학교 근대한국학연구소 HK연구교수) 2019, Vol.36, No.4, pp.7-19 https://doi.org/10.3743/KOSIM.2019.36.4.007
초록보기
초록

본 연구는 국한문 혼용 텍스트를 대상으로 한글 형태소 분석 기법과 한문 어조사를 반영한 색인어 추출기법을 제안하였다. 국한문 혼용체로 작성된 시사총보 논설을 대상으로 해당 시기에 사용된 고유명사 및 한자어 사전을 보완하였으며 한자어 불용어 리스트를 고려하여 색인어를 추출하였다. 본 연구에서 제안한 국한문 색인 시스템은 수작업 색인 결과를 기준으로, 중국어형태소 분석기에 비해 재현율과 정확률 측면에서 상대적으로 높은 성능을 보였으며, 어문법이 확립되지 않은 근현대 시기의 국한문 혼용체를 대상으로 한 첫 번째 색인어 추출기법을 제안하였다는 데에서 연구의 차별점이 있다.

Abstract

The aim of this study is to develop a technique for keyword extraction in Korean-Chinese text in the modern period. We considered a Korean morphological analyzer and a particle in classical Chinese as a possible method for this study. We applied our method to the journal “Sisachongbo,” employing proper-noun dictionaries and a list of stop words to extract index terms. The results show that our system achieved better performance than a Chinese morphological analyzer in terms of recall and precision. This study is the first research to develop an automatic indexing system in the traditional Korean-Chinese mixed text.

초록보기
초록

본 연구는 웹에서 접근 가능한 내용기반 음악검색(CBMR) 시스템들을 조사하여, 탐색질의의 종류, 접근점, 입출력, 탐색기능, 데이터베이스 성격과 크기 등의 관점에서 특성을 비교 분석하고자 하였다. 비교 분석에 사용된 특성을 추출하기 위해 내용기반 음악정보의 특성과 시스템 구축에 필요한 파일의 변환, 멜로디 추출 및 분할, 색인자질 추출과 색인, 매칭에 사용되는 기술들을 선행연구로 리뷰하였다. 15개의 시스템을 분석한 결과 다음과 같은 특성과 문제점이 분석되었다. 첫째, 도치색인, N-gram 색인, 불리언 탐색, 용어절단검색, 키워드 및 어구 탐색, 음길이 정규화, 필터링, 브라우징, 편집거리, 정렬과 같은 텍스트 정보 검색 기법이 CBMR에서도 검색성능을 향상시키는 도구로 사용되고 있었다. 둘째, 시스템들은 웹에서 크롤링하거나 탐색질의를 DB에 추가하는 등으로 DB의 성장과 실용성을 위한 노력을 하고 있었다. 셋째, 개선되어야 할 문제점으로 선율이나 주선율을 추출하는데 부정확성, 색인자질을 추출할 때 사용되는 불용음(stop notes)을 탐색질의에서도 자동 제거할 필요성, 옥타브를 무시한 solfege 검색의 문제점 등이 분석되었다.

Abstract

This study compared and analyzed 15 CBMR (Content-based Music Retrieval) systems accessible on the web in terms of DB size and type, query type, access point, input and output type, and search functions, with reviewing features of music information and techniques used for transforming or transcribing of music sources, extracting and segmenting melodies, extracting and indexing features of music, and matching algorithms for CBMR systems. Application of text information retrieval techniques such as inverted indexing, N-gram indexing, Boolean search, truncation, keyword and phrase search, normalization, filtering, browsing, exact matching, similarity measure using edit distance, sorting, etc. to enhancing the CBMR; effort for increasing DB size and usability; and problems in extracting melodies, deleting stop notes in queries, and using solfege as pitch information were found as the results of analysis.

초록보기
초록

본 연구는 OPAC에서 계층 클러스터링을 응용하여 소장자료를 계층구조로 분류하여 열람하는데 사용될 수 있는 최적의 계층 클러스터링 모형을 찾기 위한 목적으로 수행되었다. 문헌정보학 분야 단행본과 학위논문으로 실험집단을 구축하여 다양한 색인기법(서명단어 자동색인과 통제어 통합색인)과 용어가중치 기법(절대빈도와 이진빈도), 유사도 계수(다이스, 자카드, 피어슨, 코싸인, 제곱 유클리드), 클러스터링 기법(집단간 평균연결, 집단내 평균연결, 완전연결)을 변수로 실험하였다. 연구결과 집단간 평균연결법과 제곱 유클리드 유사도를 제외하고 나머지 유사도 계수와 클러스터링 기법은 비교적 우수한 클러스터를 생성하였으나, 통제어 통합색인을 이진빈도로 가중치를 부여하여 완전연결법과 집단간 평균연결법으로 클러스터링 하였을 때 가장 좋은 클러스터가 생성되었다. 그러나 자카드 유사도 계수를 사용한 집단간 평균연결법이 십진구조와 더 유사하였다.

Abstract

This study is to develop a hiararchic clustering model for document classification and browsing in OPAC systems. Two automatic indexing techniques (with and without controlled terms), two term weighting methods (based on term frequency and binary weight), five similarity coefficients (Dice, Jaccard, Pearson, Cosine, and Squared Euclidean), and three hierarchic clustering algorithms (Between Average Linkage, Within Average Linkage, and Complete Linkage method) were tested on the document collection of 175 books and theses on library and information science. The best document clusters resulted from the Between Average Linkage or Complete Linkage method with Jaccard or Dice coefficient on the automatic indexing with controlled terms in binary vector. The clusters from Between Average Linkage with Jaccard has more likely decimal classification structure.

7
이혜영(한국과학기술원) ; 곽승진(충남대학교) 2008, Vol.25, No.1, pp.191-210 https://doi.org/10.3743/KOSIM.2008.25.1.191
초록보기
초록

일반적으로 문헌을 검색하고 접근하기 위하여 주제색인과 같은 주제어를 활용하곤 한다. 그렇다면 문헌의 내용과 문헌의 주제어는 분명히 어떤 밀접한 상관관계가 있을 것으로 예측해볼 수 있다. 본 연구는 이러한 의문점에서 출발하여, 디지털콘텐트의 본문내용이 비교적 짜임새 있게 정형화되어 있는 석사 학위논문을 연구문헌으로 한정하여 학위논문 전문에서 나타나는 학위논문의 주제어 분포도를 연구하였다. 학위논문의 주제어는 논문 저자가 부여한 주제어를 사용하되, 학위논문 전문은 ‘목차’, ‘서론’, ‘이론배경’, ‘본론’, ‘결론’, ‘참고문헌’의 내용위치로 분할하여 내용위치에 따른 주제어의 출현율을 확인하였다. 연구대상 학위논문 전문은 1226.3개의 용어, 5152.3번의 용어 출현을 보였다. 학위논문 저자가 부여한 주제어는 12~13개 용어로 구성되어 있었다. 연구결과, 전문 내용위치에 따른 주제어의 출현율은 ‘목차’ 11.4%와 ‘서론’ 11.2%에서 가장 높았으며(11%), 다음 순위는 내용위치 ‘결론’ 9.8%이었다.

Abstract

We would generally use subject terms such as subject indexing for searching and accessing documents. So then, there must be any relationship between document's full-text and its subject terms. This study is started in this question. Master's theses in field of science and technology are worked with because full-text is relatively formatted. This study is to study locations of subject term on Thesis, distribution patterns of subject terms on content of full-text; ‘Contents’, ‘Introduction’, ‘Theory’, ‘Main subject’, ‘Conclusion’ and ‘References’. Thesis were averagely composed of 1226.3 terms. And Subject terms were averagely compose of 12~13 terms. As a result, ‘Contents’ and ‘Introduction’ have had the most frequency of subject.

정보관리학회지