바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 저자, 검색결과: 3
초록보기
초록

동일한 인명을 갖는 서로 다른 실세계 사람들이 존재하는 현실은 인터넷 세계에서 인명으로 표현된 개체의 신원을 식별해야 하는 문제를 발생시킨다. 상기의 문제가 학술정보 내의 저자명 개체로 제한된 경우를 저자식별이라 부른다. 저자식별은 식별 대상이 되는 저자명 개체 사이의 유사도 즉 저자유사도를 계산하는 단계와 이후 저자명 개체들을 군집화하는 단계로 이루어진다. 저자유사도는 공저자, 논문제목, 게재지정보 등의 저자식별자질들의 자질유사도로부터 계산되는데, 이를 위해 기존에 교사방법과 비교사방법들이 사용되었다. 저자식별된 학습샘플을 사용하는 교사방법은 비교사방법에 비해 다양한 저자식별자질들을 결합하는 최적의 저자유사도함수를 자동학습할 수 있다는 장점이 있다. 그러나, 기존 교사방법 연구에서는 SVM, MEM 등의 일부 기계학습기법만이 시도되었다. 이 논문은 다양한 기계학습기법들이 저자식별에 미치는 성능, 오류, 효율성을 비교하고, 공저자와 논문제목 자질에 대해 자질값 추출 및 자질 유사도 계산을 위한 여러 기법들의 비교분석을 제공한다.

Abstract

In bibliographic data, the use of personal names to indicate authors makes it difficult to specify a particular author since there are numerous authors whose personal names are the same. Resolving same-name author instances into different individuals is called author resolution, which consists of two steps: calculating author similarities and then clustering same-name author instances into different person groups. Author similarities are computed from similarities of author-related bibliographic features such as coauthors, titles of papers, publication information, using supervised or unsupervised methods. Supervised approaches employ machine learning techniques to automatically learn the author similarity function from author-resolved training samples. So far, however, a few machine learning methods have been investigated for author resolution. This paper provides a comparative evaluation of a variety of recent high-performing machine learning techniques on author disambiguation, and compares several methods of processing author disambiguation features such as coauthors and titles of papers.

초록보기
초록

저자동시인용분석 기법은 특정 분야의 연구 주제와 동향을 파악하는 수단으로 널리 사용되어왔다. 그러나 저자동시인용분석 기법은 인용 지체 현상 때문에 최근 동향을 나타내거나 활동적인 현역 연구자를 파악하기에는 다소 한계가 있음이 알려져 있다. 이 연구에서는 최신 연구 동향을 분석함과 동시에 활동적인 연구자를 파악하기위한 새로운 방법으로 서지적 저자결합분석 기법을 제안한다. 이 기법은 Kessler가 제안한 서지결합에 기반을 두되 분석 단위를 문헌이 아닌 저자로 삼고 있다. 즉 서지적 저자결합분석 기법은 같은 저자를 인용하는 저자끼리는 연구 주제가 유사할 것이라는 가정에 근거한 분석 기법이다. 저자동시인용분석 기법을 사용한 기존 연구의 분석 결과를 서지적 저자결합분석을 적용한 경우와 비교해본 결과, 제안된 기법이 저자동시인용분석 기법에 비해서 최근 연구 동향을 더 잘 반영하며 활동적인 현역 연구자 위주의 해석을 가능케 하는 것으로 나타났다.

Abstract

Author co-citation analysis(ACA) technique has been widely used for identifying research areas and trends in a discipline. But this technique has some limitations, mainly due to citation delay, on analyzing current trends and identifying active researchers. In this study, a new method, named as Bibliographic Author Coupling Analysis(BACA), is suggested for overcoming those limitations of author co-citation analysis. BACA is based on Kessler's bibliographic coupling approach and focuses not on documents but on authors. Simply stated, BACA technique assumes that those likewise citing authors have the same research interests. For the purpose of comparing with author co-citation analysis, two preceding studies with author co-citation analysis are reconsidered and re-examined using BACA. The comparing results can be regarded as promising the usefulness of BACA in analyzing current research trends and identifying active researchers.

3
이혜영(한국과학기술원) ; 곽승진(충남대학교) 2008, Vol.25, No.1, pp.191-210 https://doi.org/10.3743/KOSIM.2008.25.1.191
초록보기
초록

일반적으로 문헌을 검색하고 접근하기 위하여 주제색인과 같은 주제어를 활용하곤 한다. 그렇다면 문헌의 내용과 문헌의 주제어는 분명히 어떤 밀접한 상관관계가 있을 것으로 예측해볼 수 있다. 본 연구는 이러한 의문점에서 출발하여, 디지털콘텐트의 본문내용이 비교적 짜임새 있게 정형화되어 있는 석사 학위논문을 연구문헌으로 한정하여 학위논문 전문에서 나타나는 학위논문의 주제어 분포도를 연구하였다. 학위논문의 주제어는 논문 저자가 부여한 주제어를 사용하되, 학위논문 전문은 ‘목차’, ‘서론’, ‘이론배경’, ‘본론’, ‘결론’, ‘참고문헌’의 내용위치로 분할하여 내용위치에 따른 주제어의 출현율을 확인하였다. 연구대상 학위논문 전문은 1226.3개의 용어, 5152.3번의 용어 출현을 보였다. 학위논문 저자가 부여한 주제어는 12~13개 용어로 구성되어 있었다. 연구결과, 전문 내용위치에 따른 주제어의 출현율은 ‘목차’ 11.4%와 ‘서론’ 11.2%에서 가장 높았으며(11%), 다음 순위는 내용위치 ‘결론’ 9.8%이었다.

Abstract

We would generally use subject terms such as subject indexing for searching and accessing documents. So then, there must be any relationship between document's full-text and its subject terms. This study is started in this question. Master's theses in field of science and technology are worked with because full-text is relatively formatted. This study is to study locations of subject term on Thesis, distribution patterns of subject terms on content of full-text; ‘Contents’, ‘Introduction’, ‘Theory’, ‘Main subject’, ‘Conclusion’ and ‘References’. Thesis were averagely composed of 1226.3 terms. And Subject terms were averagely compose of 12~13 terms. As a result, ‘Contents’ and ‘Introduction’ have had the most frequency of subject.

정보관리학회지