바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 데이터 기반, 검색결과: 6
1
이지연(연세대학교) ; 백우진(건국대학교) 2006, Vol.23, No.2, pp.61-79 https://doi.org/10.3743/KOSIM.2006.23.2.061
초록보기
초록

본 연구는 특허 및 상표 검색 개선을 위한 방법을 제안하고자 하는 목적에서 출발하였다. 이를 위해 193일간 한국특허정보원의 특허기술정보서비스를 이용한 17,559명의 이용자가 작성한 100,016개의 질의문에 대한 로그 데이터를 분석하였다. 개별적인 질의로그 분석 이외에, 2,202개의 복수 질의문을 이용한 탐색세션을 분석함으로써 검색 개선을 위한 추가적인 단서를 발견하였다. 분석결과에 의하면, 특허 및 상표검색은 일반적인 웹 검색의 유형과 유사한데, 특히 질의문의 길이가 짧다는 측면에서 매우 흡사하다. 그러나 특허 및 상표검색의 경우, 일반 웹 검색보다 불리언 연산자를 많이 사용하고 있었다. 복수 질의문 분석을 통해 이용자들이 질의문을 재작성하는데 도움이 될 수 있는 탐색기능을 제안할 수 있었다. 복수의 질의문으로 구성된 탐색세션을 분석한 결과, 이용자들은 질의문을 재작성하기 위하여 부연하기, 특정화하기, 일반화하기, 교체하기, 중단하기와 같은 방법을 사용하고 있음을 알 수 있었다.

Abstract

To come up with the recommendations to improve the patent & trademark retrieval efficiency, 100,016 patent & trademark search requests by 17,559 unique users over a period of 193 days were analyzed. By analyzing 2,202 multi-query sessions, where one user issuing two or more queries consecutively, we discovered a number of retrieval efficiency improvements clues. The session analysis result also led to suggestions for new system features to help users reformulating queries. The patent & trademark retrieval users were found to be similar to the typical web users in certain aspects especially in issuing short queries. However, we also found that the patent & trademark retrieval users used Boolean operators more than the typical web search users. By analyzing the multi-query sessions, we found that the users had five intentions in reformulating queries such as paraphrasing, specialization, generalization, alternation, and interruption, which were also used by the web search engine users.

초록보기
초록

이 연구에서는 한국형 포털에 적합한 커뮤니티 기반 개인화 검색 서비스 모형을 제안하였다. 개인화 검색 서비스 모형은 이용자의 관심 주제를 파악하는 과정과 이를 반영한 검색 결과 재순위화 및 관련 주제 카테고리와 질의어 추천 과정으로 구성된다. 개인화 검색 모형의 유용성을 검증하기 위한 실험에서는 포털 사이트 다음에서 12일간 수집한 이용자 로그 데이터를 사용하였다. 실험 결과 개별 이용자의 주제 카테고리 선정에 사용한 카페 활동성 분석과 신지식 활동성 분석 데이터는 매우 유용한 것으로 나타났으며, 개인화 검색 결과와 추천 서비스에 대한 만족도도 비교적 높게 나타났다.

Abstract

This study proposes an expanded model of personalized search service based on community activities on a Korean Web portal. The model is composed of defining subject categories of users, providing personalized search results, and recommending additional subject categories and queries. Several experiments were performed to verify the feasibility and effectiveness of the proposed model. It was found that users’ activities on community services provide valuable data for identifying their interests, and the personalized search service increases users’ satisfaction.

초록보기
초록

로치오 알고리즘에 기초한 통제어휘 자동색인 또는 텍스트 범주화에서 적용되어 온 여러 성능 요인들을 재검토하였고, 성능 향상을 위한 기본적인 방법을 찾아보았다. 또한, 동등한 조건에서 통제어휘 자동색인을 위한 로치오 알고리즘 기반 방법의 성능을 다른 학습기반 방법들의 성능과 비교하였다. 결과에 따르면, 통제어휘 자동색인을 위한 로치오 기반의 프로파일 방법은 구현의 용이성과 컴퓨터 처리시간 측면의 경제성이라는 기존의 장점을 그대로 유지하면서도, 다른 학습기반 방법들(SVM, VPT, NB)과 거의 동등하거나 더 나은 성능을 보여주었다. 특히, 색인전문가의 색인작업을 지원하는 반-자동 색인의 목적으로는 비교적 높은 수준의 재현율을 유지하면서 학습 데이터의 증가에 따라 정확률이 크게 향상되는 로치오 알고리즘을 이용한 방법을 우선적으로 고려할 수 있을 것이다.

Abstract

Several performance factors which have applied to the automatic indexing with controlled vocabulary and text categorization based on Rocchio algorithm were examined, and the simple method for performance improvement of them were tried. Also, results of the methods using Rocchio algorithm were compared with those of other learning based methods on the same conditions. As a result, keeping with the strong points which are implementational easiness and computational efficiency, the methods based Rocchio algorithms showed equivalent or better results than other learning based methods(SVM, VPT, NB). Especially, for the semi-automatic indexing(computer-aided indexing), the methods using Rocchio algorithm with a high recall level could be used preferentially.

4
안부영(한국과학기술정보연구원) ; 이응봉(충남대학교) ; 한정민(KISTI) 2006, Vol.23, No.4, pp.89-110 https://doi.org/10.3743/KOSIM.2006.23.4.089
초록보기
초록

생명과학은 인간이 살아가는데 있어 직접적으로 영향을 미치는 중요한 학문분야 중 하나이다. 국내 생명과학 관련 연구자들은 산학연에 흩어져 중요한 연구를 수행하고 있으며, 이를 통한 연구결과는 다양한 형태(실질적인 연구결과물, 논문, 연구노트, 세미나 자료, 단행본, 교재 등)로 생산되고 있다. KISTI에서는 생명과학 관련 연구정보의 신속한 획득을 위해 생명과학관련 정보를 공유하고 교환할 수 있는 오픈 아카이빙 커뮤니티 (BioInfoNet)를 구축하여 연구자들이 커뮤니티를 발전시켜 가도록 인프라를 제공하고 있다. 본 연구에서는 최근 플랫폼으로서의 웹인 웹 2.0을 기반으로 오픈 액세스가 가능한 생명과학 문헌정보를 수집하여 메타 데이터베이스를 구축하였으며, 이용자들이 자발적으로 주제별 공개 BBS(BioBBS)를 구성하고 운영할 수 있도록 커뮤니티를 설계하고 구현하였다.

Abstract

Life science is one of the most important fields which have direct influence on human life. Many domestic life scientists in the industries, educational organizations and research institutes have been producing important results in a variety of forms such as papers, research notes, presentation materials, books and teaching materials. Open Archiving Community has been constructed in order to share and exchange research information related to life science between researchers. The domestic life scientists can acquire valuable information through the community quickly and efficiently. In this study, the community system has been designed and implemented to provide free access to all data including metadata registry of the bibliographic information on life science and research results accumulated by researchers of their own accord. The community system also has been designed and implemented based on Web 2.0 and provides users with BBS by subjects.

5
남영준(중앙대학교) ; 정의섭(한국과학기술정보) 2006, Vol.23, No.1, pp.221-241 https://doi.org/10.3743/KOSIM.2006.23.1.221
초록보기
초록

본 연구에서는 인용 정보를 활용하여, 특허 인용색인의 기법을 분석하고, 이를 바탕으로 새로운 특허지수를 제시하였다. 이를 위해 문헌정보 및 특허정보 관련 인용색인데이터베이스에서 제공하는 인용색인지수를 비교 분석하였다. 특히 JCR의 영향력 지수와 CHI의 기술영향력 지수가 갖고 있는 정보적 가치와 의미를 재해석하였다. 전자는 상대적 인용빈도를 사용하여, 연속간행물과 같은 매체의 가치를 중시하고 있다. 후자의 경우는 특허고유의 가치를 평가하기 때문에, 자체정보만을 중시하고 있다. 이러한 차이점을 극복하기 위해 후자의 경우 해당 특허를 보유하고 있는 기관의 기술영향력 지수를 이용하여 상대적 가치를 재부여하였다. 이를 보완하기 위해 인용정보에 기반하여 다음 특정 특허의 피인용지수를 비롯하여 상대적 반감기 평가지수, 특허기술 활용 통합지수 등 세가지의 새로운 지수를 제안하였다. 단 비교분석대상은 출원특허사항에 인용정보를 제시하고 있는 미국 특허정보로 제한하여 국내 특허정보에 대한 비교분석은 수행하지 못하였다.

Abstract

This research suggested a new patent information based on patent citation technique using cited information. For this purpose, comparison research on library and patent information related citation database providing citation index was done. The information quality and meaning on the impact factor of JCR and the technology factor of CHI was reinterpreted. The former emphasizes the quality of continuous publication using relative citation frequency. The latter only emphasizes the information itself because it assesses the quality of patent characteristics. To overcome these difficulties, the latter re-authorized a relative quality to the organization possessing the patent using technology impact factor. Three new patent index was proposed on the basis of cited information to complement this. However, the comparative object was limited to American patent information that presented cited information of patent applied cases, and the comparison and research of domestic patent information could not be done.

초록보기
초록

본 연구는 실재 시스템 환경에서 문헌 분류를 위해 범주화 기법을 적용할 경우, 범주화 성능이 어느 정도이며, 적정한 문헌범주화 성능의 달성을 위하여 분류기 학습에 필요한 범주당 가장 이상적인 학습문헌집합의 규모는 무엇인가를 파악하기 위하여 kNN 분류기를 사용하여 실험하였다. 실험문헌집단으로15만 여건의 실제 서비스되는 데이터베이스에서 2,556건 이상의 문헌을 가진 8개 범주를 선정하였다. 이들을 대상으로 범주당 학습문헌수 20개(Tr20)에서 2,000개(Tr2000)까지 단계별로 증가시키며 8개 학습문헌집합 규모를 갖도록 하위문헌집단을 구성한 후, 학습문헌집합 규모에 따른 하위문헌집단 간 범주화 성능을 비교하였다. 8개 하위문헌집단의 거시평균 성능은 F1 값 30%로 선행연구에서 발견된 kNN 분류기의 일반적인 성능에 미치지 못하는 낮은 성능을 보였다. 실험을 수행한 8개 대상문헌집단 중 학습문헌수가 100개인 Tr100 문헌집단이 F1 값 31%로 비용대 효과면에서 분류기 학습에 필요한 최적정의 실험문헌집합수로 판단되었다. 또한, 실험문헌집단에 부여된 주제범주 정확도를 수작업 재분류를 통하여 확인한 후, 이들의 범주별 범주화 성능과 관련성을 기반으로 위 결론의 신빙성을 높였다.

Abstract

This paper examines a level of categorization performance in a reallife collection of abstract articles in the fields of science and technology, and tests the optimal size of documents per category in a training set using a kNN classifier. The corpus is built by choosing categories that hold more than 2,556 documents first, and then 2,556 documents per category are randomly selected. It is further divided into eight subsets of different size of training documents: each set is randomly selected to build training documents ranging from 20 documents (Tr20) to 2,000 documents (Tr2000) per category. The categorization performances of the 8 subsets are compared. The average performance of the eight subsets is 30% in F1 measure which is relatively poor compared to the findings of previous studies. The experimental results suggest that among the eight subsets the Tr100 appears to be the most optimal size for training a kNN classifier. In addition, the correctness of subject categories assigned to the training sets is probed by manually reclassifying the training sets in order to support the above conclusion by establishing a relation between and the correctness and categorization performance.

정보관리학회지