바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 필터링, 검색결과: 6
1
정영미(연세대학교) ; 장지은(연세대학교) 2003, Vol.20, No.3, pp.111-127 https://doi.org/10.3743/KOSIM.2003.20.3.111
초록보기
초록

이 연구의 목적은 사건을 연구대상으로 하는 사건트래킹 기법이 과연 최신 사건 정보를 검색함에 있어 기존의 정보필터링 기법보다 성능이 우수한가를 살펴보는 데 있다. 따라서 이 연구에서는 특정 사건에 관한 최신 기사를 보다 효과적으로 검색하여 제공하는 기법을 찾아내기 위하여 kNN(k-Nearest Neighbors) 분류기를 응용한 사건트래킹 기법과 질의기반 정보필터링 기법을 사용하여 사건검색 실험을 수행한 후 두 기법의 검색 성능을 비교하였다. 사건트래킹 실험은 초기의 고정 학습문서 집합을 사용한 사건트래킹과 트래킹 과정에서 변화하는 동적 학습문서 집합을 사용한 사건트래킹의 두 가지 방법으로 수행되었다. 정보필터링 실험도 초기질의를 사용한 정보필터링과 필터링 과정에서 계속 수정되는 질의를 사용한 정보필터링의 두 가지 방법으로 수행되었다. 실험 결과 사건트래킹 기법에서는 고정 학습문서 집합을 사용한 경우가 동적 학습문서 집합을 사용한 경우보다 더 우수한 성능을 보였으며, 정보필터링 기법에서는 초기질의를 사용한 경우가 수정질의를 사용한 경우보다 더 좋은 성능을 보였다. 또한 고정 학습문서 집합을 사용한 사건트래킹과 초기질의를 사용한 정보필터링을 비교한 결과 정보필터링 기법이 사건트래킹 기법에 비해 더 좋은 사건검색 성능을 보이는 것으로 나타났다.

Abstract

The purpose of this study is to ascertain whether event tracking is more effective in event retrieval than information filtering. This study examined the two techniques for event retrieval to suggest the more effective one. The event-retrieval performances of the event tracking technique based on a kNN classifier and the query-based information filtering technique were compared. Two event tracking experiments, one with the static training set and the other with the dynamic training set, were carried out. Two information filtering experiments, one with initial queries and the other with refined queries, were also carried out to evaluate the event-retrieval effectiveness. We found that the event tracking technique with the static training set performed better than one with the dynamic training set. It was also found that the information filtering technique using intial queries performed better than one using the refined queries. In conclusion, the comparison of the best cases of event tracking and information filtering revealed that the information filtering technique outperformed the event tracking technique in event retrieval.

초록보기
초록

인터넷의 대중화와 함께, 인터넷의 불법유해정보의 존재는 정부와 인터넷 사용자들에게 큰 근심거리가 된지 오래다. 불법유해정보 문제에 대한 다양한 해법들 중에서, 인터넷 콘텐츠 필터링 기술은 사용자들이 스스로 유해정보 문제에 대처할 수 있도록 개발되어 왔다. 지난 몇 년 사이, 상업 필터링 제품에 대한 관심이 높아지고 있다. 부모, 교사, 심지어는 정부 당국도 청소년을 인터넷 유해정보로부터 보호하는 기술적 대안으로써 상업 필터링 제품을 선택하고 있고, 그 시장도 빠르게 성장하고 있다. 하지만 시민단체들을 중심으로 인터넷 콘텐츠 필터링에 대한 비판의 목소리가 높다. 필터링은 기술적 측면에서 태생적인 약점을 가지고 있을 뿐 아니라, 표현의 자유를 위축시키는 결과를 초래할 것이라는 비판이다. 이 논문은 인터넷 콘텐츠 필터링, 특히 일세대 필터링과 구분되어 내용등급시스템으로 불리는 PICS/RDF 기반의 라벨 필터링의 기술적 측면을 분석하고 표현의 자유, 사용자 자율성과 관련된 문제들을 살펴봄으로써, 불법유해정보에 대한 기술적 해법의 타당성에 대하여 논하고자 한다.

Abstract

Since the use of the Internet has proliferated, the availability of illegal and harmful content has been a great concern to both governments and Internet users. Among various solutions for issues related to such content, Internet content filtering technologies have been developed for enabling users to deal with harmful content. In recent years, commercial filtering has become massively popular. Many parents, teachers and even governments have chosen commercial filtering software as a feasible technical solution for protecting minors from harmful information on the Internet. The Internet content filtering software market has grown significantly. However, Internet content filtering software has led to intense debate among civil liberties groups. They deem this to be censorship and argue that Internet filtering technologies are simply unworkable because they have inherent weaknesses. They are critical of the fact that most filtering has violated free speech rights and will eventually wipe out minor and controversial, yet innocent incidences of free speech on the Internet. In this article Internet content filtering, in particular PICS/RDF-based label filtering, so-called Internet content rating system, will be explored and its advantages and drawbacks relating to end-users' autonomy and freedom of expression will be discussed.

초록보기
초록

이 연구의 목적은 대량의 최신정보를 제공하는 정보필터링 시스템에서 이용자 피드백에 의해 수정질의를 자동생성하여 재검색을 수행함으로써 검색 성능을 최적화할 수 있는 방안을 찾는 데 있다. 이용자가 입력한 초기질의를 사용하여 정보필터링 시스템이 검색한 문헌에 대해 이용자가 적합성 여부를 온라인으로 입력하도록 하고, 이 피드백 결과를 토대로 '중복제거법'과 '저빈도제거법' 두 가지 방법에 의해각각 17개의 수정질의를 생성하여 재검색한 결과를 초기 검색결과와 비교 분석하였다. 수정질의는 각각의 방법마다 17개 패턴의 불논리 질의형태를 미리 만든 다음 초기질의에 디스크립터와 분류기호를 결합하여 생성하였으며, 재검색 결과에 대한 적합성 평가를 통해 최적의 수정질의식을 도출하였다.

Abstract

In this study an information filtering system was implemented and a series of relevance feedback experiments were conducted using the system. For the relevance feedback, the original queries were searched against the database and the results were reviewed by the researchers. Based on users' online relevance judgements a pair of 17 refined queries were generated using two methods called "co-occurrence exclusion method" and "lower frequencies exclusion method." In order to generate them, the original queries. the descriptors and category codes appeared in either relevant or irrelevant document sets were applied as elements. Users' relevance judgments on the search results of the refined queries were compared and analyzed against those of the original queries. [ 더 많은 내용 보기 ]

4
장령령(전남대학교 문헌정보학과) ; 장우권(전남대학교) 2016, Vol.33, No.1, pp.317-336 https://doi.org/10.3743/KOSIM.2016.33.1.317
초록보기
초록

오늘날 폭발적인 정보의 증가로 이용자들은 자신이 원하는 정보를 찾기 위해 엄청난 시간과 노력을 기울여야 한다. 이 문제를 해결하기 위하여 이용자의 정보요구를 분석하고 이용자에게 적합한 논문을 추천해주는 논문추천시스템이 등장하고 있다. 그러나 대부분의 논문추천시스템은 논문추천시스템의 핵심인 이용자 프로파일을 간과하고 있다. 따라서 이 연구는 논문추천시스템의 성능을 좌우하는 이용자 프로파일을 기존의 평균으로 계산하지 않고 새로운 TPIPF(Topic Proportion-Inverse Paper Frequency)로 계산하는 방법을 제안하였다. 제안된 방법과 기존의 방법을 모두 논문추천시스템에 적용하여 각각의 성능을 온라인 참고문헌 관리도구인 CiteULike에서 제공된 데이터 실험을 통하여 비교하였다. 그 결과 제안된 TPIPF 방법을 적용한 논문추천시스템의 성능이 더 높다는 것을 알 수 있었다.

Abstract

Nowadays users spend more time and effort to find what they want because of information overload. To solve the problem, scientific article recommendation system analyse users’ needs and recommend them proper articles. However, most of the scientific article recommendation systems neglected the core part, user profile. Therefore, in this paper, instead of mean which applied in user profile in previous studies, New TPIPF (Topic Proportion-Inverse Paper Frequency) was applied to scientific article recommendation system. Moreover, the accuracy of two scientific article recommendation systems with above different methods was compared with experiments of public dataset from online reference manager, CiteULike. As a result, the proposed scientific article recommendation system with TPIPF was proven to be better.

5
홍연경(성균관대학교 문헌정보학과) ; 전서영(성균관대학교 문헌정보학과) ; 최재영(성균관대학교 문헌정보학과) ; 양희윤(성균관대학교 문헌정보학과) ; 한채은(성균관대학교 문헌정보학과) ; 주영준(성균관대학교) 2021, Vol.38, No.2, pp.113-127 https://doi.org/10.3743/KOSIM.2021.38.2.113
초록보기
초록

본 연구는 대학 도서관 사용 증진을 위하여 개인별 맞춤 도서 추천시스템을 구축하는 것을 목적으로 한다. 특히 사용자의 아이템에 대한 선호도가 존재하는 다수의 추천시스템과는 달리, 선호도가 존재하지 않을 때에 도서 추천이 가능하도록 하는 방안인 도서관 이용자의 도서 대출 목록과 성향을 활용하여 평가지표를 생성하는 방법을 제안하고자 한다. 이용자가 아직 읽지 않은 책에 대한 예상 선호도를 산출하는 방식으로 도서를 추천하는 행렬 분해 방법인 Singular Value Decomposition(SVD)과 Stochastic Gradient Descent(SGD) 알고리즘을 활용한 모델을 구축했다. 더불어 유사도가 높은 이용자 그룹 내의 도서 대출 목록을 참조하여 추천하는 사용자 기반 협업 필터링 알고리즘을 활용해 모델을 구현했다. 최종적으로 평가지표를 활용한 세 가지 모델에 대하여 사용자 평가를 진행했다. 각각의 모델이 제시한 개인별 맞춤 도서 다섯 권의 목록을 해당 대출자에게 제공하고, 추천 도서에 대한 만족/불만족 여부를 이진화 점수화하여 모델에 대한 평가를 진행했다.

Abstract

The purpose of this study is to propose a personalized book recommendation system to promote the use of university libraries. In particular, unlike many recommended services that are based on existing users’ preferences, this study proposes a method that derive evaluation metrics using individual users’ book rental history and tendencies, which can be an effective alternative when users’ preferences are not available. This study suggests models using two matrix decomposition methods: Singular Value Decomposition(SVD) and Stochastic Gradient Descent(SGD) that recommend books to users in a way that yields an expected preference score for books that have not yet been read by them. In addition, the model was implemented using a user-based collaborative filtering algorithm by referring to book rental history of other users that have high similarities with the target user. Finally, user evaluation was conducted for the three models using the derived evaluation metrics. Each of the three models recommended five books to users who can either accept or reject the recommendations as the way to evaluate the models.

초록보기
초록

본 연구는 웹에서 접근 가능한 내용기반 음악검색(CBMR) 시스템들을 조사하여, 탐색질의의 종류, 접근점, 입출력, 탐색기능, 데이터베이스 성격과 크기 등의 관점에서 특성을 비교 분석하고자 하였다. 비교 분석에 사용된 특성을 추출하기 위해 내용기반 음악정보의 특성과 시스템 구축에 필요한 파일의 변환, 멜로디 추출 및 분할, 색인자질 추출과 색인, 매칭에 사용되는 기술들을 선행연구로 리뷰하였다. 15개의 시스템을 분석한 결과 다음과 같은 특성과 문제점이 분석되었다. 첫째, 도치색인, N-gram 색인, 불리언 탐색, 용어절단검색, 키워드 및 어구 탐색, 음길이 정규화, 필터링, 브라우징, 편집거리, 정렬과 같은 텍스트 정보 검색 기법이 CBMR에서도 검색성능을 향상시키는 도구로 사용되고 있었다. 둘째, 시스템들은 웹에서 크롤링하거나 탐색질의를 DB에 추가하는 등으로 DB의 성장과 실용성을 위한 노력을 하고 있었다. 셋째, 개선되어야 할 문제점으로 선율이나 주선율을 추출하는데 부정확성, 색인자질을 추출할 때 사용되는 불용음(stop notes)을 탐색질의에서도 자동 제거할 필요성, 옥타브를 무시한 solfege 검색의 문제점 등이 분석되었다.

Abstract

This study compared and analyzed 15 CBMR (Content-based Music Retrieval) systems accessible on the web in terms of DB size and type, query type, access point, input and output type, and search functions, with reviewing features of music information and techniques used for transforming or transcribing of music sources, extracting and segmenting melodies, extracting and indexing features of music, and matching algorithms for CBMR systems. Application of text information retrieval techniques such as inverted indexing, N-gram indexing, Boolean search, truncation, keyword and phrase search, normalization, filtering, browsing, exact matching, similarity measure using edit distance, sorting, etc. to enhancing the CBMR; effort for increasing DB size and usability; and problems in extracting melodies, deleting stop notes in queries, and using solfege as pitch information were found as the results of analysis.

정보관리학회지