바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 표현의 자유, 검색결과: 4
초록보기
초록

인터넷의 대중화와 함께, 인터넷의 불법유해정보의 존재는 정부와 인터넷 사용자들에게 큰 근심거리가 된지 오래다. 불법유해정보 문제에 대한 다양한 해법들 중에서, 인터넷 콘텐츠 필터링 기술은 사용자들이 스스로 유해정보 문제에 대처할 수 있도록 개발되어 왔다. 지난 몇 년 사이, 상업 필터링 제품에 대한 관심이 높아지고 있다. 부모, 교사, 심지어는 정부 당국도 청소년을 인터넷 유해정보로부터 보호하는 기술적 대안으로써 상업 필터링 제품을 선택하고 있고, 그 시장도 빠르게 성장하고 있다. 하지만 시민단체들을 중심으로 인터넷 콘텐츠 필터링에 대한 비판의 목소리가 높다. 필터링은 기술적 측면에서 태생적인 약점을 가지고 있을 뿐 아니라, 표현의 자유를 위축시키는 결과를 초래할 것이라는 비판이다. 이 논문은 인터넷 콘텐츠 필터링, 특히 일세대 필터링과 구분되어 내용등급시스템으로 불리는 PICS/RDF 기반의 라벨 필터링의 기술적 측면을 분석하고 표현의 자유, 사용자 자율성과 관련된 문제들을 살펴봄으로써, 불법유해정보에 대한 기술적 해법의 타당성에 대하여 논하고자 한다.

Abstract

Since the use of the Internet has proliferated, the availability of illegal and harmful content has been a great concern to both governments and Internet users. Among various solutions for issues related to such content, Internet content filtering technologies have been developed for enabling users to deal with harmful content. In recent years, commercial filtering has become massively popular. Many parents, teachers and even governments have chosen commercial filtering software as a feasible technical solution for protecting minors from harmful information on the Internet. The Internet content filtering software market has grown significantly. However, Internet content filtering software has led to intense debate among civil liberties groups. They deem this to be censorship and argue that Internet filtering technologies are simply unworkable because they have inherent weaknesses. They are critical of the fact that most filtering has violated free speech rights and will eventually wipe out minor and controversial, yet innocent incidences of free speech on the Internet. In this article Internet content filtering, in particular PICS/RDF-based label filtering, so-called Internet content rating system, will be explored and its advantages and drawbacks relating to end-users' autonomy and freedom of expression will be discussed.

초록보기
초록

시소러스의 효율성을 유지하기 위해서는 지속적인 용어 관리가 절대적으로 필요하다. 실제적으로 특정 주제영역의 정보와 키워드들은 생성과 분화, 소멸 과정 등이 동적으로 이루어지기 때문에 시소러스의 효율적인 이에 따라 본 연구에서는 토픽맵의 기본요소인 토픽과 대상물, 연관관계 등을 활용하여 시소러스 관리를 위한 구조화 방안을 제안하였다. 한편 구조체계의 맵핑 알고리즘과 구조체계의 병합 알고리즘을 이용한 시소러스 기본관계와 세부관계 표현 방법도 제안하였다. 또한 토픽 타입을 이용한 연결중심문서를 기준으로 디스크립터의 확장과 디스크립터의 대치 방안을 제시하였다. 특히, 고정된 개념을 통한 이중 용어관리라는 새로운 방안도 개발하였다. 이는 시간과 공간의 비종속적인 개념을 표현하는 용어를 고정시키고, 해당 개념의 범주에 속하면서 외부의 정보적 상황에 따라 디스크립터를 자유롭게 선정하는 방법이다.

Abstract

The terminology management is absolutely necessary for maintain ing the efficiency of thesaurus. This is because the c reating, differentiating, disappearing, and other processes of e management of thesaurus a very difficult task. Therefore, a device is required for acco mplishing methods to construct and maintain the thesaurus.This study proposes the methods to construct the thesaurus mana elements of a topic map which are topic, ocurrence, and associ ation. Second, the study proposes the methods to represent the basic and specific instances using the systematic maping algorithm and merging algorithm.methods to expand and subsitute the descriptors using the topic type. The new method applying fixed concept for double layer manageme nt on terms is developed, too. The purpose of this method is to fix the conceptual term which and space, and to select the des criptor freely by external info rmation circumstance.

초록보기
초록

동일한 인명을 갖는 서로 다른 실세계 사람들이 존재하는 현실은 인터넷 세계에서 인명으로 표현된 개체의 신원을 식별해야 하는 문제를 발생시킨다. 상기의 문제가 학술정보 내의 저자명 개체로 제한된 경우를 저자식별이라 부른다. 저자식별은 식별 대상이 되는 저자명 개체 사이의 유사도 즉 저자유사도를 계산하는 단계와 이후 저자명 개체들을 군집화하는 단계로 이루어진다. 저자유사도는 공저자, 논문제목, 게재지정보 등의 저자식별자질들의 자질유사도로부터 계산되는데, 이를 위해 기존에 교사방법과 비교사방법들이 사용되었다. 저자식별된 학습샘플을 사용하는 교사방법은 비교사방법에 비해 다양한 저자식별자질들을 결합하는 최적의 저자유사도함수를 자동학습할 수 있다는 장점이 있다. 그러나, 기존 교사방법 연구에서는 SVM, MEM 등의 일부 기계학습기법만이 시도되었다. 이 논문은 다양한 기계학습기법들이 저자식별에 미치는 성능, 오류, 효율성을 비교하고, 공저자와 논문제목 자질에 대해 자질값 추출 및 자질 유사도 계산을 위한 여러 기법들의 비교분석을 제공한다.

Abstract

In bibliographic data, the use of personal names to indicate authors makes it difficult to specify a particular author since there are numerous authors whose personal names are the same. Resolving same-name author instances into different individuals is called author resolution, which consists of two steps: calculating author similarities and then clustering same-name author instances into different person groups. Author similarities are computed from similarities of author-related bibliographic features such as coauthors, titles of papers, publication information, using supervised or unsupervised methods. Supervised approaches employ machine learning techniques to automatically learn the author similarity function from author-resolved training samples. So far, however, a few machine learning methods have been investigated for author resolution. This paper provides a comparative evaluation of a variety of recent high-performing machine learning techniques on author disambiguation, and compares several methods of processing author disambiguation features such as coauthors and titles of papers.

4
고영수(연세대학교 문헌정보학과 석사과정) ; 이수빈(연세대학교 문헌정보학과 박사과정) ; 차민정(연세대학교 소셜오믹스 연구센터) ; 김성덕(연세대학교 문헌정보학과 석사과정) ; 이주희(연세대학교 문헌정보학과 석사과정) ; 한지영(연세대학교 문헌정보학과 석사과정) ; 송민(연세대학교 문헌정보학과) 2022, Vol.39, No.2, pp.111-129 https://doi.org/10.3743/KOSIM.2022.39.2.111
초록보기
초록

불면증은 최근 5년 새 환자가 20% 이상 증가하고 있는 현대 사회의 만성적인 질병이다. 수면이 부족할 경우 나타나는 개인 및 사회적 문제가 심각하고 불면증의 유발 요인이 복합적으로 작용하고 있어서 진단 및 치료가 중요한 질환이다. 본 연구는 자유롭게 의견을 표출하는 소셜 미디어 ‘Reddit’의 불면증 커뮤니티인 ‘insomnia’를 대상으로 5,699개의 데이터를 수집하였고 이를 국제수면장애분류 ICSD-3 기준과 정신의학과 전문의의 자문을 받은 가이드라인을 바탕으로 불면증 경향 문헌과 비경향 문헌으로 태깅하여 불면증 말뭉치를 구축하였다. 구축된 불면증 말뭉치를 학습데이터로 하여 5개의 딥러닝 언어모델(BERT, RoBERTa, ALBERT, ELECTRA, XLNet)을 훈련시켰고 성능 평가 결과 RoBERTa가 정확도, 정밀도, 재현율, F1점수에서 가장 높은 성능을 보였다. 불면증 소셜 데이터를 심층적으로 분석하기 위해 기존에 많이 사용되었던 LDA의 약점을 보완하며 새롭게 등장한 BERTopic 방법을 사용하여 토픽 모델링을 진행하였다. 계층적 클러스터링 분석 결과 8개의 주제군(‘부정적 감정’, ‘조언 및 도움과 감사’, ‘불면증 관련 질병’, ‘수면제’, ‘운동 및 식습관’, ‘신체적 특징’, ‘활동적 특징’, ‘환경적 특징’)을 확인할 수 있었다. 이용자들은 불면증 커뮤니티에서 부정 감정을 표현하고 도움과 조언을 구하는 모습을 보였다. 또한, 불면증과 관련된 질병들을 언급하고 수면제 사용에 대한 담론을 나누며 운동 및 식습관에 관한 관심을 표현하고 있었다. 발견된 불면증 관련 특징으로는 호흡, 임신, 심장 등의 신체적 특징과 좀비, 수면 경련, 그로기상태 등의 활동적 특징, 햇빛, 담요, 온도, 낮잠 등의 환경적 특징이 확인되었다.

Abstract

Insomnia is a chronic disease in modern society, with the number of new patients increasing by more than 20% in the last 5 years. Insomnia is a serious disease that requires diagnosis and treatment because the individual and social problems that occur when there is a lack of sleep are serious and the triggers of insomnia are complex. This study collected 5,699 data from ‘insomnia’, a community on ‘Reddit’, a social media that freely expresses opinions. Based on the International Classification of Sleep Disorders ICSD-3 standard and the guidelines with the help of experts, the insomnia corpus was constructed by tagging them as insomnia tendency documents and non-insomnia tendency documents. Five deep learning language models (BERT, RoBERTa, ALBERT, ELECTRA, XLNet) were trained using the constructed insomnia corpus as training data. As a result of performance evaluation, RoBERTa showed the highest performance with an accuracy of 81.33%. In order to in-depth analysis of insomnia social data, topic modeling was performed using the newly emerged BERTopic method by supplementing the weaknesses of LDA, which is widely used in the past. As a result of the analysis, 8 subject groups (‘Negative emotions’, ‘Advice and help and gratitude’, ‘Insomnia-related diseases’, ‘Sleeping pills’, ‘Exercise and eating habits’, ‘Physical characteristics’, ‘Activity characteristics’, ‘Environmental characteristics’) could be confirmed. Users expressed negative emotions and sought help and advice from the Reddit insomnia community. In addition, they mentioned diseases related to insomnia, shared discourse on the use of sleeping pills, and expressed interest in exercise and eating habits. As insomnia-related characteristics, we found physical characteristics such as breathing, pregnancy, and heart, active characteristics such as zombies, hypnic jerk, and groggy, and environmental characteristics such as sunlight, blankets, temperature, and naps.

정보관리학회지