Publications

Detailed Information

Naïve Bayes 방법론을 이용한 개인정보 탐지 : Personal Information Detection by Using Naïve Bayes Methodology

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

김남원

Advisor
박진수
Major
경영학과
Issue Date
2012-02
Publisher
서울대학교 대학원
Description
학위논문 (석사)-- 서울대학교 대학원 : 경영학과, 2012. 2. 박진수.
Abstract
인터넷이 대중화되면서 많은 사람들이 인터넷에 떠도는 수많은 정보를 이용하여 서로 소통하고 있다. 개인의 홈페이지, 블로그, 소셜 네트워크 서비스(SNS) 등이 늘어나면서 사람들은 개인적인 여러 정보를 공개적으로 인터넷 상에 노출시키기도 한다. 이러한 개인들의 활동들은 자신의 근황과 소식을 타인에게 알리면서 바쁜 현대사회에서 자칫 멀어질 수 있는 인간관계를 유지시켜주는 윤활제 역할을 한다는 점에서 존재의 필요성을 부인할 수는 없을 것이다. 하지만 개인들의 온라인 활용의 결과로 떠도는 기록들은 개인정보 누출이라는 부정적인 측면을 초래하고 있다.
사람들이 작성하는 모든 정보들을 일일이 살펴서 개인정보가 새어나가는 사태를 막기 힘들기 때문에 자동적으로 정보 누출의 위험 수위를 판별할 수 있는 방법이 요구되는 시점이다. 본 논문에서는 개인정보 관련 문서가 가지는 자질들을 분석하고 자동 문서 분류 방법 중 하나인 Naïve Bayes 알고리즘에 그 자질들을 학습시켜 개인정보에 관련된 문서를 탐지 혹은 분류할 수 있는 방법을 제시한다.
처음 Warren과 Brandeis이 프라이버시권이라는 개념을 논문에 정립한 이후 많은 종류의 프라이버시가 언급되었다. 정보 통신 기술이 발달함에 따라 학자와 단체들은 개인정보의 영역을 프라이버시라는 인간의 기본권 안에서 다루기 시작하였다. 특히 디지털 형태의 개인정보는 사회적, 경제적 가치가 높은 반면 그 취약성이 커서 오늘날 개인정보 보호는 프라이버시 권리에서 가장 핵심적인 부분으로 이해된다.
개인이 인터넷이라는 공적인 장소에 자신의 정보를 노출하였지만 타인이 정보 해당자의 허락 없이 정보를 여러 목적으로 이용한다면 인간의 기본권인 개인정보 자기 결정권에 대한 위반 행위라 볼 수 있다. 하지만 현재 인터넷을 이용하는 많은 사람들은 이러한 부분이 인간의 기본권이라는 것을 인지하지 못하고 인터넷 상에서 갖추어야 할 윤리에 대한 교육이 불충분한 상태이다. 따라서 아직 윤리적으로 준비되지 않은 인터넷 이용자들을 대신하여 개인정보에 침해가 될 만한 요소들을 미연에 탐지하여 물질적, 정신적, 사회적, 그리고 법적인 피해를 최대한 줄일 수 있는 방안이 필요하다.
본 연구에서는 개인정보 누출을 미연에 방지하는 방안으로서 자동 문서 분류기를 통한 개인정보 관련 문서 분류 방법을 제안한다. 개인정보 문서 분류에 쓰일 알고리즘을 선정을 위하여 기계 학습 문서 분류에 있어 가장 널리 쓰이는 Vector Space 분류법과 Naïve Bayes 분류법을 비교 분석하였다. 분석 결과 정밀도와 재현율 등의 측정치에서 Naïve Bayes 방법론이 더 우수함을 알 수 있었으나 수치 상으로 아직 부족한 수준의 성능을 보여주었다.
Lewis는 학습하는 과정에서 자질의 질을 높여서 특정 도메인에 적용할 기계 학습 알고리즘의 성능을 향상시킬 수 있다고 제안한다. 자질의 질을 높이는 한 방법으로 그는 제대로 된 자질들을 선택하여 추가 학습시키는 방법을 소개하고 있다. 이러한 자질 선택을 하기 위해서 대부분 범주에 확실히 관련된 자질들을 수동적 과정을 통해 선별하고 있다. 하지만 본 연구에서는 기존 개인정보 유형에 관한 문헌을 종합하여 각 유형이 개인정보 관련 문서에 종속적인 정도를 측정하였고, 일부 유형들을 개인정보 문서 범주의 자질로 분류하였다. 그리고 종속적인 유형을 알고리즘에 추가 학습시켜 자질들의 노이즈를 줄임으로써 나타나는 알고리즘의 성능 변화를 살펴 보았다. 결과적으로 추가 학습을 시킨 알고리즘의 성능은 그렇지 못한 알고리즘 보다 모든 측면에서 우수하다고 나타났다.
As the Internet becomes more popular, many people use it to communicate. With the increasing number of personal homepages, blogs, and social network services, people often expose their personal information online. Although the necessity of those services cannot be denied, we should be concerned about the negative aspects such as personal information leakage.
Because it is impossible to review all of the past records posted by all of the people, an automatic personal information detection method is strongly required. This study proposes a method to detect or classify online documents that contain personal information by analyzing features that are common to personal information related documents and learning that information based on the Naïve Bayes algorithm.
To select the document classification algorithm, the Naïve Bayes classification algorithm was compared with the Vector Space classification algorithm. The result showed that Naïve Bayes reveals more excellent precision, recall, F-measure, and accuracy than Vector Space does. However, the measurement level of the Naïve Bayes classification algorithm is still insufficient to apply to the real world.
Lewis, a learning algorithm researcher, states that it is important to improve the quality of category features while applying learning algorithms to some specific domain. He proposes a way to incrementally add features that are dependent on related documents and in a step-wise manner. In another experiment, the algorithm learns the additional dependent features thereby reducing the noise of the features. As a result, the latter experiment shows better performance in terms of measurement than the former experiment does.
Language
kor
URI
https://hdl.handle.net/10371/154489

http://dcollection.snu.ac.kr/jsp/common/DcLoOrgPer.jsp?sItemId=000000000100
Files in This Item:
There are no files associated with this item.
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share