SHERP

스마트 기기의 다종 데이터를 이용한 사용자 성별 예측 기법
A Method for User Gender Prediction Using Multi-type Smart Device Log Data

Cited 0 time in webofscience Cited 0 time in scopus
Authors
김윤정
Advisor
박종헌
Major
공과대학 산업공학과
Issue Date
2015-08
Publisher
서울대학교 대학원
Keywords
성별 예측스마트 기기 로그 데이터사생활 보호앙상블 기법통계학습기기 내 데이터 분석
Description
학위논문 (석사)-- 서울대학교 대학원 : 산업공학과, 2015. 8. 박종헌.
Abstract
스마트 기기의 사용이 보편화 됨에 따라 스마트 기기 사용자의 특성에 맞는 서비스를 제공할 필요성이 증가하고 있다. 사용자의 성별 정보는 개인화된 서비스를 위한 기초적이고 중요한 정보라 할 수 있다. 따라서 본 연구에서는 스마트 기기로부터 발생한 로그 데이터를 이용하여 사용자의 성별을 예측하는 앙상블 기법을 제안한다. 세 종류의 데이터에 기반한 사용자 성별 분류기의 예측 결과를 다수결 방식으로 앙상블하여 최종 성별을 예측한다.
텍스트 데이터를 이용한 분류기는 텍스트 데이터에 의한 사생활 침해 문제를 최소화하기 위해 사용자의 기기 내에서 성별 분류를 수행한다. 사전에 남녀를 대표하는 단어집합을 결정하고, 기기 내에서 텍스트 데이터와 비교하여 사용자의 성별을 분류한다. 단어집합 결정을 위해서 웹에서 문서를 수집하고 카이 제곱 통계량을 기준으로 남녀를 대표할 수 있는 단어를 추출한다.
어플리케이션 데이터에 기반한 분류기는 사용자가 실행한 어플리케이션들에 성별을 부여하고 높은 비율을 차지하는 성별로 사용자의 성별을 예측한다. 어플리케이션에 성별을 부여하기 위해 웹에 게시된 어플리케이션 설명글을 사용한다. 앞서 수집된 웹 문서로 문서 작성자의 성별을 분류하는 지지 벡터 기계를 학습하고 이를 통해 어플리케이션 설명글에 성별을 부여한다.
가속도 기반 분류기는 성별에 따른 사용자의 가속도 데이터 패턴을 학습한 지지 벡터 기계를 사용하여 주어진 사용자의 성별을 분류한다. 한 사용자에 대해서 단위 시간 동안 측정된 여러 개의 가속도 데이터를 남녀로 분류하고 이를 종합하여 사용자의 성별을 예측한다.
자체 제작한 안드로이드 어플리케이션을 통해 수집된 실제 스마트 기기 로그 데이터를 사용하여 제안하는 기법을 평가하였다. 제안하는 방법론을 통해 0.95의 정확도를 얻을 수 있었다. 각 분류기 중 텍스트 기반 분류기와 어플리케이션 기반 분류기는 가속도 기반 분류기와 비교하여 좋은 성능을 나타내었다.
Language
Korean
URI
http://hdl.handle.net/10371/123585
Files in This Item:
Appears in Collections:
College of Engineering/Engineering Practice School (공과대학/대학원)Dept. of Industrial Engineering (산업공학과)Theses (Master's Degree_산업공학과)
  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse