Publications

Detailed Information

스마트폰 어플리케이션 설치목록을 이용한 사용자 프로파일링 : User Profiling with Installed Applications on Smartphone

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

기홍도

Advisor
박종헌
Major
공과대학 산업공학과
Issue Date
2017-02
Publisher
서울대학교 대학원
Keywords
인구통계학 정보 추론스마트폰 어플리케이션 설치목록스마트폰 어플리케이션 메타정보통계학습Doc2Vec앙상블어플리케이션 선택
Description
학위논문 (석사)-- 서울대학교 대학원 : 산업공학과, 2017. 2. 박종헌.
Abstract
개인화 기기인 스마트 폰의 사용이 보편화 됨에 따라 개인화 서비스에 대한 요구가 증가하고 있으며, 인구통계학 정보는 개인화 서비스를 제공할 때 유용하게 사용할 수 있는 정보이다. 따라서 다양한 데이터를 기반으로 통계 학습을 이용하여 사용자의 인구통계학 정보를 추론하는 많은 연구가 진행되어왔다. 본 연구에서는 사용자의 관심사와 생활습관을 반영하고 있을 뿐만 아니라, 사용자로부터 권한을 획득하지 않고 수집할 수 있으며, 순간적으로 전체 목록을 수집할 수 있어 수집 비용을 최소화 할 수 있는 어플리케이션 설치목록을 이용하여 사용자의 성별, 연령, 연애상태, 거주형태, 동거여부, 수입수준, 지출수준, 신장, 체중, 종교, 이수학기, 단과대학을 추론한다.
추론 과정에서 스마트폰 어플리케이션 설치목록과 스토어에서 획득가능한 메타정보인 카테고리와 설명글을 이용하여 사용자를 나타내는 네가지 요인 벡터를 만들어 사용한다. 특히, 인공 신경망 기반의 텍스트 임베딩 방법론인 Doc2Vec을 어플리케이션 설명글에 적용한 요인 벡터를 사용한다. 또한, 네가지 요인 벡터에 담긴 정보를 종합적으로 이용 하기위해 각각의 요인벡터를 이용하여 추론한 결과를 앙상블한 경우의 성능을 살펴보고, 성능을 높이기 위해 어플리케이션을 선택적으로 사용해가면서 추론하는 실험을 수행한다. 마지막으로 인구통계학 정보 항목 별로 모든 요인 벡터와 어플리케이션 선택 방법론을 조합하여 가장 좋은 성능을 최종성능으로 도출하고 추론 효과를 비교한다.
실험 결과, 단일 요인 벡터를 사용한 경우에서는 어플리케이션 설명글에 Doc2Vec 기법을 적용하여 만든 요인 벡터를 사용한 경우가 전반적으로 좋은 성능을 보였으며, 각 요인 벡터를 이용해 추론한 결과를 앙상블 한 결과로 성별, 연애상태, 신장, 체중 항목에서 성능을 개선할 수 있었다. 또한, 인구통계학 정보 항목별로 성능을 향상할 수 있는 어플리케이션 선택 기준이 다르다는 것을 확인하였으며, 어플리케이션 설치목록을 이용하면 다른 항목들에 비해 성별, 단과대학, 연애상태, 소득수준을 추론하였을 때 그 효과가 크다는 사실을 알 수 있었다.
Needs for customized services are increasing as a smart phone, which is a personalized device, has been used generally. Demographic information is useful information for customized services, so demographic inference based various data using statistical learning has been actively researched. This study conducts experiments of gender, age, relationship status, residential type, living together or not, income, outcome, height, weight, religion, semester and college inference with a list of installed applications which is differed by users interest and lifestyle and can be accessed easily as a snapshot without explicit permission.
Four feature vectors are used for demographic inference, including vectors utilizing application category or description which can be collected from application market. Especially, one of feature vectors is generated by applying Doc2Vec, a text embedding method based on neural network, to application description. An ensemble method is used to make use of information from four feature vector all together. Application selection method is also used to obtain better performances than could be obtained by using all applications on the list. At last, the performances are optimized with types of feature vector and application selection method, used to compare the effects of inference with installed applications among different demographic targets.
As a result, overall performances by using the feature vector generated by applying Doc2Vec to application description were excellent and performances in gender, relationship status, height and weight was improved by using the ensemble method. In addition, it was found that application selection method which can improve performance is different by demographic targets and the effects of gender, college, relationship status and income inference are greater than other targets based on installed applications.
Language
Korean
URI
https://hdl.handle.net/10371/123611
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share