Browse

Detecting Language from Depressed Users with Korean Twitter Data
한국어 트위터 데이터를 활용한 우울증 표현 인식

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors
줄리우스
Advisor
신효필, 남승호, 김문형
Major
인문대학 언어학과
Issue Date
2018-08
Publisher
서울대학교 대학원
Description
학위논문 (석사)-- 서울대학교 대학원 : 인문대학 언어학과, 2018. 8. 신효필, 남승호, 김문형.
Abstract
근래 자살률에 있어 OECD 국가들 중 최상위권에 있으면서도 한국에서 우울증과 같은 정신건강에 대한 진단과 치료는 과거와 마찬가지로 여전히 금기시되는 경향성이 있다. 영어권 국가들에서는 소셜 미디어 텍스트를 이용해 정신건강의 이상 징후를 찾는 연구가 크게 증가하고 있고, 최근에는 한국 교육부도 자체적으로 소셜 미디어 텍스트 검사 앱을 미성년자 대상으로 발표했다. 따라서 한국어 소설 미디어 텍스트로부터 정신건강 이상 징후를 효과적으로 분류하는 연구는 현재 매우 시의적절한 상황이다.

현재까지 소셜 미디어 데이터를 활용한 다수의 기존 연구들은 심리학적 텍스트 분석 프로그램(LIWC) 또는 설문지와 같이 사전 구축된 어휘자료를 사용해왔고, 특정 분야의 지식과 설문조사를 요구하지 않는 자동 감지 방법에 대한 연구는 상대적으로 적었다. 더욱이 영어 이외의 언어를 대상으로 한 연구는 매우 드물고 한국어에 대해서는 연구가 전무한 상황이다. 본 연구는 한국의 우울증과 자살이 공중 보건 문제에 대해 갖는 중요성을 감안해 이와 같은 부족함을 채우고자 이루어졌다.

본 연구는 어떤 게시된 트윗으로부터 그것을 작성한 사용자가 우울증을 앓고 있는지를 예측하고자 다양한 기계 학습 분류기를 사용하였다. 이를 위해 먼저 우울증을 진단받았다고 주장하는 트윗을 올린 사용자들을 찾은 후에, 한국어 모국어 화자들이 직접 그 트윗 게시물을 토대로 우울증 진단 여부를 판단하였다. 그리고 우울증을 앓고 있는 것으로 판단된 사용자자로부터 최대 3,200개까지의 트윗을 수집했으며, 같은 활동시기의 정상적 사용자들 중 같은 수의 사용자들을 임의로 선택하여 그 트윗들을 통제집단으로 수집하였다. 두 개의 다른 토크나이저와 다수의 기계 학습 분류기를 사용했고, 트크나이저와 분류기의 각 조합에 다라 10-폴드 교차 검증법을 이용하여 평균 정밀도와 F1 스코어를 기록했다. 그 결과, 모든 조합에서 우연보다 훨씬 높은 정확도로 우울증 경향성을 보이는 사용자들을 감지하였다.

그러므로 본 연구는 소셜 미디어 자료를 사용하여 정신 건강 문제를 자동 탐지하는 방법이, 기존의 심리학적 텍스트 분석 프로그램(LIWC)이나 비용과 시간이 드는 설문조사에 비해 최소한 그 성능이 갖거나 더 낫다는 점을 확인하였다는 의미를 갖는다.
Despite leading the OECD in suicides, both the diagnosis and treatment of mental health conditions such as depression remain a taboo in South Korea. With research utilizing English social media text to find signals of mental health conditions becoming ever more abundant, and South Koreas Ministry of Education releasing its own social media text scanning app in order to identify minors at risk, exploration into effective methods of classifying Korean social media text on the basis of underlying mental health conditions is perhaps more relevant than ever.

Most studies to date leveraging social media to detect signals tied to mental health conditions have utilized pre-generated dictionaries such as LIWC or survey data. While there has been some research into automatic detection methods requiring little or no domain knowledge and no survey data, such studies are rare outside of English and, to our knowledge, no such study has yet been done in Korean. Given the unique relevance of depression and suicide as public health concerns to South Korea, this thesis hopes to be a potential start to filling this void.

This paper employs various machine learning classifiers to predict whether a tweet was posted by a depressed user. After searching for users with tweets stating that they have been diagnosed with depression, Korean native speakers were utilized to determine if such statements indicated a genuine claim of a diagnosis. Up to 3200 tweets were scraped for each verified user. Then, a set of tweets from an equal number of random Twitter users that had posted over the same time period was collected as a control group. Using two different tokenizers and an array of machine learning classifiers, the average precision and F1 scores over a 10-fold cross-validation were recorded for all combinations of tokenization and classifiers. All combinations were found to be able to detect whether a tweet came from a depressed user with an accuracy rating well above chance. This study, therefore, suggests that detection of mental health issues using social media data may be a viable approach for further study and treatment of mental illness, and on par or better than previous methods relying upon pre-generated dictionaries such as LIWC or expensive and time-consuming survey data.
Language
English
URI
https://hdl.handle.net/10371/143754
Files in This Item:
Appears in Collections:
College of Humanities (인문대학)Linguistics (언어학과)Theses (Master's Degree_언어학과)
  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse