Browse

Development of Influenza Surveillance Model Based on Internet Search Query and Social Media Data
인터넷 검색쿼리와 소셜미디어 데이터를 활용한 사회인구학적 독감 감시모형개발

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors
우혜경
Advisor
조영태
Major
보건대학원 보건학과
Issue Date
2015-08
Publisher
서울대학교 보건대학원
Keywords
influenzasurveillancepopulation surveillanceinfodemiologyinfoveillanceInternet search querysocial mediabig dataforecastingepidemiologyearly response
Description
학위논문 (박사)-- 서울대학교 보건대학원 : 보건학과 보건학전공, 2015. 8. 조영태.
Abstract
연구목적: 감염성 질환의 발생을 조기에 확인하는 것은 공공보건 차원에서 정부 및 개인이 시기 적절하게 중재 및 대처할 수 있게 함으로서 질병발생과 확산으로 인한 혼란과 피해를 최소화 할 수 있는 가장 효과적인 방법이다. 최근 국내·외적으로 웹 및 모바일 기능과 정보를 질병감시에 응용하고자 하는 학문적, 정책적 논의들이 제기되고 있다. 의학 및 보건학 분야에서 정보기술의 응용은 질병발생과 확산에 대한 빠른 정보획득을 가능하게 하고, 실시간 정보제공이나 대응을 위한 기반을 제공해 줄 수 있기 때문이다. 본 연구는 전 세계에 걸쳐 계절마다 수 천에서 수 만 명의 사망자를 발생시키는 대표적 감염성 질환인 독감을 중심으로 인터넷 기반의 데이터를 활용한 감염병 감시모형을 개발하고자 하였다.

연구방법 및 결과: 독감 감시모형의 개발을 위해서 1) 독감발생 및 확산을 예측하는 키워드 검색 연구와 2) 독감 예측모형 개발 및 평가연구를 수행하였다.
(연구 1) 독감발생 및 확산을 예측하는 키워드 검색 연구: 트위터 및 네이버 블로그의 소셜미디어 데이터와 질병관리본부의 인플루엔자 표본감시 자료인 인플루엔자 의사환자 발생건수 데이터를 활용하여 독감발생 및 확산을 예측하는 키워드를 확인하고자 하였다. 초기 키워드 선정을 위해 ① 지난 43개월 동안 트위터 및 블로그 포스트에서 독감과 함께 자주 등장하는 연관어를 찾았고 (총 2,065 개), ② 실제 질병관리본부의 인플루엔자 의사환자 발생건수와 상관관계가 있는 키워드들로 필터링 하여 ③ 총 49개로 구성된 단일 키워드 및 조합된 키워드 리스트를 생성하였다. 키워드의 속성에 따라 몇 가지 제외조건을 적용하여 선별된 키워드를 포함하는 포스트들의 시계열 볼륨의 데이터 셋을 구축하였고, 모델링과 평가를 위한 데이터 셋을 구분하였다. 데이터 정규화 이후 Least absolute shrinkage and selection operator (Lasso) algorithm을 사용하여 10-fold cross validation 방법으로 최적 데이터 서브 셋과 모델링을 위한 피쳐들을 선택하였다. 마지막으로 최종 선택된 키워드들이 실제 독감의 발생과 확산을 예측하는지 평가해 보기 위해서 Lasso, Support Vector Machine for Regression (SVR) 및 Random Forest Regression (RFR) 등 머신 러닝(machine learning) 방법을 활용하여 모델링 및 평가를 수행하였다. 분석결과, 총 15개의 키워드가 독감의 발생 및 확산을 예측하는 키워드로 선택되었고, 모형평가 결과에서 최종 예측모형은 질병관리본부의 최근 독감발생률과 매우 높은 상관관계를 나타냈다(SVR model correlation: r=0.92, p<.001
RMSE=0.55).
연구2) 독감 예측모형 개발 및 평가연구: 트위터 및 네이버 블로그의 소셜미디어 데이터, 포털 사이트 Daum의 검색엔진 쿼리데이터, 그리고 질병관리본부의 인플루엔자 표본감시 자료인 인플루엔자 의사환자 발생건수 및 실험실 검사 양성건수 데이터를 활용하여 독감 예측모형을 개발하고자 하였다. 모형을 위한 쿼리선택 방법으로써 ① 트위터 및 블로그 데이터를 이용한 독감 연관어 키워드 탐색(총 103개의 단일키워드 또는 조합키워드), ② 인플루엔자 유사질환(ILI)의 공식정의, 미국 질병관리본부(CDC)에서 제공하는 독감증상자료 및 전문가 자문을 통한 환자들의 독감관련 주 호소(chief complaints) 정보 취합(총 29개의 키워드), ③ 우리나라 대표 인터넷 포털사이트인 Naver와 Daum의 웹 쿼리 추천시스템을 통한 추천 쿼리 리스트 탐색(총 75개 키워드) 등을 모두 고려하였다. 선택된 총 216개의 후보쿼리 중에서 중복된 쿼리를 제외하고, 총 6개의 씨앗쿼리와 총 146개의 독감 연관쿼리 리스트를 생성하였다. 선별된 152개의 쿼리들의 시계열 볼륨을 daum으로부터 제공받아 데이터 셋을 구축하였고, 모델링과 평가를 위한 데이터 셋을 구분하였다. 데이터 정규화 이후 Lasso algorithm을 사용하여 10-fold cross validation 방법으로 모델링을 위한 피쳐들을 선택하였다. 마지막으로 독감 발생 및 확산을 예측하는 모형을 구축하고 평가하기 위해서 Lasso, SVR 및 RFR 등 머신 러닝 방법을 채택하여 분석하였다. 분석결과, 총 36개의 검색쿼리가 질병관리본부의 인플루엔자 의사환자건수에 기반한 독감발생률을 잘 예측하는 쿼리로 선택되었고, 모형평가 결과에서 최종 예측모형은 질병관리본부의 최근 독감발생률과 매우 높은 상관관계를 나타냈다(SVR model의 correlation: r= 0.956, p<.001
RMSE=0.39). 같은 연구 절차로 인플루엔자 실험실 검사 양성건수에 기반한 독감발생률 예측모형을 구축하여 실험해 본 결과, 총 53개의 검색쿼리가 예측모형에 적합한 것으로 분석되었고, 모형평가 결과에서 모형의 예측력과 성능이 높은 것으로 나타났다(SVR model의 correlation: r= 0.963, p<.001
RMSE=7.24).

결론: 인터넷 검색엔진쿼리와 소셜 미디어 데이터를 활용하여 개발한 독감 감시예측모형은 질병관리본부에서 공표하는 독감 발생률과 높은 상관관계를 보였다. 본 연구의 결과에 따라 검색쿼리와 소셜미디어 데이터는 독감 감시를 위한 자료원으로써 충분히 타당성이 있다는 사실을 확인하였다. 아울러, 본 연구는 최적의 예측모델을 개발하기 위해서 성격이 다른 두 데이터를 융합한 새로운 방법론을 시도하였다. 인터넷 검색엔진쿼리와 소셜 미디어 데이터 정보의 융합은 상호 보완적으로 독감 발생 및 확산을 예측하는 모형의 성능을 향상시켰다. 본 연구에서 사용된 방법론은 독감뿐만 아니라 다른 감염성 질환의 예측모형 개발에도 유연하게 적용될 수 있을 것이며, 향후 감염병 국가감시체계의 기능을 보완 및 강화할 수 있는 보완시스템 개발에 유용하게 활용될 수 있을 것이다.
Seasonal influenza epidemics present a significant public health challenge, and early detection is crucial for disease control. In the last few years, the availability of big data from novel sources has contributed substantially to influenza surveillance. The purpose of this study is to investigate, with an application to seasonal influenza epidemic, whether Internet-based online surveillance could be helpful to complement and intensify the traditional surveillance system in South Korea. In addition, I propose a pragmatic method for detecting the influenza epidemic in Korea using Internet based big data, especially social media data and web search engine query data. The concerns and specific approach of this study are summarized as follows: (1) The first study is to identify keywords as a predictor for detecting influenza epidemic using social media data, especially twitter and web blog. (2) The second study is to construct a forecast model for detecting influenza epidemic using search engine query data based on the keywords identified from social media data.
In the 1st study, I identified keywords predicting influenza epidemics from social media data. I included data from Twitter and online blog posts to obtain a sufficient number of candidate predictors and to represent a larger proportion of the Korean population. The methods used this study include (a) initial keyword selection, (b) generation of the keyword time series, and (c) selection of optimal features for model building. I built the candidate models using the least absolute shrinkage and selection operator (Lasso), support vector machine for regression (SVR), and random forest regression (RFR) using the training set based on the features we selected. To find the model having the best performance, I evaluated the root mean square error (RMSE) of the predicted values and ILI incidence using the validation set. A total of 15 keywords optimally predicted influenza epidemic, evenly distributed across Twitter and blog data source. Predictions generated from using SVR model were highly correlated with the recent influenza incidence data (SVR model correlation: r=0.92, p<.001
RMSE=0.55).
In the 2nd study, I described a methodological extension for detecting influenza outbreaks using Internet search query
I provided a new approach for query selection through the exploration of contextual information gleaned from social media data. Additionally, I evaluated whether it is possible to use these queries for monitoring and predicting influenza epidemics in South Korea. My study was based on freely available weekly influenza incidence data and query data originating from the search engine on the Korean web site Daum between April 3, 2011, and April 5, 2014. In order to select queries related to influenza epidemics, several approaches were applied: (a) exploring influenza-related words in social media data (b) identifying the chief complaints related to influenza, and (c) using web query recommendations. Optimal feature selection by Lasso and SVR were used to construct a model for predicting influenza epidemics. A considerable proportion of optimal features for final models were derived from queries with reference to the social media data. The SVR model performed well: the prediction values were highly correlated with the recent observed ILI (SVR model의 correlation: r= 0.956, p<.001
RMSE=0.39) and the virological incidence rate (SVR model의 correlation: r= 0.963, p<.001
RMSE=7.24).
My models for detecting national influenza incidence have the power to predict. These results demonstrate the feasibility of search queries and social media data in enhancing influenza surveillance in South Korea. The current study provides further evidence, based on a new approach, for linkages between the use of Internet-based data and the surveillance of emerging influenza incidence in South Korea. I found that internet-based influenza surveillance that combines search engine query data with social media data has the power to predict influenza outbreaks, exhibiting strong congruence with traditional surveillance data. Furthermore, in an attempt to exploit the complementary nature of the two types of data sources in this study, I fused information drawn from social media with the methodology for query-based influenza surveillance. As seen through my results, these new data sources may be compatible and complementary in predicting influenza incidence. In addition, the basic principles underpinning my approach could be applied to other countries, languages, infectious diseases and data sources.
Language
English
URI
https://hdl.handle.net/10371/120797
Files in This Item:
Appears in Collections:
Graduate School of Public Health (보건대학원)Dept. of Public Health (보건학과)Theses (Ph.D. / Sc.D._보건학과)
  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse