Publications

Detailed Information

PM2.5 source apportionment and mortality risk assessment using machine learning-based missing value estimation : 기계학습 기반 결측 값 추정을 이용한 PM2.5 오염원 추정 및 사망률 위험 평가

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

김영권

Advisor
이승묵
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
Spatial PM2.5 concentrationPM2.5 constituent concentrationmissing value estimationmachine learninglow-rank approximationsource apportionmentmortality risk assessmentbias improvement
Description
학위논문(박사) -- 서울대학교대학원 : 보건대학원 환경보건학과, 2023. 8. 이승묵.
Abstract
Fine particulate matter (PM2.5) and its constituents have adversely affected public health in East Asia, leading most countries to implement PM2.5 spatial and constituents monitoring to study health effects and emission sources. However, the ambient air monitoring network and supersite for such PM2.5 monitoring in Seoul, South Korea, has been losing half of its monitoring data due to high missing rates, potentially resulting in biases in mortality risk assessment and source apportionment. This thesis aims to improve the biases of PM2.5 mortality risk assessments and source apportionment compared to the conventional preprocessing methods of missing values by estimating missing values based on low-rank approximation and machine learning methods. As a first step, the missing values of the PM2.5 data are estimated, and the most accurate methods are selected for each data type. As a second step, four types of mortality risk assessment and source apportionment were performed and evaluated for the case with non-missing data and three cases with preprocessing of missing values including the conventional method. Twenty percent of PM2.5 spatial and constituent concentrations were artificially missing and estimated using multiple methods. Low-rank approximation (LRA) estimated the missing values of spatial PM2.5 mass concentrations measured in 25 ambient air monitoring networks in Seoul in 2020-2021 with the highest coefficient of determination 0.95 and further factorized the 25 districts in Seoul into five areas suitable for mortality risk assessment compared to other machine learning methods. The estimates of missing values using LRA were then applied to mortality risk assessments using distributed lag non-linear model (DLNM) based on the areas factorized by LRA. The results using the estimates improved the bias of flattening relative risk curves in the results of the conventional preprocessing method, which excludes missing values, to be similar to the results using non-missing data. Rrandom forest (RF) estimated the missing values of PM2.5 constituent concentrations measured at the Seoul supersite in 2018-2019 with the coefficients of determination 0.83 compared to other methods. The estimates of missing values of carbon species were then applied to source apportionment using positive matrix factorization (PMF). The contributions from each source showed the smallest differences with the result using non-missing data compared to the conventional preprocessing methods of median replacement and missing values exclusion. Also, oil combustion contribution, which was estimated to be zero in the conventional missing values exclusion method, was improved to 0.62%, similar to the result of 0.64% using non-missing data. As the scale of PM2.5 monitoring data increases in the future, missing values estimation using LRA and RF is needed to improve biases in mortality risk assessment and source apportionment for effective air quality management.
초미세먼지(PM2.5) 및 화학적 구성성분에 대한 공중보건의 악영향이 동아시아에서 보고됨에 따라서 대부분의 국가들은 PM2.5의 건강영향 및 오염원을 연구하기 위하여 PM2.5를 공간적 및 성분적 모니터링을 하고 있다. 그러나 한국의 서울에서 PM2.5의 공간 및 성분 농도를 모니터링하기 위한 도시대기 측정망과 대기환경연구소는 높은 결측률로 인해 모니터링 데이터의 절반이 손실되고 있으며, 이로 인하여 사망위험평가 및 오염원추정의 편향이 발생하고 있다. 현재까지 PM2.5모니터링 자료의 결측으로 인하여 사망위험평가 및 오염원추정에 발생하는 편향을 정량적으로 평가하고 이러한 편향을 결측 값 추정을 통하여 개선한 연구는 없다. 본 연구는 저차원근사(LRA) 및 기계학습(Machine learning)을 이용하여 PM2.5의 공간 및 성분 농도의 결측 값을 추정함으로써 사망 위험 평가 및 오염원 추정의 편향을 개선시키는 것을 목표로 한다. 첫번째 단계에서는 PM2.5 자료의 결측 값을 추정하고, 자료 유형별로 가장 정확한 추정방법을 선정한다. 두 번째 단계에서는 결측 값의 여부와 기존 방법을 비롯한 결측 값 전처리방법 세 가지에 따라서 총 네가지 유형의 사망률위험평가 및 오염원추정을 수행하고 비교하였다. PM2.5 자료에서 20%를 인위적으로 누락시키고 여러가지 방법으로 추정하였다. 서울시 25개 도시대기측정망에서 2020~2021년 동안 측정된 공간적 PM2.5 질량농도의 결측 값은 저차원근사를 이용한 결과에서 가장 높은 결정계수(R2) 0.95로 추정되었다. 또한, 저차원근사는 결측 값 추정과정에서 서울시 25개 지역구를 사망률위험평가에 적합한 다섯 영역으로 묶어 인자화 하였다. 저차원근사로 추정한 값을 분산지연 비선형모델(DLNM)에 적용하였고 앞서 인자화된 영역을 기반으로 사망률위험평가를 수행했다. 결측 값을 제외하던 기존방법의 결과에서는 상대위험도 곡선이 평탄해지는 편향성이 발견됬으나 이는 저차원근사의 추정 값을 사용한 결과에서 미결측 자료의 결과에 가깝도록 개선되었다. 수도권 대기환경연구소 2018~2019년에 측정된 PM2.5 성분 농도의 결측 값은 랜덤포레스트(RF)를 이용하여 다른 방법 대비 가장 높은 결정계수 0.83으로 추정되었다. 탄소화학종(유기탄소, 원소탄소)결측 값을 랜덤포레스트로 추정하여 오염원을 추정을 위한 양행렬분해(PMF)에 적용하였다. 각 오염원별 기여도는 결측 값을 중앙값으로 대체하고 제외하던 기존방법들의 결과 대비 미결측 자료를 사용한 결과와 가장 작은 차이를 보였다. 또한, 결측 값을 제외하던 기존방법의 결과에서 0으로 추정된 기름연소의 기여도가 미결측 자료의 결과인 0.64%와 유사한 0.62%로 개선되었다. 향후 PM2.5 모니터링 자료의 양이 방대해질 것으로 예상됨에 따라서 효과적인 대기질 관리를 위해서는 저차원근사 및 랜덤포레스트로 결측 값을 추정하여 사망위험률평가 및 오염원 추정의 편향을 개선시키려는 노력이 필요하다.
Language
eng
URI
https://hdl.handle.net/10371/196809

https://dcollection.snu.ac.kr/common/orgView/000000179237
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share