Publications

Detailed Information

Source apportionment and spatiotemporal analysis of PM2.5 using machine learning and receptor models : 기계학습과 수용모델을 이용한 초미세먼지 오염원 및 기여도의 시공간 분포 분석

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

이영수

Advisor
김재영
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
PM2.5Source apportionmentPositive matrix factorizationMachine learning modelingPM2.5 chemical constituentsBayesian receptor modeling
Description
학위논문(박사) -- 서울대학교대학원 : 공과대학 건설환경공학부, 2023. 2. 김재영.
Abstract
직경 2.5 µm 이하의 입자상 물질인 초미세먼지는 대기중에 존재하며, 건강에 미치는 악영향으로 인해 수십 년 동안 세계적으로 관심의 대상이 되고 있는 대기오염물질이다. 초미세먼지를 효과적으로 관리하기 위해서는 다양한 시간과 공간에 대해 초미세먼지의 오염원 유형을 파악하고, 각 유형별 기여도를 정량화하는 것이 중요하다. 따라서, 초미세먼지의 오염원 추정은 핵심 과제로 다뤄져 왔으며, 통계학적 방법론을 적용해 오염원을 추정하는 수용모델이 많이 활용되고 있다.
본 연구에서는 초미세먼지의 세부 특성을 파악하기 위해 오염원 추정과 추정된 오염원의 시공간 분석을 수행하였으며, 이를 통해 효과적인 초미세먼지 관리 방안 마련에 중요한 정보를 제공하는 것을 목적으로 하였다. 오염원 유형 추정 연구를 위해, 두 가지 모델링이 수행되었다. 첫번째는 양행렬 인자 분석(Positive matrix factorization, PMF) 모델링으로, 이는 한 장소에서 초미세먼지의 오염원 유형을 구체적으로 추정하기 위해 활용되었다. 두번째는 베이지안 다변량 수용 모델링(Bayesian spatial multivariate receptor modelingm, BSMRM)으로, 이는 다수의 측정 지점으로부터 넓은 범위의 면적에 대해 주요 오염원 유형을 추정하기 위해 활용되었다. 또한, 기계학습 모델들을 활용하여 초미세먼지 오염원 유형 추정에 가장 중요한 자료로 활용되는 초미세먼지 화학성분 농도를 예측하였다. 기계학습 모델을 초미세먼지 화학성분 자료에 대해 활용가능한지를 검토하였고, 이를 통해 초미세먼지 화학성분 자료의 무결성을 향상시키고자 하였다.
PMF 모델링을 통해, 대한민국 시흥시의 초미세먼지 오염원 유형 10가지를 도출하였다. 이는 각각 2차 생성 질산염(24.3%), 2차 생성 황산염(18.8%), 이동 오염원(18.8%), 난방연소(12.6%), 생물체 연소(11.8%), 석탄 연소(3.6%), 중유 관련 산업 오염원(1.8%), 제련 관련 산업 오염원(4.0%), 해염 입자(2.7%), 토양(1.7%)였다. 도출된 오염원 유형별로, 초미세먼지 호흡에 따른 건강 영향을 평가하였다. 석탄 연소, 중유 관련 산업 오염원, 이동 오염원의 초미세먼지 기여도는 낮았지만, 이로 인한 발암 위해도는 10E-6 이상으로 나타났다. 따라서, 초미세먼지의 질량농도 감축 중심의 대응만이 아닌, 오염원별 건강영향 중심의 대응이 요구된다.
기계학습 모델의 초미세먼지 화학성분 예측 능력을 평가하기 위해 4가지 기계학습 모델에 대해 입력 자료 수준, 예측 대상 성분, 입력 자료 기간, 입력 자료의 결측 비율, 자료 대상 지역을 변화하며 예측 정확도를 비교 평가하였다. GAIN(Generative Adversarial Imputation Network), FCDNN(Fully Connected Deep Neural Network), Random forest(RF), kNN(k-nearest neighboring) 모델의 4가지 기계학습 모델을 한국의 3개 지역(서울, 울산, 백령)의 2016년부터 2018년까지의 초미세먼지 화학 성분 자료에 대해 적용하여 농도를 예측하였다. 예측값과 관측값 사이의 결정계수를 통해 정확도를 비교한 결과, 예측 정확도는 GAIN이 가장 높았고, FCDNN, RF 또는 kNN 순서로 나타났다. 입력 자료의 결측률이 20%에서 80%까지 증가함에 따라 예측 정확도는 모든 모델에서 감소하였으나, 비지도 기계학습 모델인 GAIN과 kNN에서 감소 폭이 더 크게 나타났다. 입력 자료의 기간이 길어질수록, 딥러닝 모델인 GAIN과 FCDNN이 다른 두 모델인 RF와 kNN보다 예측 정확도 증가 폭이 더 컸다. 예측 대상 지역별로는, 자체 배출원이 많은 울산의 경우가 예측 정확도가 가장 낮게 나타났고, 자체 배출원의 영향이 거의 없는 백령도의 경우 예측 정확도가 가장 높게 나타났다. 대상 성분별로는 이온 성분이 예측 정확도가 높게 나타났고, 미량원소 성분은 예측 정확도가 낮았다. 본 연구는 기계학습 모델의 예측 정확도를 다양한 실험 조건에 따라 평가하여 대기오염 분야에서의 기계학습 모델의 적용 가능성을 평가했다.
베이지안 다변량 수용 모델링(BSMRM)을 통해서는 8개의 관측 지점 자료를 통해 우리나라의 주요 초미세먼지 오염원 5가지를 도출하고, 각각 오염원 유형별 기여도를 우리나라 전체에 대한 공간 분포를 추정하였다. 5가지 오염원은 각각 2차 질산염, 2차 황산염, 자동차 배출, 산업 오염원, 해염 입자였다. 각 오염원 유형별 일평균 기여도 농도를 지도에 공간적으로 표현할 수 있었다. 또한, BSMRM을 통해 예측한 오염원 유형별 기여도의 타당성 검토를 위해 테스트 사이트(안산, 대전, 광주)의 자료는 각각 제외된 모델링을 수행하여 결과를 서로 비교하여 모델의 정확도를 확인하였다. 이처럼 공간적으로 추정된 오염원 유형 기여도는 초미세먼지 화학성분을 측정하지 않는 도시에서 초미세먼지 대응 방안을 수립하는데 큰 도움이 될 수 있다. 즉, 8개의 측정 자료만으로 우리나라 전체에 대해 예측한 결과를 통해, 측정 지점이 없는 모든 도시에 대해 추정이 가능하였으며, 이 결과는 건강 영향 평가와 같은 추가 연구에도 활용될 수 있다.
Particulate matter less than 2.5 micrometers (PM2.5) has been a pollutant of interest globally for more than decades, owing to its adverse health effects. For developing effective PM2.5 management strategies, it is crucial to identify their sources and quantify how much they contribute to ambient PM2.5 concentrations in time and space. Source apportionment is the key to identifying the characteristics of PM2.5. Receptor modeling is widely used to identify PM2.5 sources as a statistical method of source apportionment. The chemical constituents of PM2.5 were used as input data for receptor modeling.
Therefore, this study aimed to investigate the characteristics of PM2.5 using models of source apportionment and spatiotemporal analysis for effective management strategies. Two types of modeling were performed for the source apportionment study. The first is positive matrix factorization modeling, which identifies a specific source type and its contributions to PM2.5 from one site. The second is Bayesian spatial multivariate receptor modeling, which derives major sources and their contributions to PM2.5 from multiple monitoring sites. In addition, machine learning models were used to predict the concentrations of PM2.5, which are important data for receptor modeling. Machine learning models that can be used to increase data integrity and applicability to PM2.5 data were assessed.
The sources of PM2.5 and their contributions in Siheung, South Korea, were identified using positive matrix factorization modeling. These 10 sources were secondary nitrate (24.3%), secondary sulfate (18.8%), traffic (18.8%), combustion for heating (12.6%), biomass burning (11.8%), coal combustion (3.6%), heavy oil industry (1.8%), smelting industry (4.0%), sea salt (2.7%), and soil (1.7%). Based on the derived sources, the carcinogenic and non-carcinogenic health risks due to PM2.5 inhalation were estimated. The contribution to PM2.5 mass concentration was low for coal combustion, heavy oil industry, and traffic sources but exceeded the benchmark carcinogenic health risk value (1E-06). Therefore, countermeasures on PM2.5 emission sources should be performed based on the PM2.5 mass concentration and health risks.
The feature extraction capabilities of the four machine learning models to predict the chemical constituents of PM2.5 were assessed by comparing the prediction accuracy depending on input variables, target constituents for prediction, available period, missing ratios of input data, and study sites. The concentrations of PM2.5 constituents were predicted at three sites (Seoul, Ulsan, and Baengnyeong) in South Korea between 2016 and 2018, using four machine learning models: generative adversarial imputation network (GAIN), fully connected deep neural network (FCDNN), random forest (RF), and k-nearest neighbor (kNN). The prediction accuracy identified by the coefficient of determination (R2) between the prediction and observation was highest in GAIN, followed by FCDNN, RF, and kNN. As the missing ratios (20, 40, 60, and 80%) of the input data increased, the prediction accuracy decreased in the four models and was more noticeable in GAIN and kNN, which are unsupervised models. As the input data period increased, the two deep learning models, GAIN and DNN, had better applicability than the other models, RF and kNN. The study sites with more emission sources exhibited lower prediction accuracy, resulting in the highest R2 in the BR island and the lowest in Ulsan. Among the target constituent groups, ions and trace elements were predicted to have the highest and lowest R2, respectively. This study demonstrated that machine learning models can be extended for further air pollution studies depending on model features, required performance, and experimental conditions, such as data availability and time constraints.
The spatial distributions of five PM2.5 sources in South Korea were estimated using Bayesian spatial multivariate receptor modeling. Secondary nitrate, secondary sulfate, motor vehicle emissions, industry, and sea salts were determined to be significant contributors to ambient PM2.5 concentrations in South Korea. The spatial surface of the daily average contribution for each source in South Korea was derived from measurement data from the eight monitoring sites. The source contributions predicted by the BSMRM were also validated using held-out data from a test site (such as Ansan, Daejeon, and Gwangju). These predicted source contributions can aid in developing effective PM2.5 control strategies in cities where no speciated PM2.5 monitoring stations are available. They can also be utilized as source-specific exposures in health effect studies, even in cities where no monitoring stations are available.
Language
eng
URI
https://hdl.handle.net/10371/193029

https://dcollection.snu.ac.kr/common/orgView/000000175616
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share