Publications

Detailed Information

Estimation of High-Spatial Resolution of Ground-Level Ozone, Nitrogen Dioxide, and Carbon Monoxide in South Korea During 2002-2020 Using Machine-Learning Based Ensemble Model : 머신러닝 모델을 사용한 2002~2020년 한국의 O3, NO2, CO 농도의 고해상도 추정

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

권도훈

Advisor
김호
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
Gaseous air pollutantExposure assessmentHigh spatial resolutionMachine learning modelEnsemble model
Description
학위논문(석사) -- 서울대학교대학원 : 보건대학원 보건학과, 2023. 2. 김호.
Abstract
Backrgound : Long-term exposure to ozone (O3), nitrogen dioxide (NO2), and carbon monoxide (CO) is known to cause various diseases and increase mortality. For that reason, estimating ground-level O3, NO2, and CO concentrations with a high spatial resolution is crucial for assessing the health effects associated with these air pollutants. However, related studies are limited in South Korea. This study aimed to develop machine learning-based models to predict the monthly O3 (average of daily 8-hour maximums), NO2, and CO at a spatial resolution of 1 km × 1 km across South Korea from 2002 to 2020.

Methods : Approximately 80% of the monitoring stations were used to train the three machine learning models (random forest, light gradient boosting, and neural network) with a 10-fold cross-validation, and 20% of the monitoring stations were used to test the model performance. The author also applied ensemble models to integrate the variation in predictions among the models. Multiple predictors with satellite-based remote sensing data, inverse distance weighted ground-level air pollutants, land use variables, reanalysis datasets for meteorological variables, and regional socioeconmoic variables collected from various databases were included in the prediction model.

Results : For O3, the overall R2 of the ensemble model was 0.841 during the entire study period. Urban areas showed a better model performance (R2 = 0.845) than rural areas (R2 = 0.762). For NO2, the highest overall R2 was 0.756, which best fit in autumn (R2 = 0.768). For CO, the overall R2 value was 0.506. This study provides high spatial resolution monthly average O3 and NO2 estimates with excellent performance (R2 > 0.75).

Conclusion : The authors predictions can be used to analyze the spatial patterns in pollutants in relation to population characteristics and studies on the health effects of long-term exposure to air pollution using geocode-based health information and local health data.
연구배경 : 오존(O3), 이산화질소(NO2), 일산화탄소(CO)에 장기간 노출되면 각종 질병을 유발하고 사망률을 높이는 것으로 알려져 있다. 그렇기에, 고해상도로 지표면 O3, NO2, CO 농도를 추정하는 것은 이러한 대기오염물질과 관련된 건강 영향을 평가하는 데 매우 중요하다. 하지만, 장기간에 걸쳐 고해상도로 가스상 대기오염물질(O3, NO2, CO)를 추정한 연구는 국내에서 아직 진행된 바가 없다. 따라서, 본 연구는 2002년부터 2020년까지 대한민국 전역에서 1km × 1km의 공간해상도로 월별 O3(일평균 8시간 최대치), NO2, CO를 머신러닝 기반 모델 및 그들의 앙상블 모형을 통해 예측하고자 한다.

연구방법 : 3가지 머신러닝 모델(랜덤 포레스트, 라이트 그래디언트 부스팅, 신경망)의 최적의 파라미터를 찾기 위해 모니터링 스테이션의 약 80%를 훈련 데이터로 사용하였고, 10-fold 교차검증을 통해 훈련 데이터 내에서 훈련/평가 단계를 거쳤으며, 나머지 모니터링 스테이션의 20%를 모델 평가에 사용하였다. 여기에 추가로 머신러닝 모델 간의 예측 변동을 통합하기 위해 앙상블 모델을 적용했다. 데이터에는 위성 기반 원격 감지 데이터, 역거리 가중치 기반 대기오염농도, 토지 이용 변수, 기상 재분석 자료, 다양한 데이터베이스에서 수집된 지역 사회경제적 변수 등이 포함되었다.

연구결과 : O3의 경우, 전체 연구 기간 동안 앙상블 모델의 R2가 0.841을 기록했으며, 도시 지역이 농촌 지역(R2 = 0.762)보다 우수한 예측 성능(R2 = 0.845)을 보였다. NO2의 경우, 앙상블(평균) 모델의 R2가 0.756으로 가장 높았으며, 계절로 보면 가을에 예측 성능이 가장 높았다(R2 = 0.768). CO의 경우, R2가 0.506 을 기록했다. 본 연구는 O3 및 NO2 에서 R2 > 0.75 으로 높은 예측력의 고해상도 월평균 추정치를 제공한다.

결론 : 본 연구에서 얻어진 대기오염 추정 결과는 인구 특성과 관련된 가스상 대기오염물질의 공간 패턴을 분석하거나, 위치 기반 건강 정보와 행정구역 단위 건강 데이터와 엮여서 장기간 대기오염 노출의 건강 영향을 평가하는 연구에 사용될 수 있을 것으로 기대된다.
Language
eng
URI
https://hdl.handle.net/10371/193699

https://dcollection.snu.ac.kr/common/orgView/000000174530
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share