Publications

Detailed Information

Applying PCA to Deep Learning Forecasting Models for Predicting Concentration of Fine Particulate Matter(PM_(2.5)) : 딥러닝 시계열 알고리즘 기반 초미세먼지 예측 모델의 주성분분석 적용

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

최상원

Advisor
Hong Sok(Brian) Kim
Issue Date
2021
Publisher
서울대학교 대학원
Keywords
Principal Components Analysis(PCA)Fine Particulate Matter(PM_(2.5))Recurrent Neural Network(RNN)Long Short-Term Memory(LSTM)Bidirectional LSTM(BiLSTM)주성분분석초미세먼지순환신경망장단기기억모델양방향장단기기억모델
Description
학위논문(석사) -- 서울대학교대학원 : 농업생명과학대학 농경제사회학부(지역정보학전공), 2021.8. Hong Sok(Brian) Kim.
Abstract
초미세먼지는 세계 주요도시에서 발생하고 있는 대기오염 문제이다. 한 국가의 초미세먼지는 국가 내부 요인에만 영향을 받는 것이 아닌 인접국가의 대기질에도 영향을 받는다. 그러므로 초미세먼지 저감정책 및 계획 수립을 위한 예측치 산출에는 국가 내/외부 자료를 활용할 필요가 있다. 그러나 관측치에 비해 비교적 많은 변수 데이터셋은 차원의 저주를 유발할 수 있으며, 이는 예측력 저하의 주된 요인이 될 수 있다.
본 연구는 한국 주요 8개 도시의 일별 초미세먼지 농도를 딥러닝 시계열 모델로 예측함에 있어 해당 도시의 대기질 및 기상, 초미세먼지 농도와 한국과 근접한 중국 도시들의 초미세먼지 농도를 각각 과거 5년치 데이터를 사용하였다. 이때 발생할 수 있는 차원의 저주로 인한 예측력 하락문제 해결을 위해 데이터 셋에 주성분분석을 실시하여 고차원 데이터를 저차원 데이터로 변환하였다. 초미세먼지 예측에 있어 순환신경망, 장단기 기억모델, 양방향 장단기 기억 모델과 같은 딥러닝 시계열 모델을 사용하였으며, 각 모델의 성능을 주성분분석을 적용한 경우와 그렇지 않은 경우로 나누어 평균제곱근오차, 평균절대오차를 활용하여 비교를 진행하였다.
그 결과 주성분분석을 적용한 장단기 기억모델의 성능은 그렇지 않은 경우보다 RMSE, MAE에서 각각 최대 16.6%, 33.3% 더 나은 성능을 보였음을 알 수 있었다. 또한 양방향 장단기 기억모델은 RMSE, MAE에서 각각 최대 16.7%, 31.6% 더 나은 성능을 보였음을 알 수 있었다. 이를 통해 주성분분석의 적용은 딥러닝 시계열 모델 성능 향상을 도출할 수 있음과 동시에, 향후 초미세먼지 저감정책 수립에 있어 보다 정확한 예측치를 제공할 수 있음을 알 수 있었다.
Fine Particulate Matter(PM_(2.5)) is a global air pollution problem that many metropolitan cities are experiencing. A PM_(2.5) concentration of one country is influenced by not only internal but also external factors such as air quality of adjacent countries. Hence, data of both a country of interest and its surrounding countries are needed in order to estimate measures needed to design mitigation strategies and policies. However, there is a chance for 'curse of dimensionality' which occurs when there are more variables than observations in a data set; thereby, reducing the predictive power.
This study aims to estimate the daily PM_(2.5) concentration in eight major cities in South Korea using deep learning time-series models. To do so, it uses each city's air quality, meteorological factors, and PM_(2.5) concentration along with adjacent Chinese cities' PM_(2.5) concentration in the course of five years. Here, PCA was applied in order to prevent 'curse of dimensionality', as mentioned earlier. In estimating PM_(2.5) concentration, time series models such as RNN, LSTM, BiLSTM were used. By dividing the models function into ones with PCA and ones without PCA, RMSE and MAE were reflected for a better comparison.
As a result, the overall performance of both LSTM and BiLSTM was better after the application of PCA. The performance of LSTM with PCA was higher than that without PCA by up to 16.6% and 33.3% in terms of RMSE and MAE, respectively. Similarly, BiLSTM with PCA outperformed that without PCA by up to 16.7% and 31.6% in terms of RMSE and MAE, respectively. Hence, it can be inferred that the application of PCA enhances the function of the deep learning time series models and provides a more accurate estimation for designing a better mitigation policy.
Language
eng
URI
https://hdl.handle.net/10371/177435

https://dcollection.snu.ac.kr/common/orgView/000000166607
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share