Publications

Detailed Information

앙상블 학습을 이용한 경유자동차의 미세먼지 배출농도 예측 연구 : Ensemble Learning to Predict Particulate Matter Concentrations Emitted by Diesel Vehicles

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

이상준

Advisor
장수은
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
경유자동차미세먼지PM배출요인배출가스정밀검사 자료머신러닝앙상블 학습순열 특성 중요도Diesel vehiclePM emissionEmission factorsInspection and Maintenance DataMachine LearningEnsemble LearningPermutation Feature Importance
Description
학위논문(박사) -- 서울대학교대학원 : 환경대학원 환경계획학과, 2023. 2. 장수은.
Abstract
Diesel vehicles emit an amount of Particulate Matter(PM) compared to other vehicles due to their diesel engine characteristics. As of June 2019, there were 9.97 million diesel vehicles in Korea, accounting for 42.5% of the total in the nation. On the other hand, diesel vehicles account for only 1-3% of all vehicles in the U.S., China, and Japan. Therefore this study is focused on ways to reduce air pollution from diesel vehicles in Korea and is crucial policies for reducing PM. To achieve this goal, a basic study is needed to identify the key factors affecting PM emissions from diesel vehicles. The proposed prediction model aims to improve the accuracy of PM prediction, allowing for a better understanding of the contributing factors and the development of targeted policies.
This study also addresses the limitations of existing PM emission prediction models for diesel vehicles, which include their low accuracy with traditional statistical methods and complexity of the relationship between PM emissions and contributing factors. The authors propose a solution that involves applying machine learning techniques and utilizing big data and controlled I/M(Inspection and Maintenance) data to enhance accuracy.
This study has three research goals, which were achieved in three stages. The first stage aimed to improve predictive performance with a prediction model using ensemble learning. The first stage of the study divided the ensemble learning prediction model into two modes: KD-147 and Lug-Down3. Analysis of 20 models involved classifying emission test pass/fail data using ensemble learning. These models included regression analysis, decision tree, random forest and three models representing CatBoost, LightGBM, and XGBoost. The statement implies that the performance of a predictive model was optimized by tuning its hyperparameters. Of the six models, the CatBoost model achieved the highest R2 value at 0.815, which indicates a strong correlation between predicted and measured values. On the other hand, the linear regression model showed a lower R2 value of 0.649, indicating weaker correlation between predicted and measured values. Hence, the statement highlights a significant difference in prediction performance between the two models.
In the second stage, permutation feature importance(PFI) was calculated for the PM emission prediction model for diesel vehicles using ensemble learning. This helped to identify the common PM emission factors, including emission grade, fuel efficiency, displacement, and weight. The differences in the main factors for each vehicle type were found to be loading weight for special truck and the number of passengers for van. These findings show that the main factors affecting PM emissions align with the intended use of each vehicle type.
The third stage of the study aimed to reflect the main factors of diesel vehicle PM emissions in related policies. The purpose of this case analysis was to use these main factors derived from an ensemble learning prediction model to inform PM reduction and environmental policies. The environmental improvement charge per vehicle was calculated based on the importance of each PM emission factor, and vehicles were classified into high, medium, and low concentrations in terms of their PM emissions. The study also evaluated how the environmental improvement charges per vehicle change by type of vehicle and region. This information can help with designing targeted policies to effectively reduce PM emissions from diesel vehicles and improve air quality.
In order to consider the equity of those subject to environmental improvement charges, weight coefficient and Korean emission standards coefficient were additionally applied to the calculation formula instead of the regional coefficient. Applying the derived Korean emission standards of this study and the PFI of the model year as weights made it possible to confirm the structure in which the levy was further transferred to the drivers of high-concentration PM emitting vehicles.
This study reviewed the predictive performance of PM emission prediction models for vehicles through ensemble learning and identified the main factors of PM emissions. The model can be used as basic data for evaluating the effectiveness of PM emission reduction policies or establishing other eco-friendly policies and strategies in the future.
경유자동차는 디젤엔진 특성으로 다른 차량에 비해 미세먼지(PM)를 압도적으로 많이 배출한다. 2019년 6월 기준으로 한국의 경유자동차는 총 997만여 대로 전체 차량에서 차지하는 비중이 42.5%에 이른다. 반면 미국과 중국, 일본은 디젤차 비중이 1∼3% 수준에 그쳐 한국은 이들 국가에 비해 경유자동차 비중이 높은 편이다. 그러므로 우리나라는 경유자동차 대기오염저감에 관한 연구와 정책이 더욱 중요하다. 이러한 연구를 진행하려면 무엇보다도 경유자동차 PM 배출에 미치는 영향요인을 명확하게 규명하는 기초연구가 필요하다. 이에 본 연구는 경유자동차 PM 배출 예측모형을 제안하고, 이 모형에서 도출된 PM 배출의 주요인을 확인하고자 한다.
그러나 기존의 경유자동차 PM 배출 예측모형은 다음과 같은 한계점을 갖는다. 기존 연구에서는 대부분 전통적인 통계기법을 활용하여 예측성능이 비교적 낮은 편이다. 경유자동차 PM과 배출요인과의 인과관계는 매우 복잡하며, 외생변수 통제가 어려운 PM 측정방식을 채택하고 있다. 이러한 한계를 극복하기 위해 본 연구는 빅데이터이자 변인 통제된 자동차 배출가스 정밀검사 자료를 이용하여 머신러닝기법이 적용된 경유자동차 PM 배출 예측모형을 제시하였다.
본 연구에서는 세 가지 단계를 거치면서 세 가지 연구 목표를 달성하였다. 각 단계별 내용은 다음과 같다. 첫째, 예측모형의 정확도를 높였다. 이를 위해 머신러닝기법인 앙상블 학습기반 PM 배출 예측모형을 구축하였다. 먼저 1차 앙상블 학습 예측모형은 KD-147모드와 Lug- Down3모드로 구분하고, 배출가스검사 합격과 불합격 데이터를 분류하여 앙상블 학습 기반 20개 모형을 분석하였다. 여기서 통계기법을 대표하는 회귀분석과 의사결정나무, Bagging을 대표하는 랜덤포레스트, 나머지 3개 모형은 Boosting을 대표하는 CatBoost, LightGBM, XGBoost를 선정하였다. 2차 앙상블 학습에서는 차종별 PM 배출 예측모형을 구축하였다. 예측모형의 성능은 최적의 하이퍼파라미터 튜닝을 통해 예측성능을 향상시켰다. KD-147모드 6개 모형 중 CatBoost 가 0.815로 분석되었나 선형회귀모형의 는 0.649로 두 모형 간의 예측성과지표 편차는 높았다. 이 정도 편차는 모든 부스팅모형과 통계모형에서 나타났다.
둘째, 경유자동차 PM 배출의 주요인을 규명하였다 앙상블 학습 경유자동차 PM 배출 예측모형은 입력변수 간의 영향력을 수치화하여 순열 특성 중요도(Permutation Feature Importance: PFI)를 분석하였다. 모형별로 PFI를 비교해보면 모형별로 다소 차이를 보이고 있으나 공통적인 PM 배출요인은 배출가스등급, 연식, 배기량, 총중량으로 도출되었다. 차종별 PM 배출요인의 차이점은 특수차는 적재중량, 승합차는 승차인원이 선정되었다. 이는 차량별 제작 목적과 PM 배출 주요인이 일치하기 때문이다.
셋째 경유자동차 PM 배출 주요인을 관련 정책에 활용하였다. 사례분석의 주요 목적은 앙상블 학습 PM 예측모형에서 도출된 PM 배출의 주요인을 미세먼지 절감 및 환경 관련 정책에 적용하기 위함이다. 현재 환경개선부담금 산정방식은 다방면으로 문제점을 안고 있다. 이러한 문제점을 개선하기 위해 본 연구에서는 PM 배출요인과 주요인별 PFI를 환경개선부담금 산정계수의 가중치로 반영하였다. 다음으로 PM 배출 고·중·저농도 차량을 분류하거나 차종 및 지역별에 따라 기존 산정방식과 개선방안의 자동차 1대당 환경개선부담금 변화를 비교해보았다. 지역계수 대신 중량계수와 배출가스등급계수를 산정식에 적용해본 결과에서는 환경개선부담금 부과대상자의 형평성을 한층 고려된 것으로 나타났다. 배출가스등급과 연식의 PFI는 환경개선부담금 산정계수 가중치에 적용시키면 고농도 PM 배출 운전자에게 부담금이 더 전가되는 구조를 확인하였다. 이는 오염자 부담원칙 강화에 부합됨으로 해석할 수 있다.
본 연구에서는 앙상블 학습 경유자동차 PM 배출 예측모형의 성능이 우수함을 검토하였고, PM 배출 주요인을 규명하였다. 이 예측모형의 활용방안으로는 PM 배출 저감정책효과를 평가하거나 향후 친환경 정책 및 전략 수립에 기초자료로 이용될 것으로 사료된다.
Language
kor
URI
https://hdl.handle.net/10371/194568

https://dcollection.snu.ac.kr/common/orgView/000000176979
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share