Browse

재표집 기반 시공간 크리깅에 의한 결측대치 모형 구축과 함의 : 2010-2014년 미세먼지 측정자료를 사례로
Construction of an imputation model by resampling-based spatio-temporal kriging and its implication -for 2010-2014 particulate matter (PM10) data in Seoul, Korea

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors
송인상
Advisor
박기호
Major
사회과학대학 지리학과
Issue Date
2017-08
Publisher
서울대학교 대학원
Keywords
시공간 크리깅결측치대치통계적 학습재표집미세먼지
Description
학위논문 (석사)-- 서울대학교 대학원 사회과학대학 지리학과, 2017. 8. 박기호.
Abstract
시공간자료에 내재된 결측치(缺測値, missing values)는 자료를 이용한 향후 기술적, 추론적 통계 분석의 결과 해석의 신뢰성과 적합성에 영향을 미친다는 점에서 중요하다. 그러나 시공간자료에 내재된 결측치에 관한 연구는 일반적 조사연구에서의 결측치 연구에 비해서는 상대적으로 덜 주목받아 왔다. 본 연구에서는 시공간자료의 결측치를 대치하기 위한 방법으로서 시공간 모형의 하나인 시공간 크리깅과 재표집 방법을 결합한 결측대치 모형을 제시하고, 이 방법을 2010년에서 2014년 사이에 측정된 미세먼지 자료에 적용하였다. 모형의 구성을 위하여 크리깅의 일반 이론과 시공간 크리깅, 기존 결측대치(代置, imputation) 모형, 그리고 통계적 학습 이론을 검토하였다. 시공간 크리깅에 통계적 학습(statistical learning) 이론을 융합하는 작업이 미진한 바, 시공간 크리깅의 학습을 실증할 필요성과 학습을 통해 결측대치 정확성을 향상시킬 수 있는 가능성이 발견되었다. 서로 다른 2개의 시공간 프로세스 모의 자료로 실험한 결과, 결측이 있는 자료에서 재표집을 수행함으로써 자료의 결측을 효과적으로 대치할 수 있는 것으로 나타났다. 이는 재표집법이 시공간모형 강화에 효과적일 수 있음을 방증한다.
서울특별시 일대 54개 측정소에 대하여 2010년-2014년의 5년 간 24시간 이상 연속 시계열을 갖는 총 17개의 집합을 대상으로 실증 분석을 실시하였다. 측정 자료에서 나타난 측정소별 결측 비율과 5%~30%의 결측 비율 등 5가지 비율을 이용하여 각 집합에 임의로 결측을 생성하였다. 그리고 본 연구에서 제시한 재표집 기반 시공간크리깅 결측대치 모형을 적용한 후 정확도 지표를 통해 결과를 비교, 평가하였다. 또한 기존의 결측대치 모형으로서 선형 모형에 기반한 결측대치 알고리즘 MICE와 기계학습(machine learning) 기반의 missForest를 이용한 대치 결과와 정확도를 서로 비교하였다.
연구 결과는 다음과 같이 요약된다. 첫째, 본 연구에서 제안한 재표집 기반 시공간 크리깅 결측대치 알고리즘을 적용하였을 때 재표집을 수행하지 않는 경우에 비해서 결측대치 정확도가 향상되었다. 학습의 효과는 재표집 횟수가 3회 또는 5회일 때 크게 나타났으며, 재표집하지 않았을 때에 비하여 대치 정확도가 최대 11%까지 향상되었다. 이로써 기존 연구에서 충분히 논의되지 않은 시공간 크리깅에서의 학습 효과를 실증적으로 확인하였으며, 시공간 자료에 유효한 결측대치 방법을 제안하였다.
둘째, 제안된 방법은 선형 모형에 비해서 대치 정확도를 향상시켰으며, 기계학습 기반 알고리즘과 유사한 수준의 대치 정확도를 보였다. 이로써 자료의 고유한 시공간적 의존성(spatio-temporal dependency)를 반영하는 알고리즘이 원자료를 복원하는 데 유용함을 확인하였다. 또한 제안된 방법이 자료의 시공간 구조를 요약하는 시공간 베리오그램을 이용해 모형을 학습시키므로, 설명과 예측에 모두 유용한 모형이 될 수 있다. 다만 사례연구에서 기계학습 기반 알고리즘이 정확도 면에서 본 연구가 제시한 알고리즘에 비해 근소하게 앞서는 것으로 나타나, 기계학습 기반 알고리즘에서 자료의 시공간성이 어떻게 반영되는지에 대한 후속 연구가 필요할 것으로 사료된다.
본 연구는 계량지리학 분야에서 상대적으로 주목받지 않은 결측치의 문제를 재조명하였으며, 시공간모형 자체의 학습 가능성을 실제 사례로 확인하였다는 점에서 의미가 있다. 이에 본 연구 결과는 향후 시공간 자료의 결측치 문제를 해결하는 방법로 활용될 수 있을 것으로 기대된다.
Language
Korean
URI
https://hdl.handle.net/10371/137883
Files in This Item:
Appears in Collections:
College of Social Sciences (사회과학대학)Dept. of Geography (지리학과)Theses (Master's Degree_지리학과)
  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse