Publications

Detailed Information

Anomaly Handling of Observational Data Based on Machine Learning : 기계 학습에 기반한 관측 자료의 이상 처리

DC Field Value Language
dc.contributor.advisor문병로-
dc.contributor.author이민기-
dc.date.accessioned2018-11-12T00:53:44Z-
dc.date.available2018-11-12T00:53:44Z-
dc.date.issued2018-08-
dc.identifier.other000000153096-
dc.identifier.urihttps://hdl.handle.net/10371/142994-
dc.description학위논문 (박사)-- 서울대학교 대학원 : 공과대학 전기·컴퓨터공학부, 2018. 8. 문병로.-
dc.description.abstract관측시스템에서 수집되는 관측 자료는 여러 현상을 예측하고 분석하는데 중요한 역할을 한다. 그러나 관측 자료에는 여러가지 이유로 상당한 양의 비정상 값이 존재한다. 이런 비정상 값을 찾아내고 처리하는 일은 매우 중요하다. 가장 대표적이고 중요한 관측 자료 중 하나는 기상 관측 자료이다. 본 논문에서는 비정상 값을 탐지하고 보정하기 위해서 기계 학습을 기반으로 한 새로운 방법을 제시하고, 다양한 종류의 실제 기상 관측 자료에 테스트했다.

기상학에서는 비정상 값을 찾는 과정을 품질 관리라고 부른다. 품질 관리 과정에서 발견된 비정상 값을 보정하기 위해서 기계 학습 기법을 이용한 세 가지 추정 모델을 제시했다. 우리는 제시된 모델을 기존의 추정 모델, 보간법과 비교했다. 목표가 되는 기상 요소만 사용하는 보간법과는 달리, 제안한 모델은 관련된 다른 기상 요소들과 주변의 기상 관측 지점의 자료도 사용한다. 신뢰할만한 기관에서 수집된 실제 자료에 대해서 실험해본 결과, 제안한 방법은 보간법에 비해서 RMSE를 8.35% 감소시켜, 더 정확하게 목표값을 추정할 수 있음을 보였다. 다시 말해, 우리가 제시한 방법은 예전 방법들보다 더 적절하게 비정상값들을 대체할 수 있다.

또한 우리는 공간적인 관점에서 관측 자료 중에 비정상 값을 찾아내기 위한, 향상된 품질 관리 기법을 제시한다. 관측값을 예측하기 위해서 지지 벡터 회귀가 사용되었다. 예측된 값과 실제 관측값의 차이를 통해서 관측값이 정상인지 비정상인지를 판별한다. 또한 지지 벡터 회귀의 성능을 향상시키고 수행 시간을 줄이기 위해서, 지지 벡터 회귀의 입력 변수를 선별한다. 선별 과정에서 유사도와 공간성 다양성이라는 두 가지 목적 함수를 동시에 최적화하기 위해, 다목적함수 유전 알고리즘이 사용되었다. 실제 자료를 사용한 실험에서 지지 벡터 회귀를 이용한 추정은 기준이 되는 방법들에 비해서, 경쟁력 있는 수행 시간을 유지하면서 RMSE를 45.44%만큼 감소시켰다.
-
dc.description.tableofcontentsI. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

II. Preliminary . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.1 Meteorological Data . . . . . . . . . . . . . . . . . . . . . 8

2.1.1 Automatic Weather Station . . . . . . . . . . . . . . 8

2.1.2 Quality Control . . . . . . . . . . . . . . . . . . . . 9

2.2 Decision Tree Learning . . . . . . . . . . . . . . . . . . . . 10

2.3 Artificial Neural Networks . . . . . . . . . . . . . . . . . . 12

2.4 Support Vector Regression . . . . . . . . . . . . . . . . . . 14

2.5 Genetic Algorithm . . . . . . . . . . . . . . . . . . . . . . 18

III. Abnormal Data Correction . . . . . . . . . . . . . . . . . . . 21

3.1 Traditional Approaches . . . . . . . . . . . . . . . . . . . . 21

3.1.1 Linear Interpolation . . . . . . . . . . . . . . . . . 21

3.1.2 Polynomial Interpolation . . . . . . . . . . . . . . . 22

3.1.3 Spline Interpolation . . . . . . . . . . . . . . . . . . 23

3.2 Machine Learning Based Approaches . . . . . . . . . . . . 23

3.3 Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.4 Experimental Results . . . . . . . . . . . . . . . . . . . . . 30

3.4.1 Preprocessing Data . . . . . . . . . . . . . . . . . . 31

3.4.2 Results . . . . . . . . . . . . . . . . . . . . . . . . 33

IV. Spatial Quality Control . . . . . . . . . . . . . . . . . . . . . 39

4.1 Traditional Approaches . . . . . . . . . . . . . . . . . . . . 41

4.1.1 Cressman Method . . . . . . . . . . . . . . . . . . 41

4.1.2 Barnes Method . . . . . . . . . . . . . . . . . . . . 43

4.2 SVR-based Approach . . . . . . . . . . . . . . . . . . . . . 44

4.3 Selecting Neighboring Stations . . . . . . . . . . . . . . . . 47

4.3.1 Similarity and Spatial Dispersion . . . . . . . . . . 47

4.3.2 Multi-Objective Genetic Algorithm . . . . . . . . . 50

4.4 Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

4.5 Experimental Results . . . . . . . . . . . . . . . . . . . . . 61

4.5.1 Representation of Wind Direction . . . . . . . . . . 63

4.5.2 Similarity Measure . . . . . . . . . . . . . . . . . . 64

4.5.3 Selecting Neighboring Stations . . . . . . . . . . . 69

4.5.4 Comparison of Estimation Models . . . . . . . . . . 71

4.5.5 Size of Training Set . . . . . . . . . . . . . . . . . . 73

4.5.6 Result of Spatial Quality Control . . . . . . . . . . . 74

V. Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
-
dc.language.isoen-
dc.publisher서울대학교 대학원-
dc.subject.ddc621.3-
dc.titleAnomaly Handling of Observational Data Based on Machine Learning-
dc.title.alternative기계 학습에 기반한 관측 자료의 이상 처리-
dc.typeThesis-
dc.contributor.AlternativeAuthorLee Min-Ki-
dc.description.degreeDoctor-
dc.contributor.affiliation공과대학 전기·컴퓨터공학부-
dc.date.awarded2018-08-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share