Publications

Detailed Information

Identification of Homogeneous Precipitation Regions with Time Series Gauge and Satellite Data Using Machine Learning Methods : 기계 학습을 이용한 관측 및 위성 강수 시계열 데이터 기반 동질 강수 지역 분석 연구

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

문옌산가

Advisor
Hakkwan Kim
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
Precipitation homogeneous regionsSatellite dataMachine learningGauge dataTime series data
Description
학위논문(석사) -- 서울대학교대학원 : 국제농업기술대학원 국제농업기술학과, 2023. 8. Hakkwan Kim.
Abstract
동질 강수 지역의 구분은 지역 빈도 분석과 강수량 추정에 필요하지
만 이러한 지역의 구분은 강수량의 시간적, 공간적 가변성으로 인해 많
은 불확실성을 내포하고 있다.
본 연구는 지상 관측 강수 데이터를 이용한 동질 강수 지역 분석과
관련된 문제점을 해결하고자 하였다. 첫 번째 문제는 동질 강수 지역 분
석에서 자주 고려되지 않는 강수량의 시간적 변동성이다. 강수량은 시간
과 공간에 따라 많은 차이가 나는 것으로 알려져 있다. 그러나 동질 강
수 지역의 분석 및 구분을 위한 많은 선행 연구들은 일반적으로 시계열
자료 대신 강수량 평균, 관측소의 위치 특성과 같은 변수를 사용하기 때
문에 강수의 시간적 변동성을 고려하지 못했다. 시간 변동성 문제를 극
복하기 위해 본 연구에서는 시계열 강수 데이터를 사용하여 동질 강수
지역 구분 및 분석하였다.
두 번째 문제점은 공간적 강수량의 변화다. 강수량계를 이용한 강수
량 측정은 다른 강수량 측정을 위한 여러가지 방법 중에 가장 정확한 것
으로 알려져 있기 때문에 전통적으로 강수량 자료의 확보를 위해 가장
78
많이 활용되고 있다. 그러나 세계의 많은 지역에서 강수량 관측 밀도가
낮고 강수량 추정을 위한 보간 기술로 인해 오류가 발생할 수 있다는 점
을 감안하면 한 지점에서 수집된 강수 자료를 정확하게 보간하여 강수량
자료를 추정하고 확보하는 것은 한계가 있다.
이러한 공간적 변동성 문제를 해결하기 위해 본 연구에서는 위성 강
수 데이터를 사용하여 동질 강수 지역을 구분하고자 하였다. 위성 강수
데이터는 여러 위성 센서에서 수신한 적외선 및 수동 마이크로웨이브 정
보를 통해 간접적으로 강수량을 추정하는 것으로 최근의 강수량 측정을
위한 방법으로 이용되고 있다. 위성 강수 데이터는 표면 그리드 형태로
제공된다.
본 연구에서는 지상 관측 및 위성 강수 시계열 일 자료를 이용하여
동질 강수 지역 분석을 위한 기계 학습 방법론을 제공하고자 하였다. 본
연구에 사용된 지상 관측 강수량 자료는 기상청에서 제공하고 있는 종관
기상관측 (ASOS, Automated Synoptic Observing System) 및 방재기상
관측 (AWS, Automated Weather Station) 자료가 각각 사용되었다. 본
연구에서 사용된 위성 데이터는 미국항공우주국 (NASA)의
IMERG(Integrated Multi-satellitE Retrievals for GPM)이다.
동질 강수 지역은 K-Means와 SOM (Self Organizing Maps)의 두 가
지 클러스터링 방법을 이용하여 분석하였다. 동질 지역 구분에 따른 각
동질 지역의 이질성 분석은 Hosking과 Wallis homogeneity test를 이용
하였다. 종관기상 (ASOS) 관측 자료를 이용하여 동질 강수 지역으로 구
분된 지역의 이질성을 분석한 결과에 따르면 SOM의 동질 강수 지역 구
분 성능이 맵의 크기에 따라 크게 영향을 받는 것으로 나타났다. SOM은
노드 수가 증가할수록 더 많은 수의 동질 강수 지역을 분류할 수 있었다.
79
노드 수가 16개로 증가했을 때 6개의 지역이 동질성을 가지는 것으로
나타났으나, 반면 K-Means는 5개의 지역이 동질 강수 지역인 것으로
나타났다. K-Means는 군집 수가 적을 때 더 많은 수의 동질 지역을 구
분할 수 있었다. 예를 들어 클러스터 수가 10개일 때 K-Means는 3개
의 지역이 동질한 것으로 나타났으나, 반면 SOM은 2개의 지역이 동질
성이 있는 것으로 나타났다. 그러나 노드 수가 10개에서 16개로 증가함
에 따라 SOM에 의해 분류된 동질 지역의 수는 점차 증가했다.
방재기상관측 (AWS) 자료를 이용한 결과에서는 SOM 및 K-Means
방법을 적용하여 구분된 지역의 동질성을 분석 결과가 유사한 것으로 나
타났다. 두 방법으로 구분된 강수 지역의 동질성은 클러스터 수가 12,
14 또는 16으로 증가해도 개선되지 않았다.
위성 강수 자료를 이용한 동질 강수 지역 구분 및 동질성 분석 결과
에서는 SOM과 K-Means는 군집의 수에 따라 동질 지역의 수가 차이가
있었지만 거의 동일한 수준이었다. K-Means는 9개의 동질 강수 지역
중에서 2개의 지역에서 동질성이 있는 것으로 나타났으며, SOM에 의한
동질 지역의 수는 4개의 지역에서 동질성이 있는 것으로 나타났다.
본 연구에서는 전반적으로 지상 관측 및 위성 강수 데이터를 이용하
여 동질 강수 지역을 구분할 경우 SOM 방법이 K-Means 방법에 비해
더 많은 동질 강수 지역을 구분할 수 있는 것으로 나타났다
Homogeneous regions are often needed for region frequency analysis and
precipitation estimation, but the formation of those regions is often associated with
a lot of uncertainties due to temporal and spatial variability of precipitation.

This study tackles two challenges related to the formation of homogeneous
precipitation regions from ground gauge data. The first challenge is the temporal
variability of precipitation which is not often considered in the formation of
homogeneous regions. It is well known that precipitation varies a lot in time and
space. However, many past studies on the formation of homogeneous precipitation
regions did not capture the important aspect of temporal variability of precipitation
because they usually use other variables such as averages, and location features
instead of time series data. To overcome the temporal variability challenge, this study
used timeseries precipitation data to form homogeneous precipitation regions.

The second challenge is the variation of precipitation in space. Rain gauge had
been traditionally the main source of precipitation data as they were considered more
accurate than other source of precipitation data; however, rain gauge measures
precipitation at a point in space. It is challenging to accurately interpolate point data
over an area, given that the density of gauges is often scarce in many regions of the
world and interpolation technics may introduce errors.

To overcome the spatial variability challenge, this study used satellite data to form
homogeneous precipitation regions. Satellite derived data is a relatively recent
source of precipitation data where precipitation is indirectly estimated from infrared
and passive microwaves information received from several satellite sensors. The
estimates products were surface data because they are released in the form of surface
grids.

A machine learning approach was provided in this study to form homogeneous
precipitation regions using gauge and satellite daily time series data. The ground
precipitation data used in this study were provided by Korea Meteorological Agency
(KMA). Data from the Automated Synoptic Observing System (ASOS) and
Automatic Weather Station (AWS) were used respectively. Satellite data used in this
study was the Integrated Multi-satellitE Retrievals for GPM (IMERG) from National
Aeronautics and Space Administration (NASA).

Precipitation regions were formed using two clustering methods, K-Means and
Self Organizing Maps (SOM). Both clustering algorithms were able to define
homogeneous precipitation regions from time series gauge and satellite data. Spatial
maps of the regions were provided in the results and discussion section of the present
study. Heterogeneity results were compared by using Hosking and Wallis
homogeneity test. Based on the clusters formed by SOM and K-Means in ASOS
dataset, it was observed that the performance of SOM in defining homogeneous
regions is greatly affected by the size of the map. SOM was able to identify a bigger
number of homogeneous regions when the number of nodes was increased. It was
able to identify 6 homogeneous regions when the number of nodes was increased to
16 while K-Means identified 5 homogeneous regions for the same number of clusters.
K-Means was able to identify a greater number of homogeneous regions when
cluster number was small. For example, when the number of clusters was 10, KMeans identified 3 homogeneous regions while SOM identified 2 homogenous
regions.

However, the number of homogeneous and possibly heterogeneous regions
identified by SOM gradually increased as the number of nodes increased from 10 to
16.
Based on the number of homogeneous regions identified by SOM and K-Means
in AWS datasets, both clustering methods identified similar number of regions in
AWS dataset. The number of homogeneous regions identified by both clustering
methods did not improve when the number of clusters were increased to 12, 14 or 16

Based on the number of homogeneous regions identified by SOM and K-Means
in satellite dataset, both were able to identify almost the same number of
homogeneous regions, although there were differences between SOM and K-Means
according to the number of clusters. K-Means identified 2 homogeneous regions
among 9 clusters while SOM identified 4 homogeneous regions and 2 possibly
homogeneous regions in the same number of clusters Both clustering methods were
able to identify 10 homogeneous regions when the number of nodes was increased
to 16 however K-Means also identified 2 possibly heterogeneous regions.
Overall, it was observed that SOM was slightly more efficient in identifying a
greater number of homogeneous regions in ASOS and satellite datasets.
Language
eng
URI
https://hdl.handle.net/10371/196591

https://dcollection.snu.ac.kr/common/orgView/000000178537
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share