Publications

Detailed Information

Keypoint-based Deep Learning Approach for Building Footprint Extraction Using Very High Resolution Satellite and Aerial Images : 고해상도 위성영상 및 항공영상에서의 건물경계추출을 위한 특징점 기반의 딥러닝 접근

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

정도영

Advisor
김용일
Issue Date
2021-02
Publisher
서울대학교 대학원
Keywords
Building Footprint ExtractionKeypoit DetectionInstance SegmentationDeep LearningSatellite image건물경계추출특징점 탐지인스턴스 단위 분할딥러닝위성영상
Description
학위논문 (석사) -- 서울대학교 대학원 : 공과대학 건설환경공학부, 2021. 2. 김용일.
Abstract
건물은 도심지역의 핵심적인 단위로서, 건물경계추출은 원격탐사 도메인에서 활발히 연구되는 주제이다. 건물경계란 건축물의 지상경계선을 말하는 것으로, 기본도 및 재난피해평가 등 도심지 분석을 위한 기본 단위이기에 LiDAR와 광학영상을 합성하는 접근의 연구가 수행되어왔다. 심층 합성곱 신경망의 도입 이후 광학영상 단독으로도 기존의 다중센서기반 건물경계추출과 비슷하거나 더 높은 성능을 보이고 있다. 그러나, 건물경계추출을 위한 주된 심층 합성곱 신경망 기법인 의미론적 분할 (semantic segmentation) 접근은 깊은 합성곱 레이어의 광의의 수용영역 (receptive field)과 풀링 레이어 (pooling layer)을 반복적으로 통과하며 경계정보가 누락되어 경계가 고르지 않은 건물 폴리곤을 생성하는 한계가 있다.
이러한 문제를 해결하기 위해 원본영상으로부터 벡터형태의 기하학적 형상을 직접 추출하기 위한 일련의 연구들이 제시되어왔다. 이 접근 방식의 연장선 상에서, 본 논문은 분할 마스크 (segmentation mask)와 특징점 탐지 (keypoint) 기법을 결합한 딥러닝 프레임워크를 제안함으로써, 네트워크의 결과로 건물폴리곤의 모서리를 직접 예측 후 후처리를 통해 결합함으로써 정교한 건물경계 결과물을 도출하는 것을 목적으로 한다. 본 프레임워크의 타겟 특징점은 각 건물객체의 모서리로써, local gradient의 유의미한 차이를 보이는 곳을 의미한다. 제안한 프레임워크는 건물탐지와 탐지 후 각 객체의 특징점 탐지를 결합한 2단계 하향식 접근 방식을 제안한다. 일반적인 Instance Segmentation 네트워크인 Mask R-CNN을 백본 네트워크 (backbone network)로 사용하며, 동일한 방법으로 객체탐지를 수행하나, 분할 마스크 생성모듈을 새롭게 제안하는 특징점 탐지모듈로 대체한다.
특징점 탐지에 있어 인접건물의 영향을 축소하기위해 단순한 완전 합성곱 신경망으로부터 생성한 대략적인 건물 마스크와 관심영역의 국지적 feature을 병합 후 완전 합성곱 신경망을 적용함으로써 각 건물 개체의 특징점을 예측한다. 그 후, 간단한 기하학적 방법을 통해 특징점을 군집하여 벡터화된 건물 다각형을 생성한다.
제안한 프레임워크의 학습을 위하여 건물경게추출을 위한 위성영상 기반 SpaceNet2 데이터셋을 사용하였다. 단, SpaceNet은 건물경계와 지붕경계간의 이격이 발생하는 문제가 존재하며, 이 문제에서 자유로운 드론으로 촬영된 정사영상 기반의 OpenCitiesAI 데이터에서 추가적으로 학습을 수행하였다.
제안한 프레임워크를 검증하기 위해 일반적으로 사용되는 의미론적 분할모델인 U-net과 대표적인 인스턴스 단위 분할기법인 Mask R-CNN을 함께 사용하였다. 동일한 목적을 갖는 최신모델과의 직접적 비교를 위하여 OpenCitiesAI의 우승기법인 EfficientNe-U-Net 모델역시 비교대상에 포함하였다. 제안한 모델은 F1 score, IoU (Interest-of-Union) 및 SSIM (Structure Similarity Index Measure)의 세 가지 지표로 평가되었다.
제안된 프레임워크는 백본네트워크인 Mask R-CNN에 비교하여 정량적 평가에서 건물경계추출 성능을 개선했음을 보여준다. 하지만, 최신모델인 의미론적분할 기반의 EfficientNet–U-Net에 비해서는 여전히 낮은 지표를 보인다. 이는 제안한 네트워크가 건물탐지와 특징점탐지로 구분된 2단계 접근방식을 채택하였기 때문으로, 건물탐지성능에 모델의 퍼포먼스가 크게 의존한다. 그러나, 앞선 네트워크에서 탐지된 객체에 한정하여 제안된 프레임워크는 건물객체의 모서리를 직접 추출함으로써 딥러닝 네트워크의 결과만으로 벡터화된 객체를 도출하고, 실제 건물경계와 유사하게 모서리와 경계로 구성되어 시각적으로 향상된 건물경계추출이 가능하다는 점을 보였으며, 여기에 논문의 의의가 있다.
Building footprint extraction is an active topic in the domain of remote sensing, since buildings are a fundamental unit of urban areas. Deep convolutional neural networks successfully perform footprint extraction from optical satellite images. However, the semantic segmentation approach produces coarse results, such as blurred and rounded boundaries in the output, which are caused by the use of convolutional layers with large receptive fields and pooling layers.
Recently, a series of studies has been conducted to directly create polygon representations that describe geometric objects of vector structures through an end-to-end learnable approach. The objective of this thesis is to derive visually improved building objects by directly extracting vertices of independent buildings, which is accomplished by combining instance segmentation and keypoint detection. The target keypoints in building extraction are points of interest based on the local image gradient direction, that is, the vertices of a building polygon. The proposed framework follows a two-stage, top-down approach that that is divided into object detection and keypoint estimation. Keypoints between instances are distinguished by merging the rough segmentation masks and local features of regions of interest. A building polygon is created by grouping the predicted keypoints through a simple geometric method.
In this study, public datasets, namely SpaceNet 2 and Open Cities AI Challenge dataset were used for building footprint extraction. SpaceNet 2 contains satellite images of WorldView-3, which are not orthoimages, while Open Cities AI consists of orthorectified aerial images where annotations match roof outlines and building footprints.
The most widely used semantic segmentation model (EfficientNet–U-Net) and an instance segmentation network (Mask R-CNN) were implemented here to validate the performance of the proposed framework. The framework was evaluated with three metrics, namely, F1 score, intersection over union (IoU), and structural similarity index measure (SSIM).
The results demonstrated that the proposed framework exhibited better segmentation performance compared with Mask R-CNN in terms of both qualitative and quantitative results under keypoint estimation. However, compared with the state-of-the-art EfficientNet–U-Net, which is based on semantic segmentation, the proposed network performed poorly. This is because the performance of the framework largely depends on the performance of the object detector. Nevertheless, the proposed framework, limited to the detected object in the preceding network, directly predicts the corner points of the building polygon to derive vectorized objects only from the output of the end-to-end learnable network. The proposed framework trains the geometric coordinates of the polygons keypoints and demonstrates the potential to directly generate vectorized representations of segmented objects in the satellite images.
Language
eng
URI
https://hdl.handle.net/10371/175088

https://dcollection.snu.ac.kr/common/orgView/000000166029
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share