Publications

Detailed Information

Deep Learning of Perception-Oriented Image Restoration using Conditional Objective : 조건 목적을 사용한 딥러닝 기반의 인지적 영상 복원

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

박승호

Advisor
조남익
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
image restorationimage super-resolutionperception-oriented image restorationperception-oriented image super-resolutionconditional objectiveoptimal objective estimation영상 복원이미지 초해상화인지 지향 영상 복원인지 지향 이미지 초해상화조건 목적최적 목적 추정
Description
학위논문(박사) -- 서울대학교대학원 : 공과대학 전기·정보공학부, 2023. 8. 조남익.
Abstract
영상 복원의 목적은 주어진 저품질 영상을 고품질 영상으로 복원하는 것이다. 전형적인 영상 복원 분야에는 영상 잡음 제거(image denoising)와 영상 초해상화(image super-resolution)가 포함된다. 영상 복원은 일상의 영상 품질 향상뿐 아니라 의료, 감시 및 위성 이미지의 컴퓨터 비젼 작업 전처리 단계로도 많이 활용되고 있다. 그러나 이러한 영상 복원은 하나의 저품질 이미지에 무한히 많은 고품질 이미지들이 대응한다는 점에서 불량조건문제이기 때문에 어려운 작업이다.
최근에는 대규모 외부 데이터 세트로 훈련된 심층 신경망을 도입하여 영상 복원의 성능이 크게 향상되었다. 특히 픽셀 단위의 왜곡 감소 지향 손실(L1 및 L2)은 높은 신호 대 잡음비(PSNR)를 얻는데 도움이 되며 초기 연구부터 널리 사용되었다. 그러나 이러한 왜곡 기반 손실로 학습된 모델은 주어진 저품질 이미지에 대응될 수 있는 고품질 솔루션들의 평균을 복원 결과로 생성하게 되며, 이는 일반적으로 흐릿하고 시각적으로 만족스럽지 않다.
이후 이러한 문제를 극복하고 세밀한 디테일이 있는 실제같은 이미지를 생성하기 위해 인지 손실(perceptual loss) 및 생성 적대적 손실(generative adversarial loss)과 같은 인지 지향 손실들이 도입되었다. 이러한 인지 지향 손실은 다양한 영상 복원 방법들에 사용되었지만, 부자연스러운 디테일 및 구조적 왜곡의 발생과 같은 바람직하지 않은 부작용도 가져온다. 특히 단일 인지 손실을 영상 전체에 동일하게 사용하는 것은 국부적으로 다양한 형태를 가지는 이미지를 정확하게 복원하는데 충분하지 않은 것으로 나타났다. 이러한 이유로 인지 손실, 적대적 손실, 왜곡 손실 등 다양한 손실들의 가중 조합이 시도되었지만 최적의 조합을 찾는 것은 여전히 어려운 일이다. 이러한 문제를 해결하기 위해 본 학위 논문에서는 지역별로 최적 목적을 예측 및 적용하여 복원 결과 영상의 전체 영역에서 실제같고 자연스러운 결과를 생성하는 새로운 방법을 제시한다.
첫 번째 연구는 제어 맵에 따라 국부적으로 다양한 형태의 고해상도 복원 결과를 생성할 수 있는 유연한 모델의 학습법과 네트워크 구조이다. 일반적으로, 다양한 초해상화 결과를 얻기 위한 접근 방식은 손실 가중치가 다른 여러 목적들로 각각의 모델을 훈련하고 이러한 모델들의 조합을 활용하는 것이지만, 본 연구에서는 여러 모델을 사용하는 대신, 훈련 중에 조건 목적으로 단일의 초해상화 모델을 최적화하는 방법을 제안한다. 여기서 목적은 각각 다른 비전 레벨의 특징에 해당되는 인지 손실 항들의 가중 합을 포함한다. 이 가중치 집합은 스타일 제어 입력에 따라 다르게 정의된다. 또한, 이 훈련 방식에 적합한 네트워크 구조로 공간 특징 변환 레이어가 장착된 Residual-in-Residual Dense Block을 제시한다. 이렇게 훈련된 모델은, 추론 단계에서, 국부적으로 변화하는 목적 맵에 대응되는 고해상도 복원 결과를 생성할 수 있다. 광범위한 실험은 제안된 초해상화 모델이 부작용 없이 목적 제어 맵에 따라 다양한 스타일의 초해상화 복원 결과를 생성하고 최첨단 초해상화 방법들에 필적하는 정량적 성능도 달성한다는 것을 보여준다.
두 번째 연구에서는, 인지 관점에서 최적인 목적을 지역마다 추정하고 이를 적용함으로써 복원 영상 전체 영역에서 고품질을 달성할 수 있는, 인지 지향의 새로운 영상 복원 프레임워크를 제시한다. 구체적으로 프레임워크는 주어진 저해상도 입력에 대한 최적의 목적 맵을 유추하는 예측 모델과 해당 목적 맵에 상응하는 초해상화 복원 결과를 생성하는 생성 모델의 두 가지 모델로 구성된다. 생성 모델은 제안하는 필수 목적들을 포함하는 목적 궤적에 대해 훈련되며, 이를 통해 단일 생성 모델은 연속된 궤적 상의 다양하게 결합된 손실들에 해당하는 다양한 초해상화 결과들을 학습할 수 있다. 예측 모델은 저해상도 이미지과 그에 상응하는 목적 궤적에서 검색된 최적의 목적 맵의 쌍을 사용하여 훈련된다. 5개의 벤치마크에 대한 실험 결과는 제안하는 방법이 LPIPS, DISTS, PSNR 및 SSIM 측정에서 최신 인지 기반 초해상화 방법들보다 성능이 우수함을 보여준다. 또한 시각적 비교 결과에서도 인지 지향 복원 관점에서 제안 방법의 우수성을 보여준다.
The purpose of image restoration (IR) is to reconstruct a high-quality (HQ) image corresponding to a given low-quality (LQ) image. Typical image restoration tasks include image denoising and image super-resolution. IR has many applications, mainly as a pre-processing step of image enhancement, computer vision, or image analysis tasks, such as medical, surveillance, and satellite image analysis. However, it is challenging since IR is an ill-posed problem in that infinitely many HQ images correspond to a single LQ image.
Recently, the performance of IR has been greatly improved by adopting deep neural networks trained with large-scale external datasets. Pixel-wise distortion-oriented losses (L1 and L2) were widely used in early research, which helped to obtain a high signal-to-noise ratio (PSNR). However, these losses lead the model to generate an average of possible HQ solutions, which are usually blurry and thus visually not pleasing.
Subsequently, perception-oriented losses, such as perceptual loss and generative adversarial loss, were introduced to overcome this problem and produce realistic images with fine details. Although these perception-oriented losses are used for various IR methods, they also bring undesirable side effects, such as unnatural details and structural distortions. It has been shown that using a single perceptual loss is insufficient for accurately restoring locally varying diverse shapes in images. For this reason, combinations of various losses, such as perceptual, adversarial, and distortion losses, have been attempted, yet it remains challenging to find optimal combinations. To address these problems, this dissertation presents a new method that applies desired or optimal objectives for each region to generate plausible results in overall areas of high-quality outputs.
This dissertation first proposes an efficient learning method that enables a single super-resolution (SR) model to produce reconstruction results in a locally flexible style. A typical approach to obtaining alternative SR results is to train multiple SR models with different loss weightings and exploit the combination of these models. Instead of using multiple models, I propose a method to optimize an SR model with a conditional objective during training, where the objective is a weighted sum of multiple perceptual losses at different feature levels. The weights vary according to given conditions, and the set of weights is defined as a style controller. Also, I present an architecture appropriate for this training scheme: the Residual-in-Residual Dense Block equipped with spatial feature transformation layers. The trained model can generate locally different outputs conditioned on the style control map at the inference phase. Extensive experiments show that the proposed SR model produces various desirable reconstructions without artifacts and yields comparable quantitative performance to state-of-the-art SR methods.
Second, this dissertation also presents a new SR framework for perception-oriented restoration by estimating locally optimal objectives for each region to generate plausible results in overall areas of high-quality outputs. Specifically, the framework consists of two models: a predictive model that infers an optimal objective map for a given low-resolution (LR) input and a generative model that applies a target objective map to produce the corresponding SR output. The generative model is trained over the proposed objective trajectory representing a set of essential objectives, which enables the single network to learn various SR results corresponding to combined losses on the trajectory. The predictive model is trained using pairs of LR images and corresponding optimal objective maps searched from the objective trajectory. Experimental results on five benchmarks show that the proposed method outperforms state-of-the-art perception-driven SR methods in LPIPS, DISTS, PSNR, and SSIM metrics. The visual results also demonstrate the superiority of the proposed method in perception-oriented reconstruction.
Language
eng
URI
https://hdl.handle.net/10371/196411

https://dcollection.snu.ac.kr/common/orgView/000000178123
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share