Publications

Detailed Information

Enhancing Discriminative Capability of GAN Discriminators for Complex Image Generation : 복잡한 이미지 생성을 위한 GAN 판별기 강화 방법

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

이한빛

Advisor
이상구
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
Generative Adversarial NetworksDeep Generative ModelsImage GenerationConditional Image GenerationDiscriminator EnhancementScene GenerationSelf-Supervised LearningTransfer Learning
Description
학위논문(박사) -- 서울대학교대학원 : 공과대학 컴퓨터공학부, 2023. 2. 이상구.
Abstract
Generative Adversarial Network (GAN) is one of the most successful generative models in recent years. GAN involves adversarial training between two networks, a generator and a discriminator, which provides a novel and powerful way of modeling high-dimensional data distribution such as images. At the core of this mechanism, the discriminative capability of the discriminator plays a significant role, because the generator can improve itself only to the extent that the discriminator can distinguish between real and fake samples. In this dissertation, we sought for the improvement of GAN models by proposing three methods to enhance the discriminative capability of the discriminator.

To improve conditional image generation for complex multi-label conditions, we propose an attention-based conditional discriminator that allows the discriminator to focus on local regions that are relevant to given labels. In addition, we propose a product-of-Gaussian based latent sampling method to better encode the multi-label condition. Both proposed architectures for discriminator and generator improve the controllability of the image generation process.

We then study discriminator enhancement for more complex data distributions, such as scene images with multiple objects. Due to the high structural complexity of scene images, the discriminator is under heavy burden to distinguish complex structural differences between real and fake scene images. To aid the discriminator, we design a multi-scale contrastive learning task to enhance local representations of the discriminator. The proposed auxiliary task allows us to learn a powerful discriminator that can better incentivize the generator to improve the synthesis quality of scene images.

Finally, we explore a way to utilize pretrained scene understanding models for the discrimination process. Since the pretrained models contain rich knowledge on complex structures of scene images, we propose to use their pretrained representations to relieve the burden of the discriminator. To take full advantage of both common and per-task knowledge available in different pretrained models, we propose to ensemble their features to form a set of unified multi-scale features.

With extensive evaluation and analysis on challenging image domains, we show that the proposed methods achieve meaningful improvement on modeling complex image distributions. We believe these achievements would help increase the utility of GAN models, and facilitate their downstream applications as well.
Generative Adversarial Network (GAN) 은 최근 몇 년 동안 가장 성공적인 생성 모델 중 하나이다. 생성기와 판별기를 사용한 적대적 훈련 방식은 이미지와 같은 고차원 데이터 분포를 모델링하는 새롭고 강력한 방법을 제공한다. 이 메커니즘에서 판별기의 판별 기능은 핵심적인 역할을 한다. 이는 생성기가 판별기가 실제 샘플과 가짜 샘플을 구별해낼 수 있는 능력에 전적으로 의존하여 생성기의 생성 성능을 향상 시킬 수 있기 때문이다. 본 논문에서는 이러한 판별기 학습을 향상시키기 위한 세 가지 방법을 제안함으로써 GAN 모델의 개선을 모색하였다.

먼저, 복잡한 다중 레이블 조건에 대한 조건부 이미지 생성을 개선하기 위해 Attention-based Discriminator (ADGAN)을 제안한다. ADGAN은 판별기가 조건 레이블과 관련된 이미지 영역에 집중할 수 있도록 Attention 기법을 활용하는 판별기를 제안한다. 또한 다중 레이블 조건을 효율적으로 인코딩하기 위해 가우시안 곱 기반의 잠재 벡터 샘플링 방법을 제안한다. 제안된 아키텍처는 복잡하고 다양한 속성 라벨에 대해 이미지 생성 프로세스의 제어 가능성을 향상시켰다.

그 다음으로 여러 객체가 있는 장면 이미지와 같이 보다 복잡한 이미지에 대한 판별기 향상 방법에 대해 성능 향상을 모색한다. 장면 이미지는 일반적으로 이미지의 구조적 복잡성이 높기 때문에 판별기가 실제 장면 이미지와 가짜 장면 이미지 간의 복잡한 구조적 차이를 구별해야 하기에 학습의 난이도가 높다. 우리는 판별기의 학습을 돕기 위해 판별기의 로컬 표현을 향상키기기 위한 다중 스케일 대조 학습 (Multi-scale Contrastive Learning)을 설계하고 이를 통해 판별기에 추가 작업으로 부여한다. 이를 통해 이미지의 로컬 구조에 대한 판별기의 판별 능력을 강화하여 결과적으로 장면 생성 성능을 향상시킬 수 있었다.

마지막으로 장면 생성 성능을 더 향상시키기 위해 사전 훈련된 장면 이해 모델을 활용하여 판별기의 판별 과정을 추가로 지원하는 방법을 탐색합니다. 사전 훈련된 모델들은 장면 이미지의 복잡한 의미 구조에 대한 풍부한 지식을 학습하고 있으므로 사전 훈련된 표현을 사용하여 판별기의 판별 능력을 증진시켰다. 여러 전문 모델이 담고 있는 공통적인 지식과 모델 별 고유한 지식을 최대한 활용하기 위해 모델로부터 추출된 피쳐들을 앙상블하여 통합된 다중 스케일 기능 세트를 형성하고 이를 판별 과정에 활용할 것을 제안한다.

우리는 다양한 이미지 도메인에서의 성능 평가 및 분석을 통해 제안된 방법들이 복잡한 이미지 분포 모델링에서 의미 있는 개선을 달성하였다. 이러한 성과가 생성 모델의 문제와 한계를 극복하고 생성모델의 다운스트림 애플리케이션들도 용이하게 하는 데 도움이 될 것으로 기대한다.
Language
eng
URI
https://hdl.handle.net/10371/193331

https://dcollection.snu.ac.kr/common/orgView/000000174963
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share