Publications

Detailed Information

Enhancing Discriminative Capability of GAN Discriminators for Complex Image Generation : 복잡한 이미지 생성을 위한 GAN 판별기 강화 방법

DC Field Value Language
dc.contributor.advisor이상구-
dc.contributor.author이한빛-
dc.date.accessioned2023-06-29T01:59:23Z-
dc.date.available2023-06-29T01:59:23Z-
dc.date.issued2023-
dc.identifier.other000000174963-
dc.identifier.urihttps://hdl.handle.net/10371/193331-
dc.identifier.urihttps://dcollection.snu.ac.kr/common/orgView/000000174963ko_KR
dc.description학위논문(박사) -- 서울대학교대학원 : 공과대학 컴퓨터공학부, 2023. 2. 이상구.-
dc.description.abstractGenerative Adversarial Network (GAN) is one of the most successful generative models in recent years. GAN involves adversarial training between two networks, a generator and a discriminator, which provides a novel and powerful way of modeling high-dimensional data distribution such as images. At the core of this mechanism, the discriminative capability of the discriminator plays a significant role, because the generator can improve itself only to the extent that the discriminator can distinguish between real and fake samples. In this dissertation, we sought for the improvement of GAN models by proposing three methods to enhance the discriminative capability of the discriminator.

To improve conditional image generation for complex multi-label conditions, we propose an attention-based conditional discriminator that allows the discriminator to focus on local regions that are relevant to given labels. In addition, we propose a product-of-Gaussian based latent sampling method to better encode the multi-label condition. Both proposed architectures for discriminator and generator improve the controllability of the image generation process.

We then study discriminator enhancement for more complex data distributions, such as scene images with multiple objects. Due to the high structural complexity of scene images, the discriminator is under heavy burden to distinguish complex structural differences between real and fake scene images. To aid the discriminator, we design a multi-scale contrastive learning task to enhance local representations of the discriminator. The proposed auxiliary task allows us to learn a powerful discriminator that can better incentivize the generator to improve the synthesis quality of scene images.

Finally, we explore a way to utilize pretrained scene understanding models for the discrimination process. Since the pretrained models contain rich knowledge on complex structures of scene images, we propose to use their pretrained representations to relieve the burden of the discriminator. To take full advantage of both common and per-task knowledge available in different pretrained models, we propose to ensemble their features to form a set of unified multi-scale features.

With extensive evaluation and analysis on challenging image domains, we show that the proposed methods achieve meaningful improvement on modeling complex image distributions. We believe these achievements would help increase the utility of GAN models, and facilitate their downstream applications as well.
-
dc.description.abstractGenerative Adversarial Network (GAN) 은 최근 몇 년 동안 가장 성공적인 생성 모델 중 하나이다. 생성기와 판별기를 사용한 적대적 훈련 방식은 이미지와 같은 고차원 데이터 분포를 모델링하는 새롭고 강력한 방법을 제공한다. 이 메커니즘에서 판별기의 판별 기능은 핵심적인 역할을 한다. 이는 생성기가 판별기가 실제 샘플과 가짜 샘플을 구별해낼 수 있는 능력에 전적으로 의존하여 생성기의 생성 성능을 향상 시킬 수 있기 때문이다. 본 논문에서는 이러한 판별기 학습을 향상시키기 위한 세 가지 방법을 제안함으로써 GAN 모델의 개선을 모색하였다.

먼저, 복잡한 다중 레이블 조건에 대한 조건부 이미지 생성을 개선하기 위해 Attention-based Discriminator (ADGAN)을 제안한다. ADGAN은 판별기가 조건 레이블과 관련된 이미지 영역에 집중할 수 있도록 Attention 기법을 활용하는 판별기를 제안한다. 또한 다중 레이블 조건을 효율적으로 인코딩하기 위해 가우시안 곱 기반의 잠재 벡터 샘플링 방법을 제안한다. 제안된 아키텍처는 복잡하고 다양한 속성 라벨에 대해 이미지 생성 프로세스의 제어 가능성을 향상시켰다.

그 다음으로 여러 객체가 있는 장면 이미지와 같이 보다 복잡한 이미지에 대한 판별기 향상 방법에 대해 성능 향상을 모색한다. 장면 이미지는 일반적으로 이미지의 구조적 복잡성이 높기 때문에 판별기가 실제 장면 이미지와 가짜 장면 이미지 간의 복잡한 구조적 차이를 구별해야 하기에 학습의 난이도가 높다. 우리는 판별기의 학습을 돕기 위해 판별기의 로컬 표현을 향상키기기 위한 다중 스케일 대조 학습 (Multi-scale Contrastive Learning)을 설계하고 이를 통해 판별기에 추가 작업으로 부여한다. 이를 통해 이미지의 로컬 구조에 대한 판별기의 판별 능력을 강화하여 결과적으로 장면 생성 성능을 향상시킬 수 있었다.

마지막으로 장면 생성 성능을 더 향상시키기 위해 사전 훈련된 장면 이해 모델을 활용하여 판별기의 판별 과정을 추가로 지원하는 방법을 탐색합니다. 사전 훈련된 모델들은 장면 이미지의 복잡한 의미 구조에 대한 풍부한 지식을 학습하고 있으므로 사전 훈련된 표현을 사용하여 판별기의 판별 능력을 증진시켰다. 여러 전문 모델이 담고 있는 공통적인 지식과 모델 별 고유한 지식을 최대한 활용하기 위해 모델로부터 추출된 피쳐들을 앙상블하여 통합된 다중 스케일 기능 세트를 형성하고 이를 판별 과정에 활용할 것을 제안한다.

우리는 다양한 이미지 도메인에서의 성능 평가 및 분석을 통해 제안된 방법들이 복잡한 이미지 분포 모델링에서 의미 있는 개선을 달성하였다. 이러한 성과가 생성 모델의 문제와 한계를 극복하고 생성모델의 다운스트림 애플리케이션들도 용이하게 하는 데 도움이 될 것으로 기대한다.
-
dc.description.tableofcontentsAbstract 1
1 Introduction 9
1.1 Deep Generative Models 9
1.2 Generative Adversarial Networks 11
1.3 Scope of Dissertation 12
1.4 Contributions 13
2 Preliminaries and Related Work 15
2.1 Generative Adversarial Networks 15
2.2 Architectural Improvement 16
2.3 Objective Functions and Regularization 19
2.4 Auxiliary Task 20
2.5 Transfer Learning for GAN 21
2.6 Evaluation of Generative models 22
3 Attention-based Discriminator for Multi-label to Image Generation 24
3.1 Motivation 24
3.2 Related Work 26
3.3 Method 28
3.3.1 Multi-label Attention for Discriminator 28
3.3.2 Product-of-Gaussian Condition Prior for Generator 30
3.3.3 Visual-Semantic Embedding 31
3.4 Experiment 33
3.4.1 Quantitative Result 35
3.4.2 Qualitative Result 40
3.5 Chapter Summary 44
4 Multi-scale Contrastive Learning for Complex Scene Generation 45
4.1 Motivation 45
4.2 Related Work 48
4.3 Method 50
4.3.1 Multi-scale Discriminator with Multi-level Branches 51
4.3.2 Multi-scale Contrastive Learning for GAN 53
4.3.3 Full Objective 55
4.3.4 Implementation and Training 56
4.4 Experiment 56
4.4.1 Comparison to State-of-the-Art 60
4.4.2 Ablation Study 63
4.4.3 Analysis on Training Dynamics 68
4.5 Chapter Summary 68
5 Leveraging Pretrained Vision Models for Complex Scene Generation 70
5.1 Motivation 70
5.2 Method 72
5.2.1 Leveraging Pretrained Vision Models 72
5.2.2 Feature Ensemble across Scales and across Models 73
5.3 Experiment 74
5.3.1 Comparison Result 78
5.3.2 Ablation Study 80
5.4 Chapter Summary 82
6 Conclusion & Future Work 84
7 Appendix 88
7.1 Detailed Network Architecture 88
7.1.1 Network Architecture of ADGAN 88
7.1.2 Network Architecture of MsConD 88
7.2 Additional Samples 89
7.2.1 Comparison of additional samples of MsConD 89
-
dc.format.extent118-
dc.language.isoeng-
dc.publisher서울대학교 대학원-
dc.subjectGenerative Adversarial Networks-
dc.subjectDeep Generative Models-
dc.subjectImage Generation-
dc.subjectConditional Image Generation-
dc.subjectDiscriminator Enhancement-
dc.subjectScene Generation-
dc.subjectSelf-Supervised Learning-
dc.subjectTransfer Learning-
dc.subject.ddc621.39-
dc.titleEnhancing Discriminative Capability of GAN Discriminators for Complex Image Generation-
dc.title.alternative복잡한 이미지 생성을 위한 GAN 판별기 강화 방법-
dc.typeThesis-
dc.typeDissertation-
dc.contributor.AlternativeAuthorLEE HANBIT-
dc.contributor.department공과대학 컴퓨터공학부-
dc.description.degree박사-
dc.date.awarded2023-02-
dc.identifier.uciI804:11032-000000174963-
dc.identifier.holdings000000000049▲000000000056▲000000174963▲-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share