Publications

Detailed Information

학습분포 외 샘플탐지를 위한 교차주의집중 트랜스포머 기반 대조표현학습 : Cross Attention Transformer-based Contrastive Representation Learning for Out-of-distribution Detection

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

정재호

Advisor
최진영
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
Out-of-distribution 탐지비전 트랜스포머교차주의집중표현학습
Description
학위논문(석사) -- 서울대학교대학원 : 공과대학 전기·정보공학부, 2023. 2. 최진영.
Abstract
이상치 탐지 문제 중 하나인 OOD(Out-of-Distribution) 샘플 탐지는 입력으로 들
어오는 샘플에 대해 모델 학습에 사용된 데이터(known data within in-distribution)인
지, 학습하지 못한 데이터(unknown data within OOD)인지 판단하는 문제이다. 이는
잘못된 판단이 사고율로 직결되는 의료나 시스템 안전과 같은 분야에서 매우 중요한
요소이다. 이러한 문제를 해결하기 위해 여러 방법들이 제안되었지만, 현실적으로
OOD 데이터의 정의와 범위 등이 모호하다. 따라서 모델 학습을 위해 OOD 샘플을
사용하는 것은 한계가 있다. 이 한계를 극복하기 위해 OOD 샘플들을 학습에 사용할
수 없는 일반적인 상황에서의 OOD 샘플을 탐지하는 연구가 많이 진행되었다.
OOD 샘플을 탐지하기 위해 비전 트랜스포머(Vision Transformer)가 가장 좋은
성능을 보여 왔다. 최근 클래스 대표 특성과 이미지 데이터 특성 간의 교차주의집중
트랜스포머 (cross-attention transformer)를 이용하여 OOD 탐지 성능을 향상시키는
연구가 진행되었다. 본 연구에서는 이 교차주의집중 트랜스포머를 이용하여 표현
학습(representation learning)을 적용한 OOD 탐지 방법을 제안하였다. 구체적으로
설명하면, 클래스와 각 이미지간의 상관 관계를 인코딩 하는 교차주의집중 트랜스
포머가 대조표현학습(contrastive representation learning) 방법을 통해 학습 데이터의
특성 표현을 학습함으로서 보다 더 강하게 상관관계를 학습하도록 한다.
따라서, 본 논문에서 제안하는 학습 방법은 2단계 학습(2-stage learning) 방법으
로, 첫 번째 단계에서 교차주의집중 트랜스포머를 사전훈련 하기 위해 대조표현학습
방법을 적용한다. 두 번째 단계에서는 사전학습된 트랜스포머에 분류기(classifier)
를 붙여서 정밀학습(fine-tuning)하는 방법이다. 제안된 방법은 오직 학습 데이터셋인
ID(in-distribution) 샘플로만 학습을 하였다. OOD 탐지는 OOD 샘플 탐지 이외에도
ID 샘플에 대해서 다중 클래스 분류(mult-class classification)를 동시에 수행하는
문제이기에, 최종적으로 테스트 샘플들이 인코더와 분류기를 통해 나온 신뢰 점수
(confidence score)를 기반으로 OOD 샘플인지 아닌지 판단하면서 동시에 ID 샘플들
이 어느 클래스에 속하는지 다중 클래스 분류까지 한다.
We focus on a method for detecting OOD samples in case where OOD samples
are not available and detection performance improvement. Using the capability that
a vision transformer captures global information better than CNN-based models, we
propose a transformer-based learning method, called CAT-based CoReL, to learn the
feature representation of a training dataset. In CAT-based CoReL, we apply contrastive
representation learning using the cross-attention transformer. Specifically, the cross
attention transformer that encodes the correlation between the class and each image
learns the correlation more strongly by learning the characteristic representation of the
training data through the contrastive representation learning.
To evaluate the OOD detection performance of the proposed method, we use 8 OOD
datasets adopted in the existing OOD detection. We achieve competitive performance
for OOD detection. In the case of far OOD detection where the ID dataset is CIFAR-10,
we achieve 1.85% (FPR95 average value) and 99.65% (AUROC average value) which
are improved by 0.31% (average FPR95) and 0.3% (average AUROC) comparing to
the previous state-of-the-art method. In addition, for near OOD detection, we achieve
FPR95 of 6.21% and AUROC of 98.56% impreved by 0.68% (FPR95) and 0.04%
(AUROC) in the case of CIFAR-10(ID) vs CIFAR-100(OOD), which is a difficult task
than far OOD detection. These results are obtained by using only the ID dataset without
using the auxiliary dataset.
Language
kor
URI
https://hdl.handle.net/10371/193306

https://dcollection.snu.ac.kr/common/orgView/000000175944
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share