Publications

Detailed Information

A Deep Representation Learning for Unsupervised Anomaly Detection : 비지도 이상 탐지를 위한 표현 학습론

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

조현수

Advisor
이상구
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
machine learningdeep learninganomaly detectionout-of-distribution detectiondistributional shiftrepresentation learningnatural language understandingclassificationlarge-scale pre-trained language models
Description
학위논문(박사) -- 서울대학교대학원 : 공과대학 전기·컴퓨터공학부, 2023. 2. 이상구.
Abstract
Anomaly detection is the task of identifying data instances that deviate from regular observations, commonly referred to as anomalies or outliers.
Software systems in the wild encounter anomalies ceaselessly, which may lead to catastrophic failure in safety-critical applications, such as medical diagnosis or self-driving cars.
Thus, the ability to discriminate anomalies is a cornerstone for securing the reliability of the software and maintaining a high user experience.

In this dissertation, we present a comprehensive analysis and novel methods for deep learning-based anomaly detection in an unsupervised manner, primarily concentrating on extracting a more distinctive representation from deep neural models.
The first part of this thesis proposes self-supervised learning frameworks for two most common input types (i.e., images and sentences):
Masked Contrastive Learning (MCL) and Layer-agnostic Contrastive Learning (LaCL).
MCL (Chapter 3) generates a mask that adjusts the repelling ratio in contrastive loss to form label-wisely dense representations and boosts the overall performance via image rotation inference.
The latter, LaCL (Chapter 4), encourages intermediate features to learn layer-specialized representations and assembles them into a single representation to absorb rich information in the pre-trained language model.

The remaining half of this dissertation delves into investigating the methods of utilizing large-scale pre-trained models for anomaly detection, reflecting the current surging interest in large models due to their versatility.
In Chapter 5, we first analyze the capability of large pre-trained language models (PLMs) as outlier detectors in various perspectives, including their behavior in conjunction with recent parameter-efficient transfer learning methods, and share several intriguing findings and limitations.
On the basis of previous findings, Chapter 6 introduces a novel transfer learning method for large pre-trained models dubbed prompt augmented linear probing (PALP), where its underlying mechanism is inspired by the recent prompting methods, which manipulate large PLMs by prepending extra prefixes.
PALP exhibits robustness to anomalies and high generalizability in both data scarcity and data-abundant scenarios without any access or adaptation of the model parameters.

The improvements proposed in this dissertation would advance the robustness of various real-world applications.
이상 탐지는 일반적으로 이상(異常)이라 불리는 일반적인 관찰을 벗어나는 데이터 입력을 식별하는 문제이다.
실제 상용되는 소프트웨어 시스템은 끊임없이 이상 입력을 마주하며, 이러한 이상 입력은 의료 진단이나 자율 주행 자동차와 같은 안전이 중요한 애플리케이션에서 치명적인 오류로 이어질 수 있다.
따라서 이상 징후를 식별하는 능력은 소프트웨어의 신뢰성을 확보하고 높은 사용자 경험을 유지하기 위한 초석이 되는 연구분야이다.

본 논문은 이상값에 대한 견고성을 강화하기 위해 심층 신경 모델에서 보다 분별력있는 표현을 추출하는 데 집중하여 다양한 비지도 학습 상황에서 이상 징후를 감지하기 위한 포괄적인 분석 및 새로운 방법을 제시한다.
논문의 첫 번째 파트는 인간 상호 작용에서 가장 많이 활용되는 입력의 형태인 이미지 및 문장에서 각각 두각을 드러내는 두 가지 자기 지도 학습 기반 프레임워크인 마스킹 대조 학습(Masked Contrastive Learning) 그리고 계층에 구애받지 않는 대조 학습론(Layer-agnostic Contrastive Learning)을 제안한다.
마스킹 대조 학습은 기존 대조 학습에 입력에서 레이블 정보를 활용해 반발 비율을 조정하는 마스크를 활용하는 방법론으로 클래스 별로 조금 더 밀집된 표현을 형성하도록 돕는다.
이와 동시에, 4방향으로 회전된 이미지를 따로 추론하여 얻은 결과를 취합하여 모델의 예측 결과를 더욱 증진시키는 방법을 활용하여 이상 탐지 능력을 높인다.
둘째로, 계층에 구애받지 않는 대조 학습론은 사전학습 언어 모델이 가진 풍부한 정보를 활용하기 위해 모든 층이 가진 정보가 서로 다르면서 유의미하도록 학습한 후, 이를 단일 표현으로 취합하는 네트워크를 제안한다.


본 논문의 두 번째 파트는 최근 기하급수적으로 커져가고 있는 사전 학습 언어 모델의 고유한 능력을 활용하여 이상탐지 능력을 극대화 하는 방법론을 찾는 것을 목표로 한다.
5장에서 우리는 먼저 다양한 관점에서 대규모 사전 훈련된 언어 모델이 이상 검출기로서의 기능을 얼마나 갖추고 있는지를 확인하고, 이러한 큰 언어 모델이 최근에 제안된 매개변수 효율적인 전이 학습 방법과는 어떠한 연관성을 띄고 있는지를 분석하고 이로부터 얻은 몇 가지 흥미로운 발견과 한계를 공유한다.
6장에서는 5장에서 얻은 연구 결과를 바탕으로 프롬프트 증강 선형 프로빙(Prompt-Augmented Linear Probing)이라 불리는 대규모 사전학습 언어모델로부터 더 의미있는 표현을 추출하는 방법론을 제안한다.
프롬프트 증강 선형 프로빙의 기본 메커니즘은 추가 접두사 입력을 앞에 추가하여 대형 PLM을 조작하는 프롬프트 방법의 최근 성공에서 영감을 받은 모델로, 모델의 매개변수에 대한 접근이나 업데이트 없이 대형 언어 모델으로부터 보다 분별력있는 정확한 표현을 추출할 수 있다.


본 학위 논문에서 제안된 개선 사항이 실제 상용되고 있는 다양한 심층 신경 모델 기반 응용 프로그램의 견고성을 향상시킬 것이라고 기대한다.
Language
eng
URI
https://hdl.handle.net/10371/193309

https://dcollection.snu.ac.kr/common/orgView/000000175096
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share