Publications

Detailed Information

Novel Loss, Layer and Applications for Neural Network based Continual Learning : 신경망 기반 연속학습을 위한 새로운 손실 함수, 레이어 및 애플리케이션

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

차성민

Advisor
문태섭
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
Deep Neural NetworkContinual LearningCatastrophic Forgetting
Description
학위논문(박사) -- 서울대학교대학원 : 공과대학 전기·정보공학부, 2023. 8. 문태섭.
Abstract
Deep learning has made significant advancements in recent years, demonstrating superior performance in various tasks (e.g., computer vision, reinforcement learning and natural language processing) and having a profound impact on various real-world applications, including ChatGPT. However, deep neural networks still fall short in terms of their ability to perform continual learning compared to human capabilities. When confronted with new data or tasks presented continuously, humans can learn new information without significantly forgetting previously acquired knowledge. In contrast, deep neural networks suffer from catastrophic forgetting, where they tend to forget previously learned knowledge while solely focusing on acquiring new information. This necessitates retraining the model with all the previously learned data, resulting in increased training costs.
We propose research on continual learning algorithms for deep neural networks, with the goal of developing algorithms that overcome catastrophic forgetting and enable successful continual learning across various domains. Firstly, we introduce algorithms specifically designed for continual learning in domains that have received significant research attention, such as classification and reinforcement learning. In this context, we propose a novel regularization-based approach that aims to converge to wide local minima for each task. Theoretical and experimental results demonstrate that converging to wide local minima effectively mitigates catastrophic forgetting. Additionally, in the context of class-incremental learning (class-IL), where new classes are learned incrementally, we conduct a study on Batch Normalization (BN) and propose Task-Balanced Batch Normalization as a solution to address the limitations of the BN layer in class-IL. Experimental results show that incorporating the TBBN layer enhances the performance of existing class-IL algorithms.
Secondly, we address continual learning algorithms in domains that have not been thoroughly explored. Specifically, we propose an algorithm for class-incremental semantic segmentation, where new classes are learned incrementally in the context of semantic segmentation. Unlike other algorithms derived from research on class-IL in classification, the proposed algorithm is tailored to the characteristics of semantic segmentation and demonstrates superior performance compared to existing approaches. Furthermore, we introduce a novel loss function for Continual Self-Supervised Learning (CSSL), leveraging unsupervised datasets. This algorithm, designed specifically for CSSL, exhibits strong representation learning capabilities across various datasets and scenarios of CSSL.
Lastly, we summarize the contributions of the proposed algorithms and discuss the limitations of existing continual learning algorithms. Additionally, we address future research directions and discuss the challenges that lie ahead.
딥러닝(deep learning)은 최근 몇 년간 지속적으로 발전하여 컴퓨터 비전 분야에서 인간을 능가하는 성능을 보이고, ChatGPT와 같은 자연어 처리 분야에서도 실제 서비스로 제공되어 인류의 삶에 큰 영향을 주기 시작했다. 그러나 딥러닝의 연속학습(continual learning) 능력은 여전히 인간과 큰 차이를 보인다. 이는 새로운 데이터나 작업(task)이 연속적으로 주어지는 상황에서, 인간은 이러한 데이터만으로도 기존에 학습한 지식을 크게 잃지 않으면서 새로운 것을 학습할 수 있지만, 딥러닝은 새로운 지식만 학습하고 이전의 지식을 모두 잊어버리는 파괴적 망각(catastrophic forgetting)을 겪게 되는 것을 의미한다. 그렇기 때문에 딥러닝 모델은 새로운 작업이 주어지는 상황에서, 이전에 학습한 데이터까지 모두 사용하여 학습하는 것이 일반적인 해결책으로 사용되고 있고, 이는 새로운 데이터를 추가할 때 마다 학습 비용이 점진적으로 증가하는 문제를 겪는다.
이 논문에서는 딥러닝을 위한 연속학습 알고리즘에 대한 연구를 제안한다. 이들 알고리즘은 다양한 도메인(domain)에서 파괴적 망각을 극복하고 성공적인 연속학습을 가능하게 하는 것을 목표로 합니다. 우선, 기존에 가장 활발히 연구된 도메인에서의 연속학습 알고리즘을 제안한다. 이 중 첫 번째로, 분류(classification) 및 강화학습(reinforcement learning) 상황에서 연속적으로 작업이 주어지는 경우 각 작업에 대해 넓은 국소 최소값(wide local minima)로 수렴하도록 하는 정규화 기반 연속학습 방법(regularization-based continual learning method)을 위한 알고리즘을 제안한다. 제안한 아이디어를 적용한 결과, 넓은 국소 최솟값으로 수렴하는 경우 파괴적 망각을 상대적으로 잘 극복할 수 있음을 이론적으로 및 실험적으로 보였다. 또한, 점진적으로 새로운 클래스를 학습하는 연속학습 상황(class-incremental learning)에서 저장된 이전 작업의 데이터 (exemplar)를 활용하는 알고리즘을 이용할 때, 배치정규화(batch normalization)에 대한 연구를 제안한다. 이를 위해 기존의 배치정규화 계층(layer)의 문제점을 지적하고 새롭게 설계된 작업균형 배치정규화(task-balanced batch normalization)을 제안한다. 실험 결과, 새롭게 제안된 계층을 사용할 경우 각 연속학습 알고리즘의 성능을 향상시킬 수 있음을 보인다. 마지막으로, 분류에서의 연속학습 상황에서 연구되는 알고리즘을 올바르게 평가하기 위해 각 알고리즘이 학습한 표현의 품질을 평가하는 방법을 제안한다. 우수한 분류 성능을 보이는 알고리즘으로 학습한 심층신경망(deep neural network) 모델이 학습한 표현의 품질(quality of representation)에 큰 차이가 없음을 실험적으로 보여주고, 이를 바탕으로 올바른 알고리즘의 평가를 위해서는 표현의 품질 평가가 필요함을 보인다.
두 번째로, 기존에 고려되지 않은 도메인에서의 연속학습 알고리즘을 제안한다. 의미론적 분할(semantic segmentation)에서 점진적으로 새로운 클래스를 학습해야 하는 상황(class-incremental semantic segmentation)을 위한 연속학습 알고리즘을 제안한다. 기존의 알고리즘은 분류(classification)에서의 연속학습을 위해 연구된 알고리즘을 의미론적 분할에 맞게 확장 및 응용한 것과 달리, 제안된 알고리즘은 도메인의 특징을 고려하여 설계되어 기존 알고리즘 대비 가장 우수한 성능을 보이는 것을 확인한다. 또한, 최근 활발히 연구되는 비지도 데이터셋(unsupervised dataset)을 이용한 자기지도학습(self-supervised learning)에서 데이터가 연속적으로 주어지는 연속자기지도학습(continual self-supervised learning)을 위한 새로운 손실 함수를 제안한다. 기존의 알고리즘은 이전 작업(task)까지 학습된 모델으로 부터 지식 증류(knowledge distillation)와 같은 추가적인 정규화를 통해서 파괴적인 망각을 극복하는 것과 달리, 연속자기지도학습을 위해 새롭게 셜계된 대조학습(contrastive learning) 기반의 손실 함수(loss function)을 제안하고 이를 이용한 다양한 데이터셋을 이용한 연속자기지도학습 시나리오에서 우수한 표현(representation)을 점진적으로 학습할 수 있다는 것을 실험적으로 보인다.
마지막으로, 제안된 알고리즘의 기여를 요약하고 현재까지 연구된 연속학습 알고리즘의 한계를 논의한다. 또한, 딥러닝을 이용한 연속학습 상황에서 인간과 유사한 효율적인 학습을 위해 필요한 미래의 연구방향에 대해 논의한다.
Language
eng
URI
https://hdl.handle.net/10371/196440

https://dcollection.snu.ac.kr/common/orgView/000000178450
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share