Analysis of gradients of loss function in deep learning networks

Cited 0 time in Web of Science Cited 0 time in Scopus


자연과학대학 수리과학부
Issue Date
서울대학교 대학원
학위논문 (석사)-- 서울대학교 대학원 : 자연과학대학 수리과학부, 2019. 2. 강명주.
깊은 신경망을 학습시킬 때, 배치 크기를 작게 하여 학습시키는 것이 손실 함수의 평평한 최소값으로 파라미터를 수렴시키고, 배치 크기가 큰 경우에는 그렇지 못함이 일반적으로 알려져있다. 또한 날카로운 최소값은 평평한 최소 값에 비해 일반화가 좋지 못함이 알려져있기 때문에, 배치 크기와 일반화 정도 사이의 관계는 연구자들 사이에서 중요한 문제이다. 스미스는 배치 크기가 작 을 수록 학습에 이용되는 그래디언트에 소음이 많이 섞이게 됨을 발견했고, 웬은 배치 크기의 영향을 줄이기 위해 날카로운 최소값을 피하는데에 적합한 새로운 학습 방법을 제안했다. 또한 케스카는 작은 배치 크기로만 학습시키는 기존의 방법에 비해, 배치 크기를 작게 했다가 일정 학습 이후에 크기를 키우 는 피기백 방법이 일반화에 더 좋다고 추측하였다. 본 논문에서는, 케스카의 논문에서 언급된 피기백 방법에 초점을 맞추어 이 방법이 좋은 일반화 성능 을 낼 수 있는 근거를 그래디언트 분석 실험을 통해 뒷받침하려 한다. 또한, 앞서 언급한 스미스와 웬의 논문을 요약하며 실험의 아이디어를 얻은 과정을 소개한다.
It is widely known that training with small batch size tend to converge to flat minimizers of loss function while large batch method does not. It is also known that sharp minima generalize worse than flat minima, so relation between batch size and generalization is crucial issue among researchers. Smith found that the smaller batch size, the more noise is introduced in gradients during training. Wen suggested a new method to train that is good at avoiding sharp minima under less effect of batch size. Keskar guessed that piggybacked method, which is training with large batch after some epochs of small batch methods, generalize better than original small batch method. In this work, we focused the piggybacked method in Keskars paper and analyzed gradients through experiments to find the reason of good generalizing ability of this method. Also, we introduce the process of getting idea of experiments with summarizing the paper of Smith and Wen.
Files in This Item:
Appears in Collections:
College of Natural Sciences (자연과학대학)Dept. of Mathematical Sciences (수리과학부)Theses (Ph.D. / Sc.D._수리과학부)
  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.