Browse

Complex-valued Recurrent Neural Networks with Memory Units
기억 뉴런으로 구성된 복소 회귀 신경망

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors
구본웅
Advisor
장병탁
Issue Date
2021-02
Publisher
서울대학교 대학원
Keywords
recurrent neural network (RNN)complex-valued neural networkmemory unitnon-normal RNN (nnRNN)Schur decompositionlong-term dependency회귀 신경망복소 신경망기억 뉴런비정규 회귀 신경망슈어 분해장기 의존성
Description
학위논문 (박사) -- 서울대학교 대학원 : 자연과학대학 협동과정 뇌과학전공, 2021. 2. 장병탁.
Abstract
Recurrent neural networks (RNNs) are deep network models created to deal with sequence data. It is challenging to train RNNs to learn long-term dependencies within sequences.
Among challenges for it, the vanishing and exploding gradient problems have long been a major stumbling block to learning long-term dependencies. In the past few years, orthogonal and unitary RNNs (ouRNNs) with the unitary recurrent weight matrix were shown to resolve the problems since the eigenvalues of the matrix only have unit absolute value.
After that, a study proposed the non-normal RNN (nnRNN) where the recurrent matrix is parametrized using Schur decomposition. This parameterization endows the network’s dynamics with higher expressivity. At the same time, the parameterization makes it simple to impose the unit absolute value constraint on the eigenvalues as with ouRNNs, thus addressing the vanishing and exploding gradient problems.
Here, we extend this model to the complex-valued nnRNN with memory units (mcnnRNN). The hidden state and parameters are set to have complex values. Memory units are built in the network using a novel method, which is different from that for the leaky integrator, a conventional memory unit. The potential of the architecture is investigated by testing it on several tasks involving long input sequences. The mcnnRNN achieves superior or comparable performance to the nnRNN as well as the long short-term memory (LSTM) network. The results suggest our strategy is effective in improving the capability to learn long-term dependencies in sequential data.
In addition, we examine other characteristics of the mcnnRNN. First, we find the architecture is more robust to noise than the nnRNN. Second, each eigenvalue of the complex-valued recurrent weight matrix is not necessarily conjugate to another in contrast with real-valued one. We demonstrate this is a characteristics that helps the mcnnRN work better than the nnRNN.
회귀 신경망 (RNN) 은 서열 데이터를 다루도록 고안된 심층망 모형이다. 회귀 신경망에 서열 데이터의 장기 의존성을 학습시키는 것은 어려운 문제이다.
특히 경도의 소실 및 폭발 문제는 오랫동안 장기 의존성 학습의 주요 난관이었다. 유니터리 회귀 가중치 행렬은 절대값이 1인 고유값들만을 가지기 때문에, 직교 회귀 신경망과 유니터리 회귀 신경망이 그 문제들을 해결할 수 있음을 보인 연구들이 지난 몇 년 동안 발표되었다.
이어서, 회귀 가중치 행렬을 슈어 분해를 이용하여 모수화한 비정규 회귀 신경망 (nnRNN) 이 제안되었다. 이 모수화는 회귀 신경망에서 더욱 다양한 동역학적 궤적이 나타나도록 해준다. 또한, 직교 회귀 신경망과 유니터리 회귀 신경망처럼 회귀 행렬에서 고유값들의 절대값을 1 로 설정하는 것을 쉽게끔 해주어, 경도의 소실 및 폭발 문제를 해결할 수 있다.
본 연구에서는 nnRNN을 기억 뉴런으로 구성된 복소 비정규 회귀 신경망 (mcnnRNN) 으로 확장한다. 은닉 상태와 모수들을 복소수로 설정하고, 기억 뉴런을 기존의 기억 뉴런인 누수 적분기와는 다른 새로운 방법으로 추가한다. 이 모형을 시험하기 위해, 긴 입력 서열을 사용하는 몇 가지 학습 과제를 mcnnRNN이 수행하도록 한다. mcnnRNN 은 nnRNN 과 LSTM 모형보다 더 나은 성능을 보인다. 실험 결과들은 본 연구에서 제안한 방법이 장기 의존성 학습 능력을 향상하는 데 효과적임을 시사한다.
mcnnRNN 의 다른 특성들도 살펴본다. 첫째, 이 모형이 nnRNN 보다 잡음에 강하다는 것을 보인다. 둘째, 복소 회귀 행렬은 실수 회귀 행렬과는 달리 각 고유값이 반드시 다른 고유값의 켤레 복소수는 아닌데, 이것은mcnnRNN 이 nnRNN 보다 더 나은 결과를 나타내는 데 도움이 됨을 보인다.
Language
eng
URI
https://hdl.handle.net/10371/176136

https://dcollection.snu.ac.kr/common/orgView/000000164978
Files in This Item:
Appears in Collections:
College of Natural Sciences (자연과학대학)Program in Brain Science (협동과정-뇌과학전공)Theses (Ph.D. / Sc.D._협동과정-뇌과학전공)
  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse