Publications

Detailed Information

Reducing the Cost of Training a Transformer Model by Using a Trained Model : 이미 학습된 모델의 활용을 통한 새로운 트랜스포머 모델의 학습 비용 감소

DC Field Value Language
dc.contributor.advisor이재진-
dc.contributor.authorHan, Minhee-
dc.date.accessioned2022-12-29T07:45:22Z-
dc.date.available2022-12-29T07:45:22Z-
dc.date.issued2022-
dc.identifier.other000000172391-
dc.identifier.urihttps://hdl.handle.net/10371/187785-
dc.identifier.urihttps://dcollection.snu.ac.kr/common/orgView/000000172391ko_KR
dc.description학위논문(석사) -- 서울대학교대학원 : 공과대학 컴퓨터공학부, 2022. 8. 이재진.-
dc.description.abstractThe cost of training a new language model is higher than ever, and it continues to increase. To mitigate the issue, this paper proposes reusing a trained model to reduce the cost of training a larger model. By using the methods used in Knowledge Distillation(KD), the knowledge of the present trained model can be transferred to the new model, even when the new model is larger than the trained model. This is done by 1) copying the weights and 2) logits matching. The former can be used for models of the same dimensions while the second can be used regardless of the dimensions, though it requires more computations than the former. In the experiments with the GPT-like models, it is shown that reusing a relatively small trained model reduced the training time of a relatively larger model.-
dc.description.abstract새로운 자연어 처리 모델을 학습하는 비용은 어느 때보다도 높으며, 계속해서 증가하고 있다 이런 문제를 해결하기 위해 이 논문은 이미 학습된 모델을 재활용하여 더 큰 모델을 학습하는 비용을 줄이는 방안을 제시한다. 지식 증류(Knowledge Distillation)의 기법들을 이용해 이미 학습된 모델의 지식을 새로운 모델로 이전하는 것이 가능한데 이것은 심지어 새로운 모델이 학습된 모델보다 더 큰 경우에도 그러하다. 이는 1)그 가중치(weight)를 복사하는 것과 2)두 모델의 로짓(logits)을 같게 만드는 두 가지 방법으로 가능하다. 전자는 두 모델의 차원(dimension)이 동일한 경우에만 사용 가능하지만 후자는 그렇지 않은 경우에도 사용할 수 있다. GPT2와 비슷한 모델을 이용한 실험에서 두 가지 방법은 학습 시간을 각각 3.5%, 18.9% 단축하였다 이를 통해 비교적 작은 학습된 모델을 재사용해 큰 모델의 학습 시간을 단축할 수 있음을 보였다.-
dc.description.tableofcontentsChapter 1. Introduction p. 1
Chapter 2. Design and Implementation p. 3
Chapter 3. Experiments p. 7
Chapter 4. Conclusion p. 13
-
dc.format.extentii, 16-
dc.language.isokor-
dc.publisher서울대학교 대학원-
dc.subject딥러닝-
dc.subject자연어처리-
dc.subject지식증류-
dc.subject트랜스포머모델-
dc.subject모델학습-
dc.subject.ddc621.39-
dc.titleReducing the Cost of Training a Transformer Model by Using a Trained Model-
dc.title.alternative이미 학습된 모델의 활용을 통한 새로운 트랜스포머 모델의 학습 비용 감소-
dc.typeThesis-
dc.typeDissertation-
dc.contributor.AlternativeAuthor한민희-
dc.contributor.department공과대학 컴퓨터공학부-
dc.description.degree석사-
dc.date.awarded2022-08-
dc.identifier.uciI804:11032-000000172391-
dc.identifier.holdings000000000048▲000000000055▲000000172391▲-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share