Publications

Detailed Information

Integrating Neologisms to Pretrained Language Models: Using Assimilation-Inspired Embedding Synthesis : 사전 훈련된 언어 모델에 신조어 통합: 동화에서 영감을 받은 임베딩 합성을 활용하여

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

정소영

Advisor
전병곤
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
Pretrained Language ModelTemporal AdaptationNeologism
Description
학위논문(석사) -- 서울대학교대학원 : 공과대학 컴퓨터공학부, 2023. 8. 전병곤.
Abstract
Recent research has shown that pretrained language models (PLMs) can become
outdated over time and need adaptation to new words or concepts. While
efficient approaches to adapt PLMs to new vocabularies have been studied in
the fields of domain or cross-lingual adaptation, these methods have yet to be
explored in a setting where vocabulary updates should occur timely, periodically,
and on a small scale (adding 1s and 10s of new words with 1MB training
data). Unfortunately, such methods either exhibit unsatisfactory performance
or result in overfitting to the new vocabularies. Existing works in model editing
of PLMs have also been tested to be ineffective for injecting unseen entities
into PLMs. Our paper proposes a tailored method — W-SUM — for adapting
PLMs to new vocabularies (i.e., neologisms) by mimicking how humans process
their internal knowledge when encountering a new word or concept. Inspired
by assimilation in Piagets cognitive development theory, W-SUM leverages the
rich knowledge inherent in embedding existing tokens of PLMs to find the optimal
embedding of a new vocabulary through a weighted sum of existing token
embeddings. We let the PLM find the optimal weight distribution via language
modeling objective. We evaluate W-SUM on two language model probing tasks
– ECBD and LAMBADA and validate W-SUM s ability to acquire a good
embedding for new vocabularies through semantic analysis.
사전 훈련된 언어 모델(PLM)은 시간이 지남에 따라 새로운 데이터에 대한 성능이
낮아질 수 있으므로 새로운 단어나 개념에 대해 PLM을 적응시킬 필요성이 대두되
었다. PLM을 새로운 어휘에 적응시키는 효율적인 접근 방식이 도메인 또는 교차
언어 적응 분야에서 연구되었지만, 이러한 방법은 어휘 업데이트가 적시에, 주기
적으로, 소규모 (1MB가량의 학습 데이터로 1-10개의 새 단어 추가)로 발생해야
하는 설정에서는 아직 실험된 적이 없다. 위와 같은 방법들은 새로운 세팅에서 만
족스럽지 못한 성능을 나타내거나 새로운 어휘에 과적합되는 결과를 낳는 경향을
보였다. 더 나아가, 기존의 PLM의 모델 편집 테크닉 또한 사전 학습 도중에 보지
못한 정보를 PLM에 주입하는 데에는 효과적이지 못한 것으로 알려져있다. 따라
서 본 논문에서는, 인간이 새로운 단어나 개념을 접할 때 내부 지식을 처리하는
방식을 모방하여 PLM을 새로운 어휘(즉, 신조어)에 적응시키기 위한 맞춤형 방법
W-SUM 을 제안한다. Piaget의 인지 발달 이론에서 동화에 영감을 받아, W-SUM
는 기존 토큰 임베딩의 가중 합계를 통해 새로운 어휘의 최적 임베딩을 찾고, 이 과
정에서 PLM의 기존 토큰 임베딩에 내재된 풍부한 지식을 활용하도록 한다. 가중
합계를 위한 가중치는 PLM이 추가적인 사전학습을 통해서 찾도록 했다. ECBD
와 LAMBADA라는 두 가지 언어 모델 조사 태스크에서 W-SUM 를 평가하고 임
베딩 비교 분석을 통해 W-SUM 이 새로운 어휘에 대한 좋은 임베딩을 획득하는데
효과적이라는 것을 보인다.
Language
eng
URI
https://hdl.handle.net/10371/196497

https://dcollection.snu.ac.kr/common/orgView/000000178855
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share