Publications

Detailed Information

Effects of Duplicated Data in Language Modeling : 데이터 중복이 언어 모델에 미치는 영향
Effects of Data Duplication in Pretraining

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

강다연

Advisor
이재진
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
DuplicationLanguage ModelingMinhashLSHSelf-supervised learningTransfer learning
Description
학위논문(석사) -- 서울대학교대학원 : 데이터사이언스대학원 데이터사이언스학과, 2023. 2. 이재진.
Abstract
This paper studies the effect of deduplication in training data on language models, such as BERT (the encoder-based model) and GPT-2 (the decoder-based model). Previous studies focus on memorizing duplicates in the training dataset whereas we perform several experiments with data deduplication. The pretraining data is first clustered by MinhashLSH, a stochastic method for finding near-duplicate documents in large corpus data, and then deduplicated by Jaccard similarity with various threshold values. Then, the models are finetuned with different downstream tasks. The experimental result indicates that GPT-2 works better with the deduplication, whereas BERT works differently depending on the tasks. It is due to the difference in self-supervised learning methods between BERT and GPT-2. The duplicated data may work on BERT as data augmentation through random masking in its data preprocessing stage. Data duplication may introduce biases and lead to overfitting, but the effect depends on the amount of duplicated data. To improve performance, data deduplication with proper granularity is essential in language model training.
이 연구는 BERT(인코더 기반 모델) 및 GPT-2(디코더 기반 모델)와 같은 언어 모델에 대한 훈련 데이터의 중복 제거 효과를 제시하는 데 목적이 있다. 기존 연구에서는 생성 모델에 한하여 중복 제거의 이점을 밝혔으며, 모델이 암기된 텍스트를 덜 생성하고 모델의 훈련 단계가 더 적게 필요하다는 것을 발견하였다. 이에 덧붙여 현 연구에서는 데이터 중복 제거에 대해 몇 가지 추가적인 실험을 수행한다. 사전 학습 데이터는 우선 MinhashLSH(대규모 말뭉치 데이터에서 유사한 문서를 찾기 위한 확률론적 방법)로 클러스터링 한 다음, 다양한 임계값의 Jaccard 유사성으로 중복 document를 제거하는 전처리 과정을 거친다. 구성된 데이터셋을 기반으로 사전 학습을 진행하고, 이후 다양한 downstream 작업에 finetuning한다. GPT-2는 중복 제거된 모델에서 더 높은 성능을 내는 반면, BERT는 downstream 작업에 따라 다른 성능을 보인다. 이는 BERT와 GPT-2의 self-supervised learning 방식의 차이 때문이다. BERT에서는 데이터 전처리 단계에서 랜덤 마스킹 방식을 통해 중복된 데이터가 오히려 데이터 augmentation으로 작용할 수 있다. 그렇지만 결과적으로 데이터 중복은 편향을 도입하고 과적합으로 이어질 수 있으며, 그 효과는 중복 데이터의 양에 따라 다를 수 있다. 따라서 성능을 향상시키기 위해선 언어 모델 훈련에서 적절한 임계값의 데이터 중복 제거가 필수적이다.
Language
eng
URI
https://hdl.handle.net/10371/193607

https://dcollection.snu.ac.kr/common/orgView/000000174105
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share