Publications

Detailed Information

Data Augmentation, Stabilization and Negative Sample Generation Methods for Improving Sentence Embeddings of SimCSE : SimCSE 문장 임베딩 개선을 위한 데이터 증강, 안정화, 부정적 예제 생성 방법

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

박진우

Advisor
이원종
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
Sentence embeddingConstrastive learningSimCSE
Description
학위논문(석사) -- 서울대학교대학원 : 공과대학 협동과정 인공지능전공, 2023. 8. 이원종.
Abstract
The contrastive sentence embeddings apply contrastive learning framework to the sentence embedding field, which summarize natural language into fixed-size vectors. The most influential study in this field is SimCSE. It achieved significant performance improvements by simply using dropout and has subsequently inspired numerous follow-up studies.
Through this manuscript, we summarize key existing studies in the field of sentence embedding leading up to SimCSE and test several methods to enhance SimCSE from three main perspectives. We experiment with different data augmentation techniques to generate positive pairs, apply stabilization techniques to reduce variability of SimCSE, and aim to increase performance by generating additional negative samples in addition to in-batch negatives.
As the result, we found that Gaussian noise injection to the input embedding, weight perturbation alone, FGSM(fast gradient sign method) combined weight perturbation, and Gaussian noise sampling as additional negative samples, can improve the performance of SimCSE. Data augmentations on encoder output are turned out to be not helpful in our experiments and gain of augmentation on input embedding and stabilization techniques are not so significant. But Gaussian noise sampling for negative sample generation demonstrated that without increasing computational complexity, simple noise can enhance performance comparable to more actual sentences.
대조적 문장 임베딩(Contrastive sentence embeddings)은 자연어를 고정된 크기의 벡터로 요약하는 문장 임베딩 분야에 자기 지도학습(Self-Supervised Learning)의 대표적 학습방법인 대조적 학습(Contrastive Learning)을 적용한 것이다. 이 분야에서 가장 영향력 있는 연구로 SimCSE를 들 수 있다. 해당 연구는 단순한 dropout 기법만을 사용하고도 상당한 성능 개선을 이루어 냈기 때문에 수많은 후속 연구들을 이끌었다.
이 연구를 통해, 우리는 이 분야에서 SimCSE에 이르기까지 주요한 기존 연구들을 개괄하고 3가지 관점에서 SimCSE의 성능을 개선하기 위한 여러 실험들을 진행하였다. positive pair를 만들기 위해 여러 데이터 증강(data augmentation) 기법들을 적용했고, 변동성을 감소시키기 위해 안정화 기법들을 도입했으며, 배치 내의 다른 문장들을 negative sample로 사용하는 것 외에도 추가적인 negative sample을 생성하여 함께 사용하였다.
결과적으로, 우리는 입력 임베딩 단에 가우시안 노이즈를 주입하는 데이터 증강 방법, FGSM(fast gradient sign method)와 Weight perturbation기법을 조합한 안정화 방법, 그리고 다른 배치 내 문장들과 유사한 스케일의 가우시안 노이즈를 추가적인 negative sample로 사용했을 때 성능 향상 효과가 있음을 발견하였다. 인코더 출력에 대한 데이터 증강은 그다지 도움이 되지 않는 것으로 나타났으며, 입력 임베딩 증강이나 안정화 기법들은 대체로 영향이 크지 않았다. 반면 추가적인 negative sample 생성에서는 연산 복잡도 증가 없이 단순한 노이즈만으로도 실제 자연어 문장을 추가로 negative sample로 사용할 때만큼 성능 개선 효과가 큰 것을 보였다.
Language
eng
URI
https://hdl.handle.net/10371/196565

https://dcollection.snu.ac.kr/common/orgView/000000179025
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share