Publications

Detailed Information

맥락적 프롬프팅 모델과 자동화된 데이터 생성 파이프라인을 통한 언어 모델의 혐오 표현 방지 : Contextual Prompting Model and Automated Data Generation Pipeline to Prevent Hate Speech in Language Model

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

이준범

Advisor
신효필
Issue Date
2022
Publisher
서울대학교 대학원
Keywords
혐오 표현, 편향성, Causal 언어 모델, Masked 언어 모델, 독성문장생성, 프롬프트
Description
학위논문(석사) -- 서울대학교대학원 : 데이터사이언스대학원 데이터사이언스학과, 2022.2. 신효필.
Abstract
Development of a large-scale language model through transfer learning and pretraining has enabled the generation of higher level natural language sentences. However, learning a large language model requires a large amount of text data. Since the data used for learning is mainly collected on the web, a high quality level cannot be guaranteed, and in some cases, abusive language and hate expressions are included. Models learned from these data can also generate various hate expressions.

On the other hand, in the case of super-large language models, instead of disclosing the model, access is sometimes allowed only to the results of sentence generation for input values such as API, making it more difficult to learn and use language models.

In this study, we propose a new method of reducing bias or hate expressions generated by existing language models when the parameters of the language model are inaccessible as above through the implementation of a masked language model which dynamically generates templates according to user input without adjusting the parameters of the language model.


After applying representative Korean language models, the overall generation rate of toxic sentences from input sentences of various domains decreased, and the generation rate of some toxic sentences from input sentences of not-seen domain decreased slightly.
전이학습과 사전학습을 통한 대규모 크기의 언어 모델의 발전에 따라 높은 수준의 자연어 문장 생성이 가능해졌다. 그러나, 대형 언어 모델 학습에는 다량의 텍스트 데이터가 필요하다. 학습에 사용하는 데이터는 주로 웹상에서 수집하기 때문에 높은 수준의 질을 보장할 수 없으며, 일부의 경우 욕설을 비롯해 혐오 표현을 포함하고 있기도 하다. 이러한 데이터로 학습한 모델 역시 다양한 혐오 표현을 생성할 수 있다.
한편, 초대형 언어 모델의 경우 모델을 공개하는 대신 API와 같이, 입력값에 대한 문장 생성의 결과에만 접근을 허용하는 경우가 있어, 언어 모델을 추가로 학습 시켜 사용하는 것이 어려운 경우가 많아지고 있다.
이 연구에서는 위와 같이 언어 모델의 파라미터에 접근이 불가능한 상황일 때 언어 모델의 파라미터를 조절하지 않으면서 사용자의 입력에 따라 동적으로 템플릿을 생성하는 Masked 언어 모델을 통해, 기존의 언어 모델에서 생성하는 편향적 혹은 혐오 표현을 줄이는 새로운 방법을 제안한다.
한국어의 대표적인 언어 모델들을 통해 학습과 평가를 진행한 결과, 여러 도메인의 입력 문장에서 전반적인 독성 문장 생성 비율이 감소하였으며, 학습 도메인 외의 입력 문장에 대해서도 일부 독성 문장 생성 비율이 소폭 감소함을 보였다.
Language
kor
URI
https://hdl.handle.net/10371/182887

https://dcollection.snu.ac.kr/common/orgView/000000169245
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share