Publications

Detailed Information

Responsible AI for Foundation Models : 기반 모델을 위한 신뢰 가능한 인공지능

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

김시원

Advisor
윤성로
Issue Date
2024
Publisher
서울대학교 대학원
Keywords
Artificial IntelligenceResponsible AIFoundation models
Description
학위논문(박사) -- 서울대학교 대학원 : 공과대학 전기·정보공학부, 2024. 8. 윤성로.
Abstract
With the advancement of large foundation models and generative models utilizing them, artificial intelligence is being used in various fields of real life. However, concerns about the risks of artificial intelligence are also increasing. This paper analyzes the limitations of large foundation models from four perspectives: explainability, fairness, privacy, and safety, and proposes trustworthy AI methodologies to address these issues. In particular, responsible AI approaches presented in this paper achieve reliability efficiently, particularly because they do not require additional training of the model weights. Regarding explainability, the paper introduces an input marginalization to improve the stability of perturbation-based explanation techniques for natural language pro- cessing models. This method allows for more reliable explanations by significantly improving the importance scores assigned to words that do not significantly impact the meaning of a sentence, such as articles or punctuation marks. In terms of fairness, the introduced paper demonstrates that text-to-image (T2I) generation models, which have recently achieved remarkable performance, generate demographically biased images for specific texts. This paper then discovers intrinsic fairness in Stable Diffusion through a novel mode test and exploring text conditioning. To unlock the discovered fairness, a novel method is proposed that utilizes weak text condition embedding. This approach successfully achieve improved fairness without any additional training while preserving the core functionality of T2I models. Concerning privacy, the included paper presents a privacy leak detection tool called ProPILE, which shows that large language models (LLMs) memorize personal information included in the training data to a worrying extent and that it is possible to leak this information through specific prompts. By utilizing the internal weights of the model to find optimal prompts, this leakage can become more severe. ProPILE enables AI service users to detect and proactively respond to privacy leak risks. Lastly, in terms of safety, GrounDial is introduced, which steers potentially prob- lematic responses generated by chatbot systems based on LLMs to align with social norms. This method significantly enhances the safety of chatbot responses by retrieving social rules that the users input violates and effectively incorporating them into the responses through in-context learning and decoding. keywords: Deep learning, Responsible AI, Explainability, Fairness, Privacy, Safety, Foundation models, Generative models, Large language models, Text-to-image generation student number: 2018-20653
초거대 기초 모델과 그를 이용한 생성 모델의 발전으로 실생활의 다양한 분야에 인공지능이 사용되고 있다. 하지만 그와 함께 인공지능의 위험성에 대한 우려 역시 증가하고 있는 상황이다. 본 논문은 초거대 기초 모델 (large foundation model)의 한계를 설명가능성 (explainability), 공정성 (fairness), 개인정보 (privacy), 그리고 안전성 (safety)의 네 가지 측면에서 분석하고, 이를 개선할 수 있는 신뢰 가능한 인공지능 방법론들을 제시한다.

설명가능성 관련하여, 자연어 처리 모델에 대한 perturbation 기반 설명 기법의 안정성을 개선하는 input marginalization 방법론을 소개한다. 해당 방법론은 관사나 문장 부호 같이 문장의 의미에 중요한 영향을 주지 않는 단어에 대해 부여되던 중요도 점수를 획기적으로 개선함으로써 보다 신뢰 가능한 설명을 가능하게 했다.

공정성 관련하여, 최근 눈부신 성능 발전을 이룬 텍스트-이미지 생성 모델 (text-to-image, TTI)이 특정 텍스트에 대해 인구학적으로 편향된 이미지를 생성함을 보이고, 이를 개선하기 위한 prefix tuning 기반의 방법론을 소개한다. 제안된 방법론을 통해 추가적인 모델 학습 없이 효율적으로 성별, 인종에 대해 균형된 이미지를 생성할 수 있음을 보임으로서 TTI 모델의 공정성을 향상시켰다.

개인정보 관련하여, 초거대 언어 모델이 학습 데이터에 포함된 개인정보를 우려할 수준으로 기억(memorization)하고 있으며, 특정 프롬프트를 통해 이를 유출시키는 것이 가능하고, 모델 내부 가중치를 활용하여 최적의 프롬프트를 찾으면 이 유출이 더 심각해질 수 있음을 보이는 ProPILE이라는 개인정보 유출 탐지 툴을 제시한다. 해당 툴을 통해 인공지능 서비스 사용자가 개인정보 유출 위험을 스스로 탐지하고 선제적으로 대응할 수 있게 된다.

마지막으로 안전성 관련하여, 초거대 언어모델 기반의 챗봇이 문제의 소지가 있는 사용자의 발화에 대해 생성하는 문제의 여지가 있는 응답을 사회적 규칙에 맞게 steer하는 GrounDial 방법론을 소개한다. 해당 방법론은 사용자의 입력이 위반하는 사회적 규칙을 retrieval하고 이를 in-context learning과 decoding의 두 가지 방식을 통해 응답에 효과적으로 녹여냄으로서 챗봇 답변의 안전성을 크게 향상시켰다.

본 논문에서 제시하는 신뢰 가능한 인공지능을 위한 방법론들은 특히 모델의 가중치를 추가학습할 필요가 없다는 점에서 효율적으로 신뢰성을 달성한다.
Language
eng
URI
https://hdl.handle.net/10371/215583

https://dcollection.snu.ac.kr/common/orgView/000000184497
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share