Publications

Detailed Information

인공지능 공정성 심사 기준에 관한 연구 : Assessing Fairness in Artificial Intelligence: Contextual Justification for Normative Criteria

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

김병필

Advisor
박상철
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
인공지능 공정성인공지능 차별공정성 지표알고리즘 공정성불가능성 정리
Description
학위논문(박사) -- 서울대학교대학원 : 법과대학 법학과, 2023. 8. 박상철.
Abstract
The utilization of artificial intelligence (AI) is significantly increasing. Cognitive models have begun to perform tasks such as image, voice, and text recognition - tasks previously considered difficult to implement with traditional computers - at a human level. Discriminative models are widely used to assist or automate human decision-making processes. Through generative models, humans are now able to communicate naturally with AI, and AI can create artistic works. Alongside the increase in these applications, there is growing concern about the risk of AI models reproducing existing societal biases embedded in training data, leading to discriminatory impacts.
One of the major approaches to mitigating such risks involves conducting fairness audits on AI systems. Fairness auditing is considered a crucial regulatory mechanism for ensuring AI fairness in compliance with anti-discrimination laws, personal data protection laws, and AI regulatory laws. Consequently, there is a pressing need to establish standards that precisely define the concept of fairness, and to develop methodologies to assess whether the AI under audit meets these standards. To this end, researchers have proposed various operational definitions for fairness metrics to be employed in audits. However, with the demonstration of the impossibility theorem, which states that several fairness standards cannot be simultaneously satisfied – especially for classification models – the issue of selecting appropriate fairness criteria for audits has become increasingly complex. This study investigates which fairness criteria can be normatively justified within the specific context of AI use cases, considering classification and generative models separately.
In the case of classification models, audits typically focus on whether the models predictions result in disparate treatment or impacts for socially marginalized groups that have historically faced discrimination. However, applying legal standards developed for anti-discrimination laws to AI-driven discrimination poses several challenges. Additionally, technically defined fairness metrics seem to conflict with existing anti-discrimination laws. To overcome these challenges, this study adopts a novel approach using simulations. Hypothetical discriminatory training data was generated across various scenarios to train a classification model. Following this, the ways in which the model violates certain fairness criteria were investigated, thereby deriving suitable fairness criteria for each scenario. The simulation results suggest that, while it is valid to consider parity of false positive and negative rates as primary evaluation indicators for cognitive models, parity of positive and negative predictive values (often referred to as 'calibration') is a suitable fairness criterion for discriminative models. Furthermore, this study points out the limitations of previously suggested fairness metrics and proposes new directions for alternative fairness audits.
On the other hand, fairness audits for generative models present different characteristics compared to those for classification models. While classification models, which typically assist or automate the decision-making process, could potentially lead to allocative harms, generative models pose the risk of causing representative harms. These harms are cultural and pervasive across society, rather than influencing specific decisions. Furthermore, representative harms can trigger various problems, such as the propagation and reinforcement of social bias and stereotypes, as well as the creation and dissemination of harmful expressions. In such cases, it becomes challenging to identify victims or quantify damages, thus complicating regulation via traditional legal remedies and posing difficulties for regulation within existing administrative systems. As a result, an ex ante self-audit by the providers of generative models is considered inevitable. In this regard, this study reviews concrete metrics and evaluation methods for fairness audits of generative models, categorizing them according to dimensions of bias, fairness in a narrow sense, and toxicity. Furthermore, it underscores the need to establish benchmark data and evaluation metrics capable of assessing the multifaceted legal and ethical risks posed by large-scale language models and image generation models, in order to effectively regulate the legal and ethical risks that generative models can instigate.
인공지능의 활용 사례가 크게 증가하고 있다. 인지모형 인공지능은 종래 컴퓨터로 구현하기 어려운 것으로 여겨져 왔던 이미지, 음성, 텍스트 인식 작업을 인간 수준으로 수행해 내기 시작했다. 판별모형 인공지능은 인간의 의사결정을 보조하거나 의사결정을 자동화하는 데 널리 활용되고 있다. 나아가 생성모형 인공지능을 통해 인간이 인공지능과 자연스럽게 소통하거나 인공지능이 예술적 창작물을 생성해 낼 수 있게 되었다. 이러한 활용 사례의 증가와 함께 인공지능 모형이 학습 데이터에 반영된 기존 사회적 편향을 반영하여 차별적 영향을 초래할 위험에 대한 우려도 점차 커지고 있다.
이러한 법적, 윤리적 위험을 막기 위한 주요한 방안으로 인공지능 공정성 감사가 주요하게 고려되고 있다. 공정성 감사는 차별금지법제, 개인정보 보호법제, 인공지능 규제 법제 등에 있어 인공지능에 대한 주요한 규제 수단으로 여겨지고 있다. 이를 위해서는 공정성의 개념을 수학적으로 정의한 통계적 기준을 설정하고, 감사 대상 인공지능이 해당 기준을 만족하는지 평가하는 방법론이 마련될 필요가 있다. 이에 인공지능 공정성 연구자들은 감사에 활용할 수 있는 다양한 공정성 지표를 조작적으로 정의하는 방안을 제시해 왔다. 그러나, 특히 분류모형에 관한 여러 공정성 지표를 동시에 충족시킬 수 없다는 불가능성 정리가 증명되면서, 공정성 감사를 위한 공정성 지표의 선택 문제가 중요하게 부상하고 있다. 이에, 본 연구는 분류모형과 생성모형을 구분하여, 인공지능의 특정한 이용 사례의 구체적 맥락(context) 하에서 어떠한 공정성 지표를 선택하는 것이 규범적으로 정당화될 수 있을지 모색한다.
우선, 분류모형에 대한 공정성 심사는 그 모형의 예측 결과가 역사적으로 차별받아 온 사회적 집단에 대해 차별적 처우를 하거나 차별적 결과를 초래하는지에 관한 판단에 초점을 둔다. 그런데 이제껏 발전해 온 차별심사에 관한 법적 판단 기준은 인공지능에 의한 차별 심사에 활용하는 데 있어 여러 어려움을 초래하고 있고, 기술적으로 정의된 공정성 지표는 기존의 법 체계와 조화되지 못하는 문제가 발생하고 있다. 이러한 난점을 해소하기 위해 본 연구는 분류모형에 대해 시뮬레이션을 활용하는 새로운 방법론을 적용한다. 즉, 다양한 시나리오에 걸쳐 가상의 차별적 학습 데이터를 생성하여 분류모형을 학습시킨 다음, 해당 모형이 어떠한 공정성 심사기준을 어떠한 방식으로 위반하는지 조사함으로써, 해당 시나리오에 적합한 공정성 기준을 도출한다. 본 연구의 시뮬레이션 결과는 인지모형 인공지능의 경우 위양성율과 위음성율의 동등성을 일차적 평가 지표로 고려하는 것이 타당하지만, 판별모형 인공지능의 경우 양성 예측도와 음성 예측도의 동등성(즉, 이른바 캘리브레이션)이 일응 적합한 공정성 지표일 수 있다는 점을 시사한다. 나아가, 본 연구는 이제까지 진행되어 온 공정성 지표에 관한 논의의 한계를 지적하고, 대안적 공정성 심사의 방향을 제시한다.
다른 한편, 생성모형 인공지능에 대한 공정성 심사는 분류모형과는 다른 양상을 띤다. 분류모형은 의사결정의 보조 또는 자동화 등에 활용되어 분배적 위해를 초래할 가능성이 있는 것에 비해, 생성모형의 산출물은 특정 의사결정에 영향을 끼치는 것이 아니라 사회 전반에 걸쳐 문화적이고 확산적인 표상적 위해를 초래할 위험이 있기 때문이다. 더욱이 표상적 위해는 사회적 편향과 고정관념의 확산 및 강화, 유독한 표현의 생성과 유포 등 다양한 차원의 문제를 야기할 수 있는데, 이러한 경우 그 피해자 특정이나 손해 산정이 어려우므로 전통적 사적 구제수단을 활용하여 통제되기 어렵고, 기존의 행정규제 체계 내에서 규율하기에 어려운 문제가 있다. 그러므로 생성모형에 대해서는 그 개발자 또는 이용자에 의한 사전적 자기 감사가 중요하게 요구되고 있다. 이에 본 연구는 생성모형에 대한 공정성 심사를 위한 구체적 지표와 평가 방법을 편향, 협의의 공정성, 유독성의 차원으로 구분하여 검토한다. 나아가 생성모형이 초래할 수 있는 법적, 윤리적 위험성에 대한 적절한 법적 규율을 위해서는 국내에서 활용되는 대규모 언어모형 및 이미지 생성모형 등에 대한 법적, 윤리적 위험성을 다면적으로 평가할 수 있는 벤치마크 데이터 및 평가 지표가 마련될 필요가 있음을 지적한다.
Language
kor
URI
https://hdl.handle.net/10371/196770

https://dcollection.snu.ac.kr/common/orgView/000000178040
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share