개인정보 위험기반 비식별 조치와 가명처리 : Risk-based De-identification and Pseudonymisation

서울대학교 대학원
비식별조치가명처리익명처리재식별화종단 데이터합성 데이터de-identificationanonymisationpseudonymisationre-identificationlongitudinal datasynthetic data
학위논문 (석사) -- 서울대학교 대학원 : 법과대학 법학과, 2021. 2. 고학수.
De-identification is useful in both utilizing and protecting personal information. A risk-based approach in de-identification evaluates the risk of re-identification through systematic and formalized process and applies technical measures proportional to that risk. Such methodology aims to balance between data utility and privacy protection.
The legal definition of personal data in the GDPR shows that determining the scope of personal data is a dynamic task. The de-identification methodologies envisaged under the GDPR can be categorized as (i) anonymisation, (ii) strong pseudonymisation and (iii) basic pseudonymisation. The GDPR provides different incentives to each methodology. Such analysis of the GDPR sheds lights on the interpretation of the Korean Personal Information Protection Act of 2020. The anonymisation is a process to ensure that the risk of re-identification becomes remote and it is mainly concerned about disclosing data to the public. The strong pseudonymisation is more relaxed process, through which the controller cannot readily identify the data subject. Such measure is mainly considered when personal information shared with a third party such as researchers for scientific research purpose. The most relaxed measure is the basic peudonymisation. This is a process to remove or replace only direct identifers, through which the level of privacy protection can be increased.
This paper examines the problem of longitudinal data as an example of the practical difficulties in applying de-identification measures. As longitudinal data contain substantial amount of information about the data subject, it is often very difficult to apply traditional techniques such as k-anonymity. Yet structured methodologies for de-identification have not yet been well developed. This is also the case in the guidelines for de-identification techniques in Korea. Therefore, for longitudinal data, alternative methods such as synthetic data need to be considered.
비식별 조치는 개인정보의 활용과 정보주체 보호를 위해 유용하게 활용될 수 있다. 개인정보처리자는 과학적 연구 활동을 위해서 또는 개인정보를 통계분석하여 그 결과를 통해 의사결정을 보조하기 위한 목적으로 개인정보를 비식별화하여 활용할 수 있고, 나아가 정보주체에 대한 보호를 더욱 강화하기 위해서도 비식별 조치를 활용할 수 있다. 다만, 적정한 개인정보 비식별화를 위해서는 체계적이고 정식화된 절차에 따라 재식별 위험성을 평가하고, 위험성에 비례한 조치를 취할 필요가 있다. 위험기반 비식별 방법론은 위 과정을 통해 데이터 유용성과 개인정보 보호 수준 간의 형량을 하고, 이를 통해 최적의 골디락스(Goldilocks) 지점을 찾는 것을 목적으로 한다.

한편, GDPR의 개인정보 개념에 관한 법적 논쟁을 살펴보면, 어떤 정보가 개인정보인지 여부를 판단하는 것은 역동적인 작업임을 알 수 있다. GDPR은 개인정보의 개념 판단에 있어 상대적·주관적 접근을 취한 것으로 해석될 수 있으며, 이는 GDPR 전반에 걸친 위험기반 접근법에 부합하는 것이다. 한편 GDPR에 도입된 가명처리의 개념은 약한 가명처리와 강한 가명처리로 구분할 수 있으며, 양자에 부여되는 인센티브는 차이가 있다. 특히 강한 가명처리가 이루어진 경우 정보주체의 권리에 대한 예외가 인정될 수 있음에 비해, 약한 가명처리만이 이루어진 경우에는 이러한 예외가 적용되기 어렵다.

위와 같은 GDPR의 규정은 우리 개인정보 보호법이 도입한 가명처리와 익명처리의 해석에 있어 시사점을 준다. 이에 따라 본 연구에서는 비식별조치를 익명처리, 강한 가명처리, 약한 가명처리로 구분하였다. 이를 간략히 요약하면, ① 익명처리는 개인식별 가능성이 희박(remote)해지도록 개인정보를 변형하는 것으로, 주로 데이터를 공중에 공개하거나 재식별 공격에 노출될 우려가 있는 상황을 염두에 둔 조치이다. ② 그보다 완화된 조치는 강한 가명처리이다. 강한 가명처리는 해당 정보를 처리하는 자가 체계적이고 확실한 수단에 의해 정보주체를 재식별해 낼 수 없도록 만드는 것으로서, 이는 주로 개인정보를 동의받은 목적 이외의 범위에서 이용하거나, 연구자 등 제3자에게 제공하는 상황을 염두에 둔 조치이다. ③ 약한 가명처리는 개인식별정보를 삭제하거나 암호화하는 방식으로 이루어지는 것으로서, 개인정보처리자가 개인정보 보호 수준을 높이기 위해 채택할 수 있는 조치이다.

본 연구는 비식별 조치의 실무 적용상 어려움을 보여주는 예시로서 종단 데이터의 문제를 검토한다. 종단 데이터에는 정보주체에 관한 많은 정보가 포함되어 있어, k-익명성과 같이 전통적 비식별화 기법을 적용하기 어렵다는 문제가 있다. 더욱이 아직 국제적으로도 체계화된 비식별 조치 방법론이 충분히 개발되어 있지 못한 실정이다. 이러한 점은 국내 비식별 조치 가이드라인에서도 마찬가지로 드러난다. 따라서 종단 데이터에 대해서는 기존 비식별 조치 이외의 대안적 방법, 예컨대 합성 데이터 기법 등이 고려될 필요가 있다.
