Publications

Detailed Information

De-identification of clinical notes with pseudo labeling using regular expression rules and KoBERT-NER : 정규표현식을 이용한 pseudo-labeling 및 KoBERT-NER을 활용한 의료노트 비식별화

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

김지윤

Advisor
이승근
Issue Date
2022
Publisher
서울대학교 대학원
Keywords
clinical notede-identificationregular expressionKoBERTpseudo labeling
Description
학위논문(석사) -- 서울대학교대학원 : 데이터사이언스대학원 데이터사이언스학과, 2022.2. 이승근.
Abstract
Protecting personal information is an important topic in every field. Especially in medical records, personal information is strongly regulated by law. De-identifying clinical note has the purposes of (1) protecting personal information (2) processing it to take out for researches or sharing medical records. However, there are few publicly available clinical narrative text data in Korea and are strictly forbidden to access if not permitted. In this study, using notes from the Department of Radiology, SNUBH and applying several de-identification methods to improve performance with limited and few annotated data. First, regular expression-based methods were constructed based on the 1,112 notes annotated by experts. Furthermore, pseudo-labeling it to run KoBERTNER(pre-trained Korean BERT by SKT) using the outputs of regular expression rules. 29,057 notes were automatically pseudo-labeled by rules and achieved 96.4\% precision and 97.6\% recall
for the validation set. This approach successfully removed protected health information and showed the possibility of auto-labeling and generalization.
다양한 분야에서 개인 정보 보호는 중요한 주제이다. 특히 의료기록에서 개인정보는 법에 의해 강력하게 규제되고 있다. 의료기록에서의 비식별화는 (1) 개인정보보호 (2) 연구를 위한 외부 공유를 위해 필요하다. 그러나, 한국에서 공개적으로 이용 가능한 의료기록지 데이터는 거의 없으며, 이용 가능하더라도 접근 권한이 엄격해 자유로운 사용이 불가능하다. 이 연구에서는 분당서울대학교병원 방사선과의 의료기록지에 여러 방법론을 적용함으로써 높은 비식별화 성능을 보여준다. 첫째, 주석이 달린 1,112개의 의료기록지에 정규 표현식을 적용하였다. 다음으로, 슈도레이블링(pseudo-labeling) 방식을 이용해 KoBERT-NER에 훈련시킴으로써 머신 러닝 방식을 적용하였다. 정규 표현식을 통해 29,057개의 의료기록지가 자동으로 슈도레이블이 지정되었으며 96.4\% 정밀도와 97.6\% 재현율을 달성하면서 성공적으로 의료기록지를 비식별화하였으며, 이를 통해 자동 레이블링 및 일반화의 가능성을 보여주었다.
Language
eng
URI
https://hdl.handle.net/10371/181129

https://dcollection.snu.ac.kr/common/orgView/000000169723
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share