Publications

Detailed Information

임상문서에서 임상검사명을 추출하기 위한 q-gram 기반의 새로운 유사문자열 추출 알고리즘 개발 : Developing novel algorithms of approximate entity extraction for laboratory test names in clinical documents based on q-gram

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

Kyungmo Kim

Advisor
최진욱
Major
공과대학 협동과정 바이오엔지니어링전공
Issue Date
2017-02
Publisher
서울대학교 대학원
Keywords
자연어 처리유사문자열q-gram정보추출임상검사
Description
학위논문 (석사)-- 서울대학교 대학원 : 바이오엔지니어링전공, 2017. 2. 최진욱.
Abstract
임상검사명 및 임상 검사항목들은 임상의가 환자의 내과적 외과적 질환을 진단하기 위해 사용하는 기본정보이다. 그러나 이러한 정보들의 대다수는 정형화되어있지 않으며, 특정 질병의 진단에 중요한 검사 항목들은 임상의들이 환자들을 진료하는 동안에 진료기록지에 서술하여 기록된다. 이러한 문서내의 정보들은 사람에 의해 기록되므로, "cholesterol"을 "chol"로 줄여 쓰는 것처럼 편의상 축약되어 등장하거나 오타가 발생 할 수 도 있다. 이런 이유로 중요한 임상 정보들이 다른 예기치 못한 형태로서 등장할 수도 있으며, 이는 기존의 표준 용어를 활용한 사전기반의 정보추출 방식의 성능을 떨어뜨리는 요인이 된다. 대량의 문헌 정보들을 일일이 찾아서 이런 예기치 못한 표현의 패턴들을 일일이 찾아 사전 또는 정규표현식으로 구축하는 것은 신뢰도 높은 결과를 얻을 수는 있지만, 시간이 오래 걸리며, 연구자에게 긴 노동시간을 강요하게 된다. 따라서 본 논문에서는 임상검사명 및 그 항목을 찾아내기 위해, 축약된 표현을 포함한 유사문자열을 자동으로 찾아낼 수 있는 새로운 알고리즘들을 개발하고자 한다.
이를 위해서 본 연구는 유사문자열을 찾아내는 기존의 알고리즘 중 q-gram기반의 카운터 필터링(counter filtering)을 기반으로 새로운 알고리즘들을 단계적으로 개발하였다. q-gram 기반의 카운터 필터링이란 문자열을 q만큼의 길이로 잘라내어 새로운 문자열들을 생성한 후 공통된 문자열의 개수가 역치(threshold)를 넘으면 유사하다고 판정한다. 그러나 고전적인 카운터 필터링은 너무 낮은 역치로 인해 너무 높은 위양성을 생성한다는 에러를 지니고 있다. 이를 해결하고자 본 논문에서는 수정된 q-gram 필터링(modified q-gram filtering)을 제안한다. 그 후 축약된 표현을 찾아낼 수 있는 orthogonal distance filtering을 제안하고 높은 위양성을 낮출 수 있는 triangular area filtering, modified triangular area filtering을 제안한다.
실험 결과, i2b2 학습 데이터에서 기존의 사전 매칭보다 제안한 modified triangular area filtering의 f1-score가 3.91 향상되었고(Precision / Recall / F1-score : (89.76 / 73.51 / 80.83) → (85.39 / 84.11 / 84.74)), 평가 데이터에서는 6.29가 향상되어 가장 큰 상승 폭을 보였다. (Precision / Recall / F1-score : (88.68 / 69.34 / 77.83) → (86.26 / 82.08 / 84.12)). 서울대학교 병원에 내원한 당뇨환자들에 대한 학습 데이터에서도 기존의 사전 매칭보다 제안한 modified triangular area filtering의 f1-score가 2.74 더 높았으며 (Precision / Recall / F1-score : (95.2 / 76.76 / 84.99) → (91.26 / 84.47 / 87.73)), 평가 데이터에서는 2.86이 향상되는 것을 확인하였다(Precision / Recall / F1-score : (95.08 / 80.92 / 87.43) → (92.69 / 88.02 / 90.29)).
Language
Korean
URI
https://hdl.handle.net/10371/122466
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share