Publications

Detailed Information

임상문서에서 임상검사명을 추출하기 위한 q-gram 기반의 새로운 유사문자열 추출 알고리즘 개발 : Developing novel algorithms of approximate entity extraction for laboratory test names in clinical documents based on q-gram

DC Field Value Language
dc.contributor.advisor최진욱-
dc.contributor.authorKyungmo Kim-
dc.date.accessioned2017-07-14T02:24:09Z-
dc.date.available2017-07-14T02:24:09Z-
dc.date.issued2017-02-
dc.identifier.other000000140692-
dc.identifier.urihttps://hdl.handle.net/10371/122466-
dc.description학위논문 (석사)-- 서울대학교 대학원 : 바이오엔지니어링전공, 2017. 2. 최진욱.-
dc.description.abstract임상검사명 및 임상 검사항목들은 임상의가 환자의 내과적 외과적 질환을 진단하기 위해 사용하는 기본정보이다. 그러나 이러한 정보들의 대다수는 정형화되어있지 않으며, 특정 질병의 진단에 중요한 검사 항목들은 임상의들이 환자들을 진료하는 동안에 진료기록지에 서술하여 기록된다. 이러한 문서내의 정보들은 사람에 의해 기록되므로, "cholesterol"을 "chol"로 줄여 쓰는 것처럼 편의상 축약되어 등장하거나 오타가 발생 할 수 도 있다. 이런 이유로 중요한 임상 정보들이 다른 예기치 못한 형태로서 등장할 수도 있으며, 이는 기존의 표준 용어를 활용한 사전기반의 정보추출 방식의 성능을 떨어뜨리는 요인이 된다. 대량의 문헌 정보들을 일일이 찾아서 이런 예기치 못한 표현의 패턴들을 일일이 찾아 사전 또는 정규표현식으로 구축하는 것은 신뢰도 높은 결과를 얻을 수는 있지만, 시간이 오래 걸리며, 연구자에게 긴 노동시간을 강요하게 된다. 따라서 본 논문에서는 임상검사명 및 그 항목을 찾아내기 위해, 축약된 표현을 포함한 유사문자열을 자동으로 찾아낼 수 있는 새로운 알고리즘들을 개발하고자 한다.
이를 위해서 본 연구는 유사문자열을 찾아내는 기존의 알고리즘 중 q-gram기반의 카운터 필터링(counter filtering)을 기반으로 새로운 알고리즘들을 단계적으로 개발하였다. q-gram 기반의 카운터 필터링이란 문자열을 q만큼의 길이로 잘라내어 새로운 문자열들을 생성한 후 공통된 문자열의 개수가 역치(threshold)를 넘으면 유사하다고 판정한다. 그러나 고전적인 카운터 필터링은 너무 낮은 역치로 인해 너무 높은 위양성을 생성한다는 에러를 지니고 있다. 이를 해결하고자 본 논문에서는 수정된 q-gram 필터링(modified q-gram filtering)을 제안한다. 그 후 축약된 표현을 찾아낼 수 있는 orthogonal distance filtering을 제안하고 높은 위양성을 낮출 수 있는 triangular area filtering, modified triangular area filtering을 제안한다.
실험 결과, i2b2 학습 데이터에서 기존의 사전 매칭보다 제안한 modified triangular area filtering의 f1-score가 3.91 향상되었고(Precision / Recall / F1-score : (89.76 / 73.51 / 80.83) → (85.39 / 84.11 / 84.74)), 평가 데이터에서는 6.29가 향상되어 가장 큰 상승 폭을 보였다. (Precision / Recall / F1-score : (88.68 / 69.34 / 77.83) → (86.26 / 82.08 / 84.12)). 서울대학교 병원에 내원한 당뇨환자들에 대한 학습 데이터에서도 기존의 사전 매칭보다 제안한 modified triangular area filtering의 f1-score가 2.74 더 높았으며 (Precision / Recall / F1-score : (95.2 / 76.76 / 84.99) → (91.26 / 84.47 / 87.73)), 평가 데이터에서는 2.86이 향상되는 것을 확인하였다(Precision / Recall / F1-score : (95.08 / 80.92 / 87.43) → (92.69 / 88.02 / 90.29)).
-
dc.description.tableofcontents제 1 장 서론 1
제 1 절 연구의 배경 및 필요성 1
제 2 절 연구 배경 및 주안점 2
제 3 절 연구 순서 4

제 2 장 기존이론 5
제 1 절 문제 정의 5
제 2 절 q-gram 기반의 문자열 필터링 6
제 3 절 q-gram 기반의 고전적인 counter 필터링 7

제 3 장 알고리즘 개발 8
제 1 절 2차원 q-gram 모델 제안 8
제 2 절 수정된 q-gram filtering 10
제 3 절 orthogonal distance filtering 13
제 4 절 linear threshold filtering 16
제 5 절 triangular area filtering 20
제 6 절 modified triangluar area filtering 24

제 4 장 추가적인 필터링 기법 25
제 1 절 길이 필터링 25
제 2 절 접두사 필터링 25
제 3 절 연속적으로 일치하는 q-gram을 활용한 가중치 26
제 4 절 공백을 포함하는 q-gram의 삭제 26
제 5 절 선택적인 쿼리문자열 선택 27
제 6 절 같은 토큰의 개수를 가지는 문자열끼리의 비교 27

제 5 장 실험 28
제 1 절 실험 환경 구축 28
1. 알고리즘 29
2. 사전 29
3. 데이터셋 30
제 2 절 텍스트 전처리 31
1. Space separating character elimination 31
2. Clinical jargon elimination 31
3. Stop word elimination 32
4. String purification 32
제 3 절 프레임웤 34
제 4 절 평가방법론 35

제 6 장 결과 36
제 1 절 각 알고리즘 특성 36
제 2 절 가장 높은 성능의 알고리즘 40
제 3 절 알고리즘 안정도 42
제 4 절 알고리즘 속도 44

제 7 장 고찰 45
제 1 절 위양성의 영향 46
제 2 절 modified triangluar area filtering의 최적의 매개변수 46
제 3 절 q 값의 지정 근거 47
제 4 절 추가적인 필터링의 영향 48
제 5 절 알고리즘의 속도 49
제 6 절 데이터셋의 특성 51
제 7 절 향후 가능성 51

제 8 장 관련연구 52

제9장 결론 54

참고문헌 56

부록 59

Abstract 83
-
dc.formatapplication/pdf-
dc.format.extent1867326 bytes-
dc.format.mediumapplication/pdf-
dc.language.isoko-
dc.publisher서울대학교 대학원-
dc.subject자연어 처리-
dc.subject유사문자열-
dc.subjectq-gram-
dc.subject정보추출-
dc.subject임상검사-
dc.subject.ddc660-
dc.title임상문서에서 임상검사명을 추출하기 위한 q-gram 기반의 새로운 유사문자열 추출 알고리즘 개발-
dc.title.alternativeDeveloping novel algorithms of approximate entity extraction for laboratory test names in clinical documents based on q-gram-
dc.typeThesis-
dc.description.degreeMaster-
dc.citation.pagesxi, 84-
dc.contributor.affiliation공과대학 협동과정 바이오엔지니어링전공-
dc.date.awarded2017-02-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share