Publications

Detailed Information

의생명 분야 문서의 언어적/구조적 특징을 이용한 자동 어노테이션에 대한 연구 : The Study on Automatic Annotation using Structural/Linguistic Characteristics of biomedical documents

DC Field Value Language
dc.contributor.advisor김홍기-
dc.contributor.author남세진-
dc.date.accessioned2017-07-14T05:43:09Z-
dc.date.available2017-07-14T05:43:09Z-
dc.date.issued2015-08-
dc.identifier.other000000056766-
dc.identifier.urihttps://hdl.handle.net/10371/125081-
dc.description학위논문 (박사)-- 서울대학교 대학원 : 치의과학과 의료경영정보학전공, 2015. 8. 김홍기.-
dc.description.abstract자동 어노테이션에 대한 연구는 급속도로 증가하는 의생명 분야의 논문 과 임상 문서들을 더욱 정확하게 검색하거나 필요한 정보만을 추출할 수 있게 하는 기반이 된다는 점에서 중요하다. 본 연구에서는, 그 중 연구 활 동에서 필수적인 논문 검색과 환자의 질병에 대한 진단, 검사, 그리고 처 방 등을 기록하는데 필수적인 임상서식의 작성에 초점을 맞추어, 이에 필 요한 어노테이션 기술을 연구하였다. 이 두 가지 활동은 의생명 분야의 대 표 문서인 논문과 임상서식을 대상으로 일상적으로 일어나는 것이며, 이 러한 활동이 효율적으로 개선되는 것은 의생명 분야에서 중요한 의미를 가진다.
먼저, 텍스트 형식의 연구 논문에 대해서는 연구 활동의 방향 설정에 중 요한 역할을 하는 초록을 대상으로, 의생명 분야에서 주로 사용하는 IMRAD(Introduction, Methods, Results, and Discussion)로의 자동 태깅을 연구하였다. 이 연구에서는, 기존 언어학 분야에서 의생명 분야의 논문을 대상으로 이룬 결과와 컴퓨터 과학 분야에서 진행돼온 결과를 기 반으로, 계산 비용이 적으면서도 높은 성능을 내는 새로운 자동 태깅 시스 템을 제안하고 개발하였다. 본 연구에서 제안한 방법을 사용하는 경우, 문 장에서 뽑아낸 17개의 특징만으로도 비구조화된 초록을 Accuracy 77.0 ~ 90.3%의 성능으로 분류할 수 있었다. 또한, 기존 연구들에서 사용한 특 징들과 함께 사용했을 때는 최대 Accuracy 91.7%의 성능을 보여주었다.
임상 문서의 경우, EMR(Electronic Medical Record)을 시스템을 사용하는 환경에서는 임상 서식을 통해 생성되는 경우가 대부분이므로, 임 상 서식을 대상으로 자동 태깅을 시도하였다. 임상 서식은 연구 초록과는 달리 이미 구조화된 형식을 가지고 있으므로, 본 연구에서는 이 구조 안에 내재된 전문가의 지식을 태깅하고자 하였다. 이를 위해 새로운 지식모델 과 이를 이용한 임상 서식 작성 지원 시스템인 STEP(Smart Clinical Document Template Editing and Production System)을 개발하였다. STEP의 시스템의 활용성을 검증하기 위해서는 임상 서식 작성 도구를 개 발하여, 지식 모델을 통해 구축된 지식베이스가 임상 서식의 작성을 개선 시킬 수 있음을 보였다.
연구 결과는 의생명 분야의 연구자들에게 대규모의 의생명 관련 논문과 임상에서 지속적으로 생산되는 임상 문서가 더욱 정확하게 검색되고 재사 용될 수 있음을 보여주고 있다. 이러한 결과는 의생명 분야 전반에서 연구 자들의 활동을 개선시킬 수 있다는 점에서 중요하다. 마지막으로, 본 연구 의 성과가 다른 연구자들에게도 활용될 수 있도록, 연구 과정에서 추출한 언어 자원과 결과를 확인할 수 있는 시스템을 웹으로 공개하였다.
-
dc.description.tableofcontents초 록....................................................................................................i
목 차..................................................................................................iii
I. 서론................................................................................................1
1. 연구 배경 ......................................................................................1
2. 연구 목적 ......................................................................................5
3. 논문의 구성....................................................................................6
II. 구조화된 초록의 언어적 특징 추출..................................................7
1. 연구 배경 .....................................................................................7
2. 연구 목적 .....................................................................................9
3. 관련 연구 .....................................................................................9
4. 연구 방법 ................................................................................... 12
4.1. 데이터 코퍼스 ......................................................................... 13
4.2. 섹션 정규화............................................................................. 14
4.3. 섹션 맵핑 ............................................................................... 17
4.4. 언어적 특징 추출 ..................................................................... 18
5. 결과 ......................................................................................... 20
5.1. 섹션별 동사/동사구의 사용 특징 .................................................. 20
5.2. 섹션별 N-gram의 사용 특징 ...................................................... 22
5.3. 섹션별 명사(구)의 사용 특징 ....................................................... 24
5.4. 언어적 특징들의 섹션 구별력 ...................................................... 27
6. 결론 .......................................................................................... 41
III. 언어적 특징을 이용한 초록 문장 분류................................................. 44
1. 연구 배경 ................................................................................... 44
2. 연구 목적 ................................................................................... 45
3. 관련 연구 ................................................................................... 45
4. 연구 방법 ................................................................................... 48
4.1. Feature Set 구성 ................................................................... 48
4.2. 테스트 문서 집합 ...................................................................... 52
4.3. SVM을 이용한 학습 및 평가 ....................................................... 53
5. 연구 결과 ................................................................................... 54
5.1. 언어적 특징별 성능.....................................................................54
5.2. 특징 그룹 조합별 성능 ............................................................... 56
6. 논의 .......................................................................................... 65
IV. 의생명 초록 문장 자동 태깅 시스템.............................................. 67
1. 시스템 소개 ................................................................................ 67
2. 서비스 구성 ................................................................................ 67
2.1. INTRODUCTION...................................................................67
2.2 LEXICAL FEATURES ............................................................. 69
2.3 RESULTS................................................................................71
2.4 ONLINE DEMO.......................................................................73
3. Use Cases ............................................................................... 76
V. 구조적 특징을 이용한 임상 서식의 태깅 ..................................... 78
1. 연구 배경.................................................................................... 78
2. 연구 목표.................................................................................... 80
3. 임상 서식의 태깅을 위한 지식 모델 ................................................... 80
3.1. 온톨로지 ................................................................................ 80
3.2. 개념 모델 ............................................................................... 81
3.3. CDT 온톨로지......................................................................... 85
4. CDT 온톨로지를 이용한 임상서식 태깅 ............................................. 90
5. 결론 .......................................................................................... 93
VI. 임상 서식 지식베이스 기반의 서식 작성 지원 시스템 ............... 94
1. 시스템 소개 ................................................................................ 94
2. 시스템 구성 ................................................................................ 95
2.1. 지식 베이스 관리 모듈 ............................................................... 96
2.2. 핵심 모듈 ............................................................................... 96
2.3. 웹 사용자 인터페이스 .............................................................. 101
2.4. Web Services 인터페이스 ..................................................... 106
3. Use Case ...............................................................................108
4. 결론 ........................................................................................110
VII. 결론 .......................................................................................113
VIII. 연구의 제한점 및 제언 ...............................................................116
참고문헌 .......................................................................................118
부록 ............................................................................................129
Abstract .....................................................................................133
-
dc.formatapplication/pdf-
dc.format.extent4780752 bytes-
dc.format.mediumapplication/pdf-
dc.language.isoko-
dc.publisher서울대학교 대학원-
dc.subject어노테이션-
dc.subject구조화된 초록-
dc.subject임상서식-
dc.subject문장 분류-
dc.subject온톨로지-
dc.subject.ddc617-
dc.title의생명 분야 문서의 언어적/구조적 특징을 이용한 자동 어노테이션에 대한 연구-
dc.title.alternativeThe Study on Automatic Annotation using Structural/Linguistic Characteristics of biomedical documents-
dc.typeThesis-
dc.contributor.AlternativeAuthorNam Sejin-
dc.description.degreeDoctor-
dc.citation.pagesx, 135-
dc.contributor.affiliation치의학대학원 치의과학과-
dc.date.awarded2015-08-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share