Publications
Detailed Information
의생명 분야 문서의 언어적/구조적 특징을 이용한 자동 어노테이션에 대한 연구 : The Study on Automatic Annotation using Structural/Linguistic Characteristics of biomedical documents
DC Field | Value | Language |
---|---|---|
dc.contributor.advisor | 김홍기 | - |
dc.contributor.author | 남세진 | - |
dc.date.accessioned | 2017-07-14T05:43:09Z | - |
dc.date.available | 2017-07-14T05:43:09Z | - |
dc.date.issued | 2015-08 | - |
dc.identifier.other | 000000056766 | - |
dc.identifier.uri | https://hdl.handle.net/10371/125081 | - |
dc.description | 학위논문 (박사)-- 서울대학교 대학원 : 치의과학과 의료경영정보학전공, 2015. 8. 김홍기. | - |
dc.description.abstract | 자동 어노테이션에 대한 연구는 급속도로 증가하는 의생명 분야의 논문 과 임상 문서들을 더욱 정확하게 검색하거나 필요한 정보만을 추출할 수 있게 하는 기반이 된다는 점에서 중요하다. 본 연구에서는, 그 중 연구 활 동에서 필수적인 논문 검색과 환자의 질병에 대한 진단, 검사, 그리고 처 방 등을 기록하는데 필수적인 임상서식의 작성에 초점을 맞추어, 이에 필 요한 어노테이션 기술을 연구하였다. 이 두 가지 활동은 의생명 분야의 대 표 문서인 논문과 임상서식을 대상으로 일상적으로 일어나는 것이며, 이 러한 활동이 효율적으로 개선되는 것은 의생명 분야에서 중요한 의미를 가진다.
먼저, 텍스트 형식의 연구 논문에 대해서는 연구 활동의 방향 설정에 중 요한 역할을 하는 초록을 대상으로, 의생명 분야에서 주로 사용하는 IMRAD(Introduction, Methods, Results, and Discussion)로의 자동 태깅을 연구하였다. 이 연구에서는, 기존 언어학 분야에서 의생명 분야의 논문을 대상으로 이룬 결과와 컴퓨터 과학 분야에서 진행돼온 결과를 기 반으로, 계산 비용이 적으면서도 높은 성능을 내는 새로운 자동 태깅 시스 템을 제안하고 개발하였다. 본 연구에서 제안한 방법을 사용하는 경우, 문 장에서 뽑아낸 17개의 특징만으로도 비구조화된 초록을 Accuracy 77.0 ~ 90.3%의 성능으로 분류할 수 있었다. 또한, 기존 연구들에서 사용한 특 징들과 함께 사용했을 때는 최대 Accuracy 91.7%의 성능을 보여주었다. 임상 문서의 경우, EMR(Electronic Medical Record)을 시스템을 사용하는 환경에서는 임상 서식을 통해 생성되는 경우가 대부분이므로, 임 상 서식을 대상으로 자동 태깅을 시도하였다. 임상 서식은 연구 초록과는 달리 이미 구조화된 형식을 가지고 있으므로, 본 연구에서는 이 구조 안에 내재된 전문가의 지식을 태깅하고자 하였다. 이를 위해 새로운 지식모델 과 이를 이용한 임상 서식 작성 지원 시스템인 STEP(Smart Clinical Document Template Editing and Production System)을 개발하였다. STEP의 시스템의 활용성을 검증하기 위해서는 임상 서식 작성 도구를 개 발하여, 지식 모델을 통해 구축된 지식베이스가 임상 서식의 작성을 개선 시킬 수 있음을 보였다. 연구 결과는 의생명 분야의 연구자들에게 대규모의 의생명 관련 논문과 임상에서 지속적으로 생산되는 임상 문서가 더욱 정확하게 검색되고 재사 용될 수 있음을 보여주고 있다. 이러한 결과는 의생명 분야 전반에서 연구 자들의 활동을 개선시킬 수 있다는 점에서 중요하다. 마지막으로, 본 연구 의 성과가 다른 연구자들에게도 활용될 수 있도록, 연구 과정에서 추출한 언어 자원과 결과를 확인할 수 있는 시스템을 웹으로 공개하였다. | - |
dc.description.tableofcontents | 초 록....................................................................................................i
목 차..................................................................................................iii I. 서론................................................................................................1 1. 연구 배경 ......................................................................................1 2. 연구 목적 ......................................................................................5 3. 논문의 구성....................................................................................6 II. 구조화된 초록의 언어적 특징 추출..................................................7 1. 연구 배경 .....................................................................................7 2. 연구 목적 .....................................................................................9 3. 관련 연구 .....................................................................................9 4. 연구 방법 ................................................................................... 12 4.1. 데이터 코퍼스 ......................................................................... 13 4.2. 섹션 정규화............................................................................. 14 4.3. 섹션 맵핑 ............................................................................... 17 4.4. 언어적 특징 추출 ..................................................................... 18 5. 결과 ......................................................................................... 20 5.1. 섹션별 동사/동사구의 사용 특징 .................................................. 20 5.2. 섹션별 N-gram의 사용 특징 ...................................................... 22 5.3. 섹션별 명사(구)의 사용 특징 ....................................................... 24 5.4. 언어적 특징들의 섹션 구별력 ...................................................... 27 6. 결론 .......................................................................................... 41 III. 언어적 특징을 이용한 초록 문장 분류................................................. 44 1. 연구 배경 ................................................................................... 44 2. 연구 목적 ................................................................................... 45 3. 관련 연구 ................................................................................... 45 4. 연구 방법 ................................................................................... 48 4.1. Feature Set 구성 ................................................................... 48 4.2. 테스트 문서 집합 ...................................................................... 52 4.3. SVM을 이용한 학습 및 평가 ....................................................... 53 5. 연구 결과 ................................................................................... 54 5.1. 언어적 특징별 성능.....................................................................54 5.2. 특징 그룹 조합별 성능 ............................................................... 56 6. 논의 .......................................................................................... 65 IV. 의생명 초록 문장 자동 태깅 시스템.............................................. 67 1. 시스템 소개 ................................................................................ 67 2. 서비스 구성 ................................................................................ 67 2.1. INTRODUCTION...................................................................67 2.2 LEXICAL FEATURES ............................................................. 69 2.3 RESULTS................................................................................71 2.4 ONLINE DEMO.......................................................................73 3. Use Cases ............................................................................... 76 V. 구조적 특징을 이용한 임상 서식의 태깅 ..................................... 78 1. 연구 배경.................................................................................... 78 2. 연구 목표.................................................................................... 80 3. 임상 서식의 태깅을 위한 지식 모델 ................................................... 80 3.1. 온톨로지 ................................................................................ 80 3.2. 개념 모델 ............................................................................... 81 3.3. CDT 온톨로지......................................................................... 85 4. CDT 온톨로지를 이용한 임상서식 태깅 ............................................. 90 5. 결론 .......................................................................................... 93 VI. 임상 서식 지식베이스 기반의 서식 작성 지원 시스템 ............... 94 1. 시스템 소개 ................................................................................ 94 2. 시스템 구성 ................................................................................ 95 2.1. 지식 베이스 관리 모듈 ............................................................... 96 2.2. 핵심 모듈 ............................................................................... 96 2.3. 웹 사용자 인터페이스 .............................................................. 101 2.4. Web Services 인터페이스 ..................................................... 106 3. Use Case ...............................................................................108 4. 결론 ........................................................................................110 VII. 결론 .......................................................................................113 VIII. 연구의 제한점 및 제언 ...............................................................116 참고문헌 .......................................................................................118 부록 ............................................................................................129 Abstract .....................................................................................133 | - |
dc.format | application/pdf | - |
dc.format.extent | 4780752 bytes | - |
dc.format.medium | application/pdf | - |
dc.language.iso | ko | - |
dc.publisher | 서울대학교 대학원 | - |
dc.subject | 어노테이션 | - |
dc.subject | 구조화된 초록 | - |
dc.subject | 임상서식 | - |
dc.subject | 문장 분류 | - |
dc.subject | 온톨로지 | - |
dc.subject.ddc | 617 | - |
dc.title | 의생명 분야 문서의 언어적/구조적 특징을 이용한 자동 어노테이션에 대한 연구 | - |
dc.title.alternative | The Study on Automatic Annotation using Structural/Linguistic Characteristics of biomedical documents | - |
dc.type | Thesis | - |
dc.contributor.AlternativeAuthor | Nam Sejin | - |
dc.description.degree | Doctor | - |
dc.citation.pages | x, 135 | - |
dc.contributor.affiliation | 치의학대학원 치의과학과 | - |
dc.date.awarded | 2015-08 | - |
- Appears in Collections:
- Files in This Item:
Item View & Download Count
Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.