체계적 문헌고찰을 위한 텍스트 분류 모델링 방법에 대한 연구

김승희

서울대학교 중앙도서관

S-Space 소개

My S-Space

로그인이 필요합니다.

S-Space

Publications

Detailed Information

체계적 문헌고찰을 위한 텍스트 분류 모델링 방법에 대한 연구

Cited 0 time in Web of Science Cited 0 time in Scopus

Export

Authors: 김승희

Advisor: 최진욱

Major: 의과대학 의학과

Issue Date: 2015-02

Publisher: 서울대학교 대학원

Keywords: 분류(Classification) ; 기계학습(Machine Learning) ; 체계적 문헌고찰(Systematic Review) ; 근거중심의학(Evidence-based Medicine)

Description: 학위논문 (박사)-- 서울대학교 대학원 : 의학과, 2015. 2. 최진욱.

Abstract: 근거중심의학(Evidence Based Medicine, EBM)이란 임상 경험과 현존(current)하는 최상의 근거(best evidence)를 성실(conscientious)하고, 명백(explicit)하고, 신중(judicious)하게 사용하여 개별 환자 치료에 관한 의사 결정을 하는 것으로, 근거중심의학을 한다는 것은 개별 임상가의 전문성과 체계적 연구에서 얻어진 사용 가능한 최상의 외적 임상 근거의 통합을 의미한다. 근거중심의학을 가능하도록 지원하는 체계적 문헌고찰은 사전에 정해진 기준에 맞는 모든 연구들을 수집, 분석하여 문헌에서 제시한 방대한 결과를 질적 수준에 대한 평가와 함께 통합해 줌으로 해당 질문에 대한 결론을 도출하는 연구방법이다. 이러한 체계적 문헌고찰을 위해서는 모든 관련문헌을 확인하여 정해진 기준에 부합하는 문헌을 선택하고 결과를 합성해야 하기 때문에 상당한 시간과 노력이 요구된다. 이에 체계적 문헌고찰을 지원하는 시스템 개발로 체계적 문헌고찰을 수행하는 저자의 노력을 줄어주는 것이 필요하다.
이미 많은 선행연구에서 선택문헌과 배제문헌을 분류해줌으로 체계적 문헌고찰을 지원하는 시스템을 제안하고 있다. 그러나 대부분의 연구에서 실험데이터와 동일한 주제의 훈련데이터를 사용하고 있으며, 실험데이터와 다른 주제의 훈련데이터를 사용한 일부 선행연구에서는 낮은 분류 성능을 보이고 있다. 그러나 체계적 문헌고찰은 핵심 질문에 관련된 모든 문헌을 확인하여 결론을 도출하는 연구방법이기 때문에 동일한 핵심 질문을 가지는 두 개 이상의 체계적 문헌고찰은 거의 이루어지지 않는다. 동일한 핵심질문을 가진 체계적 문헌고찰이 두 개 이상인 경우는 과거에 수행된 체계적 문헌고찰에 새로운 근거를 추가하여 체계적 문헌고찰을 업데이트한 경우가 대부분이기 때문에 이전에 수행된 체계적 문헌고찰을 업데이트하는 경우가 아니라면 동일 주제의 데이터를 훈련데이터로 사용하기는 어렵다. 또한 핵심 질문에 따라 선택/배제 기준이 다양하기 때문에 좋은 분류 성능을 보일 것으로 예상되는 관련된 훈련데이터를 찾는 것은 쉽지 않다.
이에 본 연구에서는 관련 데이터가 없는 새로운 주제의 체계적 문헌고찰을 수행할 때 다른 주제로 수행된 기존의 체계적 문헌고찰 데이터를 훈련데이터로 사용하여 새로운 주제의 체계적 문헌고찰에 포함되지 않을 배제문헌을 분류함으로 저자의 문헌 선택 노력을 줄여주고자 하였다.
본 연구에서는 주제가 다른 데이터를 훈련데이터로 사용하기 때문에 주제에 따라 선택문헌이 되기도 하고, 배제문헌이 되기도 하는 주제특이적 배제문헌은 분류 성능을 저하시킬 수 있다고 생각되어 배제문헌에서 공통배제문헌을 분류하여 실험하였다. 공통배제문헌이란 체계적 문헌고찰 주제에 상관없이 모든 체계적 문헌고찰에서 배제되는 문헌으로, 초록만 있는 회색문헌(grey literature), 리뷰․사설 등의 원저가 아닌 문헌(non-original articles), 동물 연구, 기전(mechanism)에 관한 전임상시험 연구(pre-clinical studies)를 말한다. 배제문헌 중 공통배제문헌을 제외한 나머지 배제문헌은 모두 주제특이적(topic-specific) 배제문헌으로, 체계적 문헌고찰 주제에 따라 선택되기도 하고 배제되기도 하는 문헌이다. 또한 훈련데이터의 비대칭성으로 인해 분류자(classifier)가 훈련데이터에서 차지하는 비중이 큰 배제문헌 쪽으로 학습되고, 대부분 배제문헌이라고 분류하지 않도록 훈련데이터의 선택문헌과 배제문헌의 수를 동일하게 한 대칭적(even) 훈련데이터를 만들어 실험하였다.
연구 재료는 시술 분야 체계적 문헌고찰 19개와 약 분야 체계적 문헌고찰 4개를 사용하였다. 특징으로는 모든 특징을 사용한 제목, 초록, Mesh, 출판유형 조합(TAMP)과 이전 연구에서 분류성능이 좋았던 Mesh, 출판유형 조합(MP)을 사용하였다. 첫 번째 실험(실험 1)은 훈련데이터와 실험데이터의 조합이 다른 세 가지 모델을 SVM과 Naїve Bayesian으로 각각 훈련시켜 분류하였다. 모델 1의 훈련데이터와 실험데이터는 기존 연구에서와 같이 체계적 문헌고찰에 포함되어 있는 선택문헌과 배제문헌을 그대로 사용하였다. 모델 2의 훈련데이터는 선택문헌과 모든 체계적 문헌고찰에서 공통적으로 배제되는 공통배제문헌을, 실험데이터는 선택문헌과 배제문헌을 사용하였다. 모델 3은 훈련데이터와 실험데이터 모두 선택문헌과 공통배제문헌을 사용하였다. 세 가지 모델 모두 훈련데이터에는 실험데이터 주제의 선택문헌과 배제문헌이 포함되지 않도록 하였다. 두 번째 실험(실험 2)은 선택문헌이 배제되는 것을 줄이기 위해 실험 1의 훈련데이터를 Naїve Bayesian으로 훈련시킨 후, 실험 1에서 SVM으로 배제문헌이라고 분류된 문헌을 한 번 더 분류함으로 민감도를 높이고자 하였다.
시술의 실험 1 결과인 SVM의 평균 AUC는 TAMP(모델 1/모델 2 : 0.81/0.83)와 MP(모델 1/모델 2 : 0.81/0.81)가 유사했고, 모델 1과 모델 2도 유사했다. 평균 정확도는 TAMP(모델 1/모델 2 : 0.83/0.73)가 MP(모델 1/모델 2 : 0.75/0.61)보다 높았고, 모델 1이 모델 2보다 높았다. 평균 민감도는 MP(모델 1/모델 2 : 0.70/0.86)가 TAMP(모델 1/모델 2 : 0.51/0.75)보다 높았고, 모델 2가 모델 1보다 높았다. 평균 특이도는 TAMP(모델 1/모델 2 : 0.85/0.73)가 MP(모델 1/모델 2 : 0.76/0.59)보다 높았고, 모델 1이 모델 2보다 높았다.
시술의 실험 1 결과인 Naїve Bayesian의 평균 정확도는 TAMP(모델 1/모델 2 : 0.78/0.70)가 MP(모델 1/모델 2 : 0.68/0.57)보다 높았고, 모델 1이 모델 2보다 높았다. 평균 민감도는 MP(모델 1/모델 2 : 0.77/0.90)가 TAMP(모델 1/모델 2 : 0.62/0.78)보다 높았고, 모델 2가 모델 1보다 높았다. 평균 특이도는 TAMP(모델 1/모델 2 : 0.79/0.69)가 MP(모델 1/모델 2 : 0.67/0.55)보다 높았고, 모델 1이 모델 2보다 높았다.
시술 실험데이터에는 선택문헌보다 배제문헌이 더 많이 포함되어 있어 정확도는 특이도의 영향을 많이 받아 특이도가 높으면 정확도도 높아지고, 특이도가 낮으면 정확도도 낮아지는 경향을 보였다. 그러므로 전반적 분류 결과는 정확도보다는 AUC로 평가해야 할 것이다. SVM을 통해 제시된 AUC는 특징조합(TAMP, MP)에 따라, 모델(모델 1, 모델 2)에 따라 거의 차이가 없어 본 연구에서는 특징조합과 모델이 분류 결과에 큰 영향을 미치지 않았음을 확인할 수 있었다. 이는 일부 특징(MP)과 적은 훈련데이터(모델 2)를 사용함에도 불구하고 모든 특징(TAMP)과 모든 훈련데이터(모델 1)를 사용한 경우와 유사한 분류 성능을 보인 것이므로 의미 있는 결과라 하겠다.
민감도와 특이도는 특징조합과 모델에 따라 달라졌다. 특징조합에 따라서는 특징 전체를 사용한 경우(TAMP)보다 메타데이터를 사용한 경우(MP)의 민감도가 높았고, 특이도는 낮았다. 모델에 따라서는 문헌 전체를 훈련데이터로 사용한 경우(모델 1)보다 공통배제문헌만 훈련데이터로 사용한 경우(모델 2)의 민감도는 높았고, 특이도는 낮았다. 이를 통해 데이터가 구체화(specific) 될수록 민감도는 낮아지고 특이도는 높아지는 것으로 생각되었다. SVM과 Naїve Bayesian으로 실험한 결과 특징조합과 모델의 전반적 경향은 유사했으나, SVM은 특이도가, Naїve Bayesian은 민감도가 높았다.
약의 실험 1 결과인 SVM의 평균 AUC는 TAMP(모델 1/모델 2 : 0.78/0.73)와 MP(모델 1/모델 2 : 0.77/0.75)가 유사했고, 모델 1이 모델 2 보다 높았다. 평균 정확도는 TAMP(모델 1/모델 2 : 0.80/0.67)가 MP(모델 1/모델 2 : 0.78/0.62)보다 높았고, 모델 1이 모델 2보다 높았다. 평균 민감도는 MP(모델 1/모델 2 : 0.57/0.73)가 TAMP(모델 1/모델 2 : 0.49/0.68)보다 높았고, 모델 2가 모델 1보다 높았다. 평균 특이도는 TAMP(모델 1/모델 2 : 0.85/0.67)가 MP(모델 1/모델 2 : 0.81/0.61)보다 높았고, 모델 1이 모델 2보다 높았다.
약의 실험 1 결과인 Naїve Bayesian의 평균 정확도는 TAMP(모델 1/모델 2 : 0.73/0.56)가 MP(모델 1/모델 2 : 0.61/0.50)보다 높았고, 모델 1이 모델 2보다 높았다. 평균 민감도는 MP(모델 1/모델 2 : 0.74/0.85)가 TAMP(모델 1/모델 2 : 0.66/0.76)보다 높았고, 모델 2가 모델 1보다 높았다. 평균 특이도는 TAMP(모델 1/모델 2 : 0.75/0.55)가 MP(모델 1/모델 2 : 0.60/0.47)보다 높았고, 모델 1이 모델 2보다 높았다.
시술 실험데이터와 다르게 약 실험데이터에는 선택문헌이 많은 주제도 있고 배제문헌이 많은 주제도 있어 정확도가 민감도 또는 특이도에 편중되어 영향 받지 않았다. SVM을 통해 제시된 AUC는 모델 1에서는 TAMP가 MP보다 높고, 모델 2에서는 MP가 TAMP보다 높아 특징조합에 따른 일관된 결과를 도출할 수 없었다. AUC를 제외한 나머지 결과 지표들은 특징조합에 영향을 받았는데, 정확도와 특이도는 TAMP가, 민감도는 MP가 높았다. 모델에 따라서는 AUC, 정확도, 특이도는 모델 1이, 민감도는 모델 2가 높았다.
약 체계적 문헌고찰 데이터에는 배제사유가 대부분 'Nonspecifically excluded'라고 되어 있어 공통배제문헌으로 분류된 배제문헌이 적었다. 그러나 본 연구에서는 한쪽으로 편향되어 훈련되지 않도록 하기 위해 동일한 수의 선택문헌과 배제문헌으로 훈련데이터를 만들었기 때문에 공통배제문헌을 훈련데이터로 사용하는 모델 2의 훈련데이터 수가 적었고, 이러한 이유로 분류자가 충분히 훈련되지 못함으로 모델 2의 AUC와 정확도가 낮았을 수 있을 것이다. 민감도와 특이도, SVM과 Naїve Bayesian 결과는 시술과 동일한 경향을 보였다.
시술의 실험 2 결과인 TAMP(SVM)+MP(Naїve Bayesian)의 평균 민감도(모델 1/모델 2 : 0.84/0.93)는 TAMP(SVM+Naїve Bayesian)의 평균 민감도(모델 1/모델 2 : 0.72/0.87) 보다 높았고, 모델 2가 모델 1보다 높았다. 약의 실험 2 결과인 TAMP(SVM)+MP(Naїve Bayesian)의 평균 민감도(모델 1/모델 2 : 0.80/0.88)는 TAMP(SVM+Naїve Bayesian)의 평균 민감도(모델 1/모델 2 : 0.69/0.81) 보다 높았고, 모델 2가 모델 1보다 높았다.
이는 실험 1에서 특징 전체를 사용한 경우(TAMP)보다 메타데이터를 사용한 경우(MP)의 민감도가 더 높았던 것이 실험 2에 그대로 반영되어, MP(Naїve Bayesian)로 추가 분류한 경우의 민감도가 TAMP(Naїve Bayesian)로 추가 분류한 경우보다 민감도가 높았던 것으로 생각되었다. 또한 모델 2가 모델 1보다 민감도가 높았는데, 이는 실험 1에서 문헌 전체를 훈련데이터로 사용한 경우(모델 1)보다 공통배제문헌만 훈련데이터로 사용한 경우(모델 2)의 민감도가 높았던 것이 실험 2에 그대로 반영되어 모델 2의 민감도가 모델 1보다 여전히 높은 것으로 생각되었다.
연구를 진행하면서 나타난 제한점과 이를 보완하기 위한 향후 연구과제로 첫째, 체계적 문헌고찰에는 핵심 질문과 관련된 문헌이 모두 포함되어야 하기 때문에 민감도는 1이 되어야 하나, 본 연구의 평균 최대 민감도는 0.93(시술)으로 민감도 향상을 위한 추가 연구가 필요하다. 둘째, 본 연구의 검증을 위해 이전 연구들에서 사용한 약 주제 체계적 문헌고찰 4개를 실험에 포함하였으나, 실험에 포함된 문헌은 4,700여 편, 이 중 공통배제문헌은 161편으로 그 수가 적어 더 많은 데이터로 본 연구를 검증하는 것이 추가적으로 필요하다. 셋째, 체계적 문헌고찰에 포함되지 않는 문헌(배제문헌)을 배제해 줌으로 저자가 확인해야 할 문헌의 수를 줄여주기 위해서는 기계적으로 배제된 문헌이 왜 배제되었는지에 대한 배제사유가 필요하다. 그러나 본 연구 범위에 실험에서 배제된 문헌에 적절한 배제사유를 할당해 주는 것은 포함하지 않아, 추후 decision tree 등의 방법으로 배제문헌에 배제사유를 할당해주는 시스템 개발이 필요하다. 넷째, 본 연구에서 기계학습 방법으로 사용한 SVM과 Naїve Bayesian에는 다양한 옵션들이 있지만, 본 연구에서는 디폴트 세팅으로 실험하였기 때문에 향후 커널을 포함한 다양한 옵션들을 조정하여 최적화 시킨다면 분류성능을 더 향상시킬 수 있을 것이다.
본 연구는 관련 데이터가 없는 새로운 주제의 체계적 문헌고찰을 수행할 때 다른 주제로 수행된 기존의 체계적 문헌고찰 데이터를 훈련데이터로 사용하여 새로운 주제의 체계적 문헌고찰에 포함되지 않을 배제문헌을 높은 민감도로 분류함으로 저자가 확인해야 할 문헌의 수를 줄여주었다. 본 연구에서 제안한 방법을 통해 새로운 주제의 체계적 문헌고찰을 수행하는 저자의 체계적 문헌고찰 과정을 지원할 수 있을 것이다.

Language: Korean

URI: https://hdl.handle.net/10371/122055

Files in This Item:

000000025781.pdf 2.08 MB

Appears in Collections:

College of Medicine/School of Medicine (의과대학/대학원)
- Dept. of Medicine (의학과)
  - Theses (Ph.D. / Sc.D._의학과)

Altmetrics

Item View & Download Count

Show Full Item Record

Find it @ SNU

트윗하기

SNS Share