Browse

다중 질의 표현 방법을 이용한 의생명 문헌 컬렉션 구축의 적정성 평가

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors
유보림
Advisor
최진욱
Major
의학과
Issue Date
2012-02
Publisher
서울대학교 대학원
Description
학위논문 (석사)-- 서울대학교 대학원 : 의학과, 2012. 2. 최진욱.
Abstract

일반적으로 정보 검색에서는 사용자의 정보 요구가 질의로 표현되고, 검색 시스템은 입력받은 질의와 검색 대상 문서들 간의 유사도를 계산하여 높은 순서로 문서들의 순위를 사용자에게 제공한다. 컬렉션 문서 집합을 설정하고 검색 시스템이 제공하는 질의에 대한 결과에 대한 실제 정답 문서의 일치 여부에 따라 검색 시스템의 성능 평가가 이루어진다. 질의와 각 질의에 적합한 정답 문서의 집합을 구성하는 것은 검색 시스템의 평가에 절대적인 영향을 미치는 중요한 항목이다. 본 연구에서는 다중 질의 표현 방법을 적용하여 질의별 적합 문서를 만들었고, 이러한 방법으로 만들어진 질의별 적합 문서의 활용 가능성에 대한 적정성을 평가하기 위해 기존의 정답에 의한 평가 성적과 비교 및 분석 하였다.
본 연구에서는 의생명 연구 문헌들을 대상으로 하는 테스트 컬렉션을 구축하기 위한 다양한 질의 표현으로 질의-적합 문서를 만드는 방법에 대해 고찰하고자 한다. 2004년도의 TREC Genomics track의 데이터를 제공받아 기존의 질의 당 4개씩의 새로운 질의를 만들었고, 이렇게 기존의 징릐를 다양하게 표현하는 Aspect 질의에 대한 검색을 수행하였다. 각 검색 결과의 상위 100개의 문서를 합하여 질의별 적합 문서 집합을 구성하였고 이를 기존 질의에 대한 Aspect-qrel 정답 문서 집합이라 정의한다. Aspect-qrel 집합을 정답 문서 집합으로 하여 검색 결과에 대해 평균 정확률 (MAP: Mean average precision) 점수를 계산하였고, 이렇게 Aspect-qrel 정답을 기준으로 산출되는 평균 정확률 점수는 Aspect-MAP (aMAP)로 정의하였다.
다양한 질의 표현 방법으로 만들어진 질의별 정답 문서에 대한 검증을 위하여, 2004년도 TREC Genomics track 평가대회에 참가한 46개 팀이 제출한 검색 데이터로 각 검색 결과 데이터에 대해 MAP 점수와 aMAP 점수를 산출하였다. 이러한 방법으로 46개 팀의 순위를 정하여 순위 상관분석 방법으로 분석하였다. Kendall's tau와 Spearman's src 순위 상관계수의 산술평균은 각각 0.6694와 0.831이며, 이는 통계적으로 유의한 수준(p<0.01)에서 분석되었다.
이렇게 검증된 결과로 볼 때, 본 연구에서 제안하는 다양하게 표현된 질의를 이용한 질의별 적합 문서 정답을 구성하는 방법은 의생명 분야의 테스트 컬렉션을 구축하는 데에 효율적인 방법으로 사용될 것이라 기대한다.
Language
kor
URI
https://hdl.handle.net/10371/155380

http://dcollection.snu.ac.kr/jsp/common/DcLoOrgPer.jsp?sItemId=000000001059
Files in This Item:
There are no files associated with this item.
Appears in Collections:
College of Medicine/School of Medicine (의과대학/대학원)Dept. of Medicine (의학과)Theses (Master's Degree_의학과)
  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse