Browse

확장형 연관 규칙 추출 방법론과 의생명 분야에서의 활용
A method for mining extended association rules and its application to biomedical data

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors
김응희
Advisor
김홍기
Major
의과대학 협동과정의료정보학전공
Issue Date
2016-02
Publisher
서울대학교 대학원
Keywords
연관 규칙이진 논리식정적 데이터동적 데이터수학 모델알고리즘시스템
Description
학위논문 (박사)-- 서울대학교 대학원 : 의과대학 협동과정 의료정보학전공, 2016. 2. 김홍기.
Abstract
서론: 데이터 마이닝 기법들 가운데 활발히 연구되고 있는 분야 중 하나인 연관 규칙 추출 방법론은, 주어진 transaction 집합 내에 존재하는 아이템 간의 규칙성을 추출하는 기법이다. Transaction 집합으로부터 추출된 연관 규칙은 아이템 집합으로 이루어진 전제와 결론으로 구성되며, 규칙의 중요도를 나타내는 두 개의 지표인 지지도와 확신도를 갖는다. 온라인 쇼핑몰 서비스들이 지원하는 상품 추천 기능은 연관 규칙의 대표적인 활용 실례들 중 하나로써, 고객이 검색 혹은 구입한 목록 리스트와 특정 연관 규칙의 전제가 부합할 경우, 해당 연관 규칙의 결론을 고객에게 추천하 는 방식을 기본적으로 차용한다. 고로 연관 규칙의 전제는 고객 모델링 및 추천 리스트 결정과 같은 절차에서 핵심적인 역할을 한다 할 수 있다. 그러나 기존의 연구들은, 대용량 데이터로부터 연관 규칙 추출에 소요되는 시간 단축, 정보 손실 방지와 동시에 추출되는 연관 규칙 수의 최소화 등과 같은 성능 중심의 주제들에 주된 연구 초점을 맞추고 있어, 연관 규칙 전제의 표현력 대한 연구는 상대적으로 미비하다. 또한 연관 규칙이 추출되는 transaction 집합의 특성에 관한 분석과 이에 따른 구분 없이 단순한 대용량 데이터 집합으로 규정하고 있으며, 이는 transaction 집합이 생성 및 활용되는 분야에 맞춤화된 연관 규칙 추출 방법론의 부재를 야기한다 할 수 있다. 이에 본 연구에서는, 연관 규칙의 전제의 표현력 증가를 위한 수학 모델을 제시하고, transaction 집합을 정적 데이터 (Static data) 그리고 동적 데이터 (Dynamic data)로 세분화하고자 했다. 또한, 새롭게 제시된 연관 규칙 모델과 데이터에 대한 관점들을 기반한 다양한 알고리즘들을 소개하며, 이를 지원하는 시스템들을 구현하였다. 나아가, 본 연구의 산출물을 의생명 분야에 적용함으로써, 그 효용성을 평가하였다.

방법: 전통적인 연관 규칙의 전제는, 전체 아이템 집합의 부분 집합으로 정의되어, 전제를 통해 사용자의 특성 및 선호도를 기술함 있어 표현력의 한계가 있으므로, 집합에 비해 높은 표현력을 지닌 이진 논리식으로 전제의 형식을 확장 및 재정의한다. 논리 연산자 AND와 OR 그리고 NOT 및 우선 순위를 명시할 수 있는 괄호의 사용을 허용하는 이진 논리식을 연관 규칙의 전제의 형태로 지정하여, 보다 명확하고 상세히 사용자의 특성 및 선호도를 기술할 수 있도록 한다. 또한 transaction 집합의 업데이트 성향에 초점을 맞추어, 상대적으로 적은 업데이트 빈도 혹은 긴 업데이트 간격을 갖는 데이터를 정적 데이터 집합으로 정의하고, 이와는 상대적인 개념으로써, 잦은 업데이트 빈도 혹은 짧은 업데이트 간격을 갖는 데이터를 동적 데이터 집합으로 정의한다. 세분화된 데이터 집합들로부터, 이진 논리식 형태의 전제에 부합하는 결론들을 추출하는 알고리즘 및 시스템 집합을 개발하고, 기 개발된 알고리즘들과의 성능 비교를 통해 그 우월성을 검증한다. 본 연구에서 구현된 모든 시스템은 Java 및 JavaCC (Java Compiler Compiler)를 사용하여 구현하며, 다양한 실험 데이터 집합과 의생명 분야 데이터를 시스템에 적용함으로써, 그 실효성 및 잠재력을 검증한다.

결과: 온라인 상에서 획득 가능하며 다양한 연구에서 활용된 sushi, chess, nursery, mushroom 그리고 soybean 데이터 집합을 실험 데이터로, 연관 규칙 추출 분야의 대표적인 알고리즘인 charm, direct, titanic, qtr-sub를 알고리즘 비교 군으로 선정, 본 연구에서 제안한 알고리즘들과의 성능 비교를 수행하였다. 상대적으로 복잡도가 낮은 sushi를 대상으로 한 실험에서는, 본 연구에서 제안한 알고리즘들과 charm 그리고 qtr-sub 알고리즘이 대동 소이한 성능을 보였다. 반면 direct 그리고 titanic 알고리즘은 현저히 낮은 성능을 보여 추가 실험에서 배제하였다. 실험에 활용된 데이터 중 중간 수준의 복잡도를 지닌 chess 및 nursery 데이터에 대한 실험에서는, charm 알고리즘에 비해 본 연구에서 제안한 알고리즘들의 성능이 미세하게 우수한 것으로 확인되었으며, qtr-sub 알고리즘의 성능은 현저히 낮게 측정 되어 이후 실험에서 배제하였다. 가장 높은 복잡도를 지닌 데이터 집합인 mushroom과 soybean 데이터 집합에 대한 실험에서는, 본 연구에서 제안한 알고리즘들의 성능이 charm에 비해 월등하다는 점을 확인할 수 있었다. 또한 동적 데이터를 대상으로, 전제의 형태가 이진 논리식인 확장형 연관 규칙 집합을 추출할 경우, 정적 데이터 대상의 알고리즘들에 비해, 동적 데이터 대상의 알고리즘의 성능이 월등히 높음을 확인할 수 있었다. 마지막으로 pubmed로부터 수집 가능한 의생명 관련 데이터인, BMC bioinformatics 그리고 International journal of medical informatics를 통해 출판된 논문들의 메타 데이터를 본 연구의 최종 산출물인 연관 규칙 추출 시스템에 적용하여, IT 전공자에게 의생명 연구 분야를 성공적으로 추천할 수 있음을 확인할 수 있었다.
Language
Korean
URI
https://hdl.handle.net/10371/121796
Files in This Item:
Appears in Collections:
College of Medicine/School of Medicine (의과대학/대학원)Program in Medical Informatics (협동과정-의료정보학전공)Theses (Ph.D. / Sc.D_협동과정-의료정보학전공)
  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse