Publications

Detailed Information

Toward Efficient and Accurate Schema Matching - Cross Similarity Vector Approach and Learning-based Matcher Combination : 효율적인 스키마 매칭 방법 – 교차 유사벡터 접근과 기계학습 기반의 매쳐 조합 전략을 중심으로

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

최영석

Advisor
박진수
Major
경영대학 경영학과
Issue Date
2014-08
Publisher
서울대학교 대학원
Keywords
schema matchingdata matchingcombinational matchingmatcher combinationcross similarity vectorlearning-based classificationdata integrationmachine learning
Description
학위논문 (박사)-- 서울대학교 대학원 : 경영학과, 2014. 8. 박진수.
Abstract
IT 시스템이 기업의 필수 역량으로 자리잡은 이후로, IT 시스템 간 통합 및 상호 운용성의 확보는 학계는 물론 실무에서도 중요한 문제로 다루어져 왔다. 기업의 IT관련 지출의 대부분이 시스템 통합비용으로 소모되고 있을 뿐만 아니라, 기업간 인수 합병의 일반화, 데이터원의 다양화로 인해 자동화된 시스템 통합 방법론의 개발 수요가 꾸준히 증가하고 있다. 더욱이 빅데이터 시대의 도래에 따라 기업이 중복 데이터 및 유사 데이터를 효율적으로 관리하는 것이 기업의 핵심 역량으로 떠오르고 있다. 이러한 가운데, 시스템 통합의 기초가 되는 데이터 스키마 매칭(Schema Matching)은 수십여 년 전부터 연구되어왔음에도 불구하고 여전히 개선의 여지가 상당한 실정이다.
스키마 매칭은 그 활용의 범용성에 있어 중요성이 매우 크다고 할 수 있다. 단일 기업 내에서도 데이터 웨어하우스 운영을 위해서는 다양한 출처에서 발생하는 데이터들을 단일화된 시각으로 다루어야 할 뿐만 아니라, 복수 기업의 인수 및 합병 상황에서도 데이터를 하나의 관점에서 관리할 필요성이 생기게 된다. 이러한 다양한 데이터 통합을 위해서는 통합에 앞서 데이터 스키마 매칭이 필수적이다. 스키마 매칭은 통합하고자 하는 두 데이터원의 스키마간의 연결을 찾는 방법론으로, 다양한 방법을 활용해 동일한 스키마 요소를 찾아내게 된다. 뿐만 아니라, 데이터베이스의 질의어 처리에 있어서도 복수의 데이터 베이스에서 동일한 데이터 필드가 무엇인지에 대한 정보가 없는 경우 질의어에 대한 원하는 답을 알아내가 어렵다. 사전에 이종 데이터들이 지칭하고 있는 동일한 데이터가 무엇인지에 대한 정보가 있다면 이러한 일들을 보다 쉽게 처리할 수 있게 될 것이다.
데이터의 스키마 매칭을 위해서 기존 연구들은 다양한 방법을 적용해왔다. 컴퓨터 언어학을 기반으로 스키마 요소의 이름 (schema element name)간의 유사성을 계산하는 다양한 방법들이 제시되었을 뿐만 아니라, 데이터 스키마가 갖는 구조적인 유사성을 기반으로 통합을 필요로 하는 두 데이터 스키마를 매칭하는 연구도 제안되었다. 이런 다양한 매칭 방법들이 제시됨에 따라 기존의 매칭 방법들을 조합해 보다 나은 매칭 성과를 내기 위한 노력도 많은 연구자들이 진행해왔다. 스키마 매칭 문제가 갖는 상황의 특수성으로 인해, 단일 매칭 알고리즘이 모든 매칭 상황을 효율적으로 해결할 수 없기 때문에 대부분의 최근 연구들은 기존의 매칭 방법의 조합 방법에 초점을 맞추고 있는 것이 현실이다. 그러나, 대부분의 연구들은 데이터 스키마 이름이 가지고 있는 특수성으로 인해 완벽히 자동화된 방법론을 제안하는데
실패하였다. 데이터 스키마의 이름은 스키마를 디자인하는 디자이너의 개인적인 습성에 따라 약어를 사용하거나 띄어쓰기 등을 생략하는 등 이름의 명시성을 확보하기가 어려운 것이 사실이다. 따라서 이런 이름이 내포하고 있는 의미를 사람이 직접 풀어내는 과정을 채택하여 전체 매칭 시스템의 효율성을 높여왔다. 그러나, 현실적으로 사람이 수동으로 스키마 이름이 내포하고 있는 의미를 풀어내는 과정을 진행하는 것은 매우 어려운 일일 뿐만 아니라, 자동화를 위해서는 반드시 풀어야 하는 문제이다. 또한 단일 매칭 방법들이 수백 여가지가 넘게 제시된 상황에서, 이를 효과적으로 조합해내는 방법론을 찾기는 쉽지 않다. 앞으로도 제시될 많은 단일 매칭 방법론들을 효과적으로 첨가하고, 상황에 맞게 필요한 매칭 방법들만을 활용해 스키마 매칭을 수행하는 방법론이 필요하다고 할 수 있겠다.
단일 매칭 방법론 중 구조적 유사성을 이용해 매칭되는 스키마 요소들을 찾는 방법론도 근원적으로 가지고 있는 단점으로 인해 그 효과성이 떨어지고 있다. 구조적인 유사도 측정 방식의 경우, 스키마가 가지고 있는 구조적 유사성만을 살피게 되어 동일한 의미임에도 불구하고 구조적 디자인이 달리 되어있다는 이유만으로 매칭에 실패하는 경우가 발생하게 된다. 단순히 기하적인 구조만을 살펴 스키마 매칭을 실행하기 때문에 발생하는 문제로 볼 수 있을 것이다.
본 연구에서는, 먼저 기존의 구조적인 유사성을 기반으로 하는 스키마 매칭 방법이 갖는 단점을 보완할 수 있는 Cross Similarity Vector 접근 방법을 제안하였다. 데이터베이스 연구에서 오랜 전통을 가지고 있는 Context의 개념을 도입하여 스키마 요인들의 의미적 Context를 반영하여 매칭을 실행하는 새로운 방법론을 제시하였다. 이 방법론은 기존에 존재하는 의미 기반의 스키마 매칭 방법을 활용하여 구조적인 유사도를 계산함으로써 새로운 유사도 계산 방법을 추가적으로 확보할 수 있을 뿐만 아니라 매칭의 정확도 또한 기존의 구조적 유사성을 기반으로 한 매칭 방법에 비해 높다는 장점을 가지고 있다.
다음으로는 기존에 존재하는 다양한 매칭 방법들을 기계학습 방법론을 기반으로 조합하는 방법론을 제시하였다. 다양한 매칭 방법들을 조합해 내기 위해 기계학습 기반의 분류기를 만들어 소스와 타겟이 되는 스키마간의 유사도를 계산하였다. 사용되는 개별 매칭 방법론들은 매칭을 위한 특성 벡터 공간을 형성하게 되며, 각 방법론을 통해 계산된 유사도 들은 벡터공간상의 점으로 표현되게 된다. 이런 기계학습 기반의 분류기법을 복수의 스키마 매칭 방법의 조합에 적용함으로써, 매칭의 효율성을 확보했을 뿐만 아니라, 매칭의 전 과정을 자동화하는데 성공했다. 스키마 요소의 이름이 갖는 유사성을 찾기 위해 다양한 유사도 기법들을 활용하였고, 약어의 매칭을 위해 Edit distance기반의 다양한 유사도 계산법들이 활용되었다.
본 연구는, 구조적인 유사성을 계산하는 효율적인 방법론을 제안해 냈을 뿐만 아니라, 기존의 많은 스키마 매칭 알고리즘들을 활용할 수 있는 통합적인 프레임워크를 제공했다는 점에서 그 기여점이 크다고 할 수 있다. 더욱이 반자동화된 스키마 매칭 방법론에 비교할 때 본 연구에서 제안하는 자동화 방법이 동일한 수준의 매칭 성능을 보여주고 있기 때문에, 차후 상용화의 가능성도 매우 크다고 할 수 있겠다.
Schema matching is one of the main challenges in in many database application domains, such as data integration, E-business, data warehousing, and semantic query processing. Over the past 20 years, different schema matching methods have been proposed and shown to be successful in various situations. Schema matching still seems to involve ad-hoc solutions with only a few works that involve foundational principles of schema matching because most of schema matching situations are too generic. Though many advanced matching algorithms have emerged, the schema matching research remains a critical issue. Different algorithms have been implemented to resolve different types of schema heterogeneities, including the differences in design methodologies, the naming conventions, and the level of specificity of schemas, among others.
Since hundreds of schema matching algorithms have been proposed, a strategy for combining existing matchers becomes one of the most important issues on schema matching studies. Composite and hybrid matching approaches are the main methodology to cope with the various schema matching situations. Selecting and combining appropriate matching algorithms for a given matching situation is very critical for improving matching performance.
Schema matching research can be classified into two folds
finding new single schema matching algorithms and making a strategy for combining multiple matchers. Individual matcher usually reflect the properties of schema element such as name, structure, constraints, etc. In this dissertation, first, I propose a novel approach to find structural similarity using the concept of cross similarity vector. Proposed approach has its theoretical foundation from a context in database design. The approach covers the drawbacks of existing structural measures. By calculating the similarity between context structures using cross similarity vector, more advanced structural schema matching metric can be found. Second, very efficient way to combine existing matchers is introduced and evaluated using the sample schema data. Most of existing combinational approaches have focused on finding optimal linear combination of multiple measures, which is a part of heuristic optimization. These approaches tend to make arbitrary weight and threshold by iterative test. This task is very inefficient and the complexity of problem increases when the number of matchers is large or increases. To solve this kind of problem, I suggest the matcher combination strategy based on supervised learning classifier. By transforming the schema matching task into learning-based classification problem, the number of parameter is dramatically decreased as the number of matcher increases. Comparing representative schema matching prototype, proposed approach is fully automated. Any types of human intervention such as abbreviation processing, user feedback, are not adopted at all. The performance of proposed approach is also better than existing fully automatic schema matching algorithms and nearly at the level of semi-automatic schema matching approach.
Language
English
URI
https://hdl.handle.net/10371/119354
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share