Publications

Detailed Information

Classification for Multivariate Binary Data based on Association Rule : 연관 규칙에 기반한 다변량 이진 데이터 분류 문제의 해결

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

김명준

Advisor
PARK JUN YONG
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
ClassificationAssociation ruleHigh-dimensional dataMultivariate binary data
Description
학위논문(석사) -- 서울대학교대학원 : 자연과학대학 통계학과, 2023. 2. PARK JUN YONG.
Abstract
High-dimensional data refers to data which contains a lot of variables more than or equal to the number of observations. When dealing with high-dimensional data, it is necessary to select variables with high importance for further analysis, and association rule can be a useful method when data is binary. Association rule is one of the data mining techniques that extracts meaningful relationships from data. In this thesis, association rule will be used to analyze microbial DNA fingerprint data. To this end, this thesis uses association rule as a classifier and compares it with several machine learning models. Also, this thesis proposes a variable selection algorithm based on association rule. By comparing association rule with other variable selection methods, it was found that association rule is a useful technique to solve classification problems for multivariate binary data.
고차원 데이터는 변수의 개수가 관측치의 수와 비슷하거나 그 이상으로 많은 데이터를 의미한다. 고차원 데이터를 다룰 때 추후 분석을 위해 중요도가 높은 변수를 선택하는 것은 필수적이며, 데이터가 이진 변수로만 이루어져 있는 경우 연관 규칙은 유용한 방법이 될 수 있다. 연관 규칙은 데이터로부터 유의미한 관계를 추출하는 데이터 마이닝 기법의 하나이다. 본 논문에서는 연관규칙을 활용하여 미생물 DNA 지문 데이터를 분석할 것이다. 이를 위해, 먼저 연관 규칙을 분류기로서 사용하고 여러 머신 러닝 모형과 그 성능을 비교한다. 더 나아가 연관 규칙에 기반한 변수 선택 방법을 제안하고, 이미 알려진 변수 선택 방법과 비교할 것이다. 이를 통해 다변량 이진 데이터의 분류 문제 해결에 있어서 연관 규칙이 유용함을 확인하는 것이 목표이다.
Language
eng
URI
https://hdl.handle.net/10371/194385

https://dcollection.snu.ac.kr/common/orgView/000000174832
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share