Browse

Large-sample test for joint signal extraction in multiblock data
다중원천 데이터의 공통 구조 도출을 위한 다표본 통계 검정

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors
한상일
Advisor
정성규
Issue Date
2020
Publisher
서울대학교 대학원
Description
학위논문(석사)--서울대학교 대학원 :자연과학대학 통계학과,2020. 2. 정성규.
Abstract
This thesis is about a test of the existence of a joint structure in a joint-individual model, which is proposed by Lock, et al[Ann. Appl. Stat.,7(2013),523]. in blocks of data obtained from multi-source data. For two data blocks, assume that each data blocks is a matrix of size (p × n),(q × n) and written as X = vZ + E with a significant random row vector signal Z with rank 1 represented by a loading vector v, and a noise matrix, E. While Feng, et al.[J.Multivar.Anal.,166(2018),241-265] define the distance of signals as the principal angle, we define the measure of closeness of signals as the square of cosine principal angle. Assuming that each sample of a significant signals follows iid bivariate normal, a test of the joint signal rank selection is proposed
using the fact that the closeness measure of the significant signals follows Beta( 1/2,n−1/2). In addition, we estimate unobservable v and significant signals Z by using the fact that from the form of the data block, v is the maximal eigenvector of the covariance matrix, Var(X1), where X1 is the first column of X. Replacing the unobservable Z by the predictions Zˆ, we develop a largesample test procedure for the rank of the joint signal. In the simulation study, this asymptotic test is compared to the joint structure rank selection process of Feng, et al.[J.Multivar.Anal.,166(2018),241-265], called AJIVE. Simulation results show that this asymptotic test is similar to AJIVE’s joint rank selection in performance. Under the assumption that significant signals follow the normal distribution, the asymptotic test is expected to be a good alternative to the AJIVE rank selection.
본 연구는 다중원천 데이터에서 얻은 데이터 블럭에서 Lock, et al.[Ann. Appl. Stat.,7(2013),523]가 제시한 공통-개별구조에서 공통구조의 존재성에 대한 검정을 다룬다. 두 개의 데이터 블럭에 대해, 각 데이터 블럭은 (p×n)와 (q × n) 사이즈인 행렬이며 각 데이터 블럭 X는 랭크가 1인 유의미한 랜덤 행벡터 시그널 Z가 로딩 벡터 v로 표현되며 잡음 E가 더해지는 X = vZ + E의 형태임을 가정한다. Feng, et al[J.Multivar.Anal.,166(2018),241-265]은 공통-개별구조에서 유의미한 시그널들의 거리를 principal angle로 정의한 반면, 본 연구에서는 유의미한 시그널들의 유사함의 측도를 principal angle의 코사인 함수 제곱값으로 정의한다. 유의미한 시그널의 각 표본이 iid 이변량 정규분포를 따른다고 가정할 때 유의미한 시그널의 유사함 측도가 Beta( 1/2,n−1/2)분포를 따름을 이용하여 유의미한 시그널의 공통구조 추출에 대한 검정을 제안한다. 더하여 데이터 블럭의 형태로 부터 v가 공분산행렬의 maxmal eigenvector라는 사실을 이용하면 관측 할 수 없는 v와 유의미한 시그널 Z를 추정할 수 있다. 관측 불가능한 Z의 값을 예측값 Zˆ로 대체하여,우리는 공통 신호의 랭크에 대한 다표본 검정을 개발한다. 시뮬레이션 연구에서는 이 점근적 검정과 AJIVE로 불리는 Feng, et al [J.Multivar.Anal.,166(2018),241-265]의 공통구조 랭크 판단을 비교하였다. 시뮬레이션 결과, 이 점근적 검정이 AJIVE의 기존 방법을 대체할만큼 AJIVE의 랭크 판단과 전반적으로 비슷한 결과를 보여줌을 확인하였다. 따라서 유의미한 신호들이 정규분포를 따른다는 가정하에서 이 점근적 테스트가 AJIVE 랭크 판단과정의 좋은 대안이 될 것으로 기대된다.
Language
eng
URI
http://dcollection.snu.ac.kr/common/orgView/000000160443
Files in This Item:
Appears in Collections:
College of Natural Sciences (자연과학대학)Dept. of Statistics (통계학과)Theses (Master's Degree_통계학과)
  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse