High-dimensional covariance matrix estimation and its application to multiple testing : 고차원 공분산 행렬의 추론과 다중검정에 대한 응용

Cited 0 time in Web of Science Cited 0 time in Scopus


Issue Date
서울대학교 대학원
Absolute correlation sum statisticconservative nullcovariance matrixdependence among high-dimensional variableshigh-dimensional inferencemultiple testingone-sided hypothesis
학위논문(박사) -- 서울대학교대학원 : 자연과학대학 통계학과, 2021.8. 조성훈.
This thesis is composed of two subjects on the high-dimensional covariance matrix estimation and its application to multiple testing. In the first part of the thesis, our main interest is on the introduction of statistic that measures how strongly one variable is interweaved to other variables. To this end, we consider the absolute correlation sum (A-CoS) statistic, which can measure the strength of the dependence, not affected by the sign pattern of correlations. In this topic, we study the theoretical properties of the A-CoS statistic and their application to identifying island and non-island variables. We also numerically investigate the performance of our procedure compared to other procedures which are naively induced by existing methods.

In the second part of the thesis, we propose a procedure, named DAB-PFA, to test many one-sided hypotheses simultaneously under the general dependency of test statistics. One-sided hypotheses in multiple testing make the empirical null distribution of p-values be conservative and further introduce a significant loss in power if we do not take this account appropriately. In this part, we use the principal factor approximation by Fan and Han (2017) to account for the dependency among test statistics, and propose to adaptively discard statistics with small or large p-values in estimating the false discovery proportion (FDP). We theoretically prove the convergence of the estimated FDP by DAB-PFA to the true FDP and compute its rate. We also numerically compare the FDP control and power of the proposed DAB-PFA to existing procedures. Finally, we apply the proposed method to protein phosphorylation analysis of ovarian serous adenocarcinoma to identify protein modification levels uniquely elevated in each of the five molecular subtypes.
이 논문은 고차원 공분산 행렬의 추론과 다중검정에 대한 응용에 관련된 두 개의 주제로 구성되어 있다. 첫번째 주제에서는 한 변수가 다른 변수들과 얼마나 연관되어 있는지를 측정하는 통계량에 대해서 다룬다. 이를 위해 이 연구에서는 상관계수의 절댓값들의 합 (A-CoS)을 고려하였다. 이 통계량은 변수들 간의 종속 관계의 강도를 측정할 수 있며, 특히 상관관계의 부호 패턴에 영향을 받지 않는다는 장점이 있다. 이 주제에서 우리는 A-CoS 통계량의 이론적 성질에 대해 연구했으며, 다중 검정에 적용하여 island 변수와 non-island 변수의 식별 방법을 제안하였다. 그리고 시뮬레이션을 통해 제안한 방법과 다른 방법들의 성능을 평가 및 비교하였다.

두번째 주제에서는 일반적인 종속관계 하에서 단측 다중검정을 수행할 때 FDR을 제어하기 위한 절차를 제안하였다. 단측 검정을 수행할 때 귀무가설 하에서 p-값의 분포는 보통 보수적으로 나타나는데, 이를 적절히 고려하지 않는다면 심각한 검정력 감소로 이어질 수 있다. 이 연구에서는 검정통계량 간의 종속관계를 고려하기 위해 Fan and Han (2017)에서 제안한 principal factor approximation (PFA)를 사용했으며, 추가적으로 FDP를 추정하는 과정에서 0 또는 1에 가까운 p-값을 버리는 방법을 사용하였다. 이렇게 구성된 DAB-PFA 방법을 이용한 FDP 추정량이 실제 FDP 값으로 수렴한다는 것을 이론적으로 증명했으며, 적절한 가정 하에서 수렴속도도 계산하였다. 시뮬레이션을 통해 제안한 방법과 다른 기존 방법들의 FDP 제어와 검정력에 대한 비교도 수행하였다. 마지막으로 제안한 방법을 ovarian serous adenocarcinoma의 단백질 인산화 분석에 적용하여, 다섯 가지 분자 타입 각각에서 다른 타입들에 비해 상대적으로 높은 단백질 변형 수치를 나타낸 위치를 식별하는데 사용하였다.
Files in This Item:
Appears in Collections:
College of Natural Sciences (자연과학대학)Dept. of Statistics (통계학과)Theses (Ph.D. / Sc.D._통계학과)
  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.