
Detailed Information

High-dimensional Covariance/Precision Matrix Estimation under General Missing Dependency : 일반적인 결측 구조 하의 고차원 (역)공분산 행렬 추론

Cited 0 time in Web of Science Cited 0 time in Scopus


Issue Date
서울대학교 대학원
학위논문(박사)--서울대학교 대학원 :자연과학대학 통계학과,2020. 2. 임요한.
A sample covariance matrix $\bS$ of completely observed data is the key statistic to initiate a large variety of multivariate statistical procedures, such as structured covariance/precision matrix estimation, principal component analysis, and graphical models. However, the sample covariance matrix obtained from partially observed data is not adequate to use due to its biasedness. To correct the bias, a simple adjustment method called an inverse probability weighting (IPW) has been used in previous research, yielding the IPW estimator. The estimator plays a role of $\bS$ under missing data context so that it can be plugged-in into off-the-shelf multivariate procedures instead of $\bS$. However, theoretical properties (e.g. concentration) of the IPW estimator have been only established under very simple structure of missing pattern; every variable of each sample is independently subject to missing with equal probability.

We investigate the deviation of the IPW estimator when observations are partially observed under general missing dependency. We prove the optimal convergence rate $O_p(\sqrt{\log p / n})$ of the IPW estimator based on the element-wise maximum norm. We also derive similar deviation results even when implicit assumptions (known mean and/or missing probability) are relaxed. The optimal rate is especially crucial in estimating a precision matrix, because of the ``meta-theorem'' \citep{Liu:2012} that claims the rate of the IPW estimator governs that of the resulting precision matrix estimator. In the simulation study, we discuss non-positive semi-definiteness of the IPW estimator and compare the estimator with imputation methods, which are practically important.
결측이 없는 자료에서 표본 공분산 행렬 $\bS$은 다양한 다변량 통계 절차를 개시하는 핵심 통계량이다. 가령, 구조를 가진 (역)공분산 행렬 추정, 주성분 분석, 그래프 모형 등에 $\bS$가 사용된다. 반면, 결측 자료를 이용하여 계산한 표본 공분산 행렬은 편향되어 있어 바람직하지 못하다. 기존 연구에서는 이러한 편향을 수정해주기 위해 역확률 가중치(IPW라 표기함)라는 간단한 보정 절차를 사용하였으며, 이를 통해 IPW 추정량을 제안하였다. IPW 통계량은 결측이 있는 자료에서 기존의 표본 공분산 행렬의 역할을 대신하며 기성 다변량 절차에 삽입하는 식으로 이용되어 왔다. 하지만, 이 추정량의 이론적 성질 - 예를 들어 집중 부등식 - 은 아주 단순한 구조의 결측 구조(모든 변수가 독립적으고 같은 확률로 결측에 노출이 됨) 하에서만 연구되어 왔다.

이에 본 학위 논문에서는 일반적인 결측 구조 하에서 발생한 결측 자료를 이용하여 계산한 IPW 추정량의 편차를 연구하고자 한다. 본 논문에서는 IPW 추정량의 원소별 최댓값 행렬 노음에 기반한 최적 수렴 속도 $O_p(\sqrt{\log p / n})$를 증명한다. 또한 암묵적인 가정들(평균 그리고/혹은 결측 확률을 알고 있음)을 완화하여 유사한 편차 부등식을 유도한다. 유도된 최적의 수렴 속도는 특히 역공분산 행렬 추정에 중대한 의미를 갖고 있다. 이는 IPW 추정량의 속도가 최종 역공분산 행렬 추정량의 속도를 지배한다는 ``메타 정리''\citep{Liu:2012}에 의해 뒷받침 된다.
모의 실험 연구에서는 IPW 추정량이 양의 준정부호 성질을 만족하지 않는 것에 대해 논하고, 대치법을 이용한 추정량과의 비교를 다루고 있다. 이는 실용적인 측면에서 중요한 논의들이다.
Files in This Item:
Appears in Collections:


Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.
