Publications

Detailed Information

Variable Selection Methods in High-Dimensional Regression Analysis : 고차원 회귀분석에서의 변수선택 방법론

DC Field Value Language
dc.contributor.advisorJunyong Park-
dc.contributor.author신도협-
dc.date.accessioned2023-06-29T02:36:53Z-
dc.date.available2023-06-29T02:36:53Z-
dc.date.issued2023-
dc.identifier.other000000175936-
dc.identifier.urihttps://hdl.handle.net/10371/194392-
dc.identifier.urihttps://dcollection.snu.ac.kr/common/orgView/000000175936ko_KR
dc.description학위논문(석사) -- 서울대학교대학원 : 자연과학대학 통계학과, 2023. 2. Junyong Park.-
dc.description.abstractHigh-dimensional data analysis is attracting attention in many fields these days. In particular, it is a difficult and important problem to select a variable that has a significant effect among numerous variables. Several statistical methods exist to solve this problem, such as multiple testing and LASSO in linear regression models.
In this paper, we introduce the case of Lasso, adaptive Lasso, Elastic net, and generalized linear models in B ̈uhlmann and Van De Geer (2011) [3]. Also, we review and cover the multiple testing procedures and introduce a recent method of false discovery rate(FDR) control via data splitting proposed by Dai et al.(2022) [4]. Finally, if relevant variables are sparse, we check whether the adaptive Lasso estimator gives better results than the Lasso estimator through simulation. In addition, we confirm that the MDS method is more stable and has higher empirical power than the DS method by simulation.
-
dc.description.abstract최근 많은 분야에서 고차원 데이터 분석이 주목받고 있다. 특히 수많은 변수 중에서 유의미한 영향을 미치는 변수를 선택하는 것은 어렵고도 중요한 문제이다. 이 문제를 해결하기 위해 선형 회귀 모델에서 다중 검정 및 LASSO와 같은 몇 가지 통계적 방법이 있다.
본 논문에서 우리는 B ̈uhlmann and Van De Geer (2011)[3]에서 다루는 Lasso, Adaptive Lasso, Elastic net 및 일반화된 선형 모델 사례를 소개한다. 또한, 우리는 여러 다중 검정 절차를 다루고 Dai et al.(2022)[4]가 최근에 제안한 데이터 분할을 통한 허위 발견률(FDR) 제어 방법을 소개한다. 마지막으로 유의한 변수가 희소한 경우 Lasso 추정량보다 적응형 Lasso 추정량이 더 좋은 결과를 주는지 시뮬레이션으로 확인해 본다. 그리고 DS와 MDS 방법으로 FDR을 통제하는 경우 MDS 방법이 DS 방법보다 더 안정적이고 경험적 검정력이 높은 것을 시뮬레이션을 통해 확인해 본다.
-
dc.description.tableofcontents1. INTRODUCTION 1
2. Lasso Regression 3
2.1 The Lasso estimator 3
2.2 Adaptive Lasso 4
2.3 Elastic net 5
2.4 Lasso for Generalized Linear Models 5
2.4.1 Logistic regression 7
3. FDR control via data splitting 8
3.1 Multiple testing 8
3.2 BHq procedure 10
3.3 FDR control in Regression models 11
3.4 Single Data Splitting(DS) 11
3.5 Multiple Data Splitting(MDS) 13
3.6 Application for linear models 14
4. Simulation Study 15
4.1 Lasso vs Adaptive Lasso 15
4.2 DS vs MDS 16
5. R code 20
6. Conclusion 23
-
dc.format.extentxxvi, 26-
dc.language.isoeng-
dc.publisher서울대학교 대학원-
dc.subjectVariable Selection-
dc.subjectLasso-
dc.subjectFalse Discovery Rate-
dc.subjectData Splitting-
dc.subject.ddc519.5-
dc.titleVariable Selection Methods in High-Dimensional Regression Analysis-
dc.title.alternative고차원 회귀분석에서의 변수선택 방법론-
dc.typeThesis-
dc.typeDissertation-
dc.contributor.AlternativeAuthorDohyup Shin-
dc.contributor.department자연과학대학 통계학과-
dc.description.degree석사-
dc.date.awarded2023-02-
dc.identifier.uciI804:11032-000000175936-
dc.identifier.holdings000000000049▲000000000056▲000000175936▲-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share