Publications

Detailed Information

Protein Significance Analysis of Multiple Reaction Monitoring (MRM) Data via Generalized Linear Mixed Effect Models

DC Field Value Language
dc.contributor.advisor박태성-
dc.contributor.author전종수-
dc.date.accessioned2017-07-19T08:46:11Z-
dc.date.available2017-07-19T08:46:11Z-
dc.date.issued2016-02-
dc.identifier.other000000132640-
dc.identifier.urihttps://hdl.handle.net/10371/131307-
dc.description학위논문 (석사)-- 서울대학교 대학원 : 통계학과, 2016. 2. 박태성.-
dc.description.abstract단백질 바이오마커의 발굴은 현재 생물의학 연구의 중요한 쟁점 중 하나이다. 엘라이자(enzyme-linked immunosorbent assay, ELISA) 는 전통적인 단백질 정량 방법의 하나다. 많은 수의 새로운 단백질들이 연구됨에 따라 엘라이자를 이용한 단백질 바이오마커 발굴에 있어 새로운 쟁점들이 드러났다. 다중반응관측(multiple reaction monitoring, MRM) 질량분석 방법은 엘라이자를 대체할 수 있는 특정 단백질 정량 방법이며 최근 더욱 활용되고 있다. 그러나 이러한 다중반응관측 자료를 이용한 통계적인 단백질 연관성 분석 방법의 개발은 크게 주목받지 못하였다. 초기에는 다중반응관측 자료를 이용하여 두 집단의 평균에 차이를 검증하기 위해 t 검정 혹은 쌍체 t 검정이 이루어 졌고 여러 집단의 평균 차이를 검증하기 위해 선형모형을 이용한 방법이 적용되었다. 2012년에 MSstats 이라 불리는 선형혼합모형을 이용한 단백질 연관성 분석 방법이 제안되었고 이후 널리 사용되고 있다. 이 선형혼합모형을 이용한 방법은 Skyline 프로그램과 R 프로그래밍 언어를 통해서 사용할 수 있다. 선형혼합모형을 통해 계산된 단백질 연관성 p 값은 모형 설정에 따라 많은 변화가 있고 이로 말미암아 많은 거짓 양성 혹은 참 음성이 생길 수 있다. 더욱이 이전에 제안된 선형혼합모형을 이용한 방법은 단백질을 대표하는 특징요인들의 집단 간 발현 양상이 서로 다르게 되면 검정력에 손실이 생기게 된다. 이러한 요인들이 임의효과인지 고정효과인지 에 대해 더욱 강건하며 특징요인들의 집단 간 발현 양상에도 더욱 강건한 모형을 제안하는 동기가 되었다. 우리는 일반화 선형혼합모형의 분산성분 검정방법을 이용한 단백질 연관성 분석을 제안하였다. 우리는 일반화 선형혼합모형 방법이 이전에 제안되었던 선형혼합모형 방법보다 요인들의 효과의 유형에 대해 더욱 강건하다는 것을 다양한 모의실험을 통해 관찰하였고 더욱 검정력이 좋은 경우를 다양한 모의실험을 통해 관찰하였다. 그뿐만 아니라 특징요인들의 집단 간 발현 양상이 서로 다를 때에 선형혼합모형 방법은 저조한 검정력을 보이지만 새롭게 제안한 일반화 선형혼합모형을 이용한 방법은 검정력에 손실이 없었다. 새롭게 제안한 일반화 선형혼합모형 방법이 유의미한 p 값을 제시하고 이전에 제안되었던 선형혼합모형 방법이 유의미하지 않은 p 값을 제시하는 경우를 실제 자료 분석을 통해 관찰하였다. 따라서 다중반응관측 자료를 이용해 단백질 연관성 분석을 할 때에는 이전에 제안되었던 선형혼합모형을 이용한 방법뿐만 아니라 새롭게 제안한 일반화 선형혼합모형을 이용한 방법도 같이 사용되어야 한다.-
dc.description.abstractDiscovering protein biomarkers is one of the current important issues in biomedical research. The enzyme-linked immunosorbent assay (ELISA) is one of traditional protein quantitation techniques. As many novel proteins being studied, some issues of using ELISA for protein biomarker were emerged. The multiple reaction monitoring (MRM) mass spectrometry is a method for targeted protein quantification as well as an alternative of ELISA and has been widely utilized recently. However, development of statistical methods for this MRM data was not significant. In early analysis for MRM data, basic statistical methods such as two sample or paired t-test and linear models were employed. In 2012, statistical methods for protein significance analysis using linear mixed model (LMM) called MSstats was proposed and it has been widely used since then. This LMM approach is implemented on Skyline program and R programming language. The resultant protein significant p-value form this LMM approach is diversified for same data set depending on the model setting which could provide many false positives and many true negatives. Furthermore, there is a loss of power of this previously proposed LMM approach if some features behave oppositely from the others. These characteristics motivated us to develop a model that is robust on the true effect type and the behaviour of features among the groups so that the model provides robust p-values for protein significance analysis. We proposed variance component test of generalized linear mixed model (GLMM) approach for protein significance analysis. Through various simulation studies, we observed that the proposed GLMM approach is more robust on the type of effect and more powerful when there is the interaction effect between features and groups. Moreover, there is no loss of power of proposed GLMM approach when there are oppositely behaving features while LMM approach performed poorly. In real data analysis, we observed cases that the previously proposed LMM approach hardly detects while the GLMM approach provided significant p-values. Consequently, not only previously proposed LMM approach but proposed GLMM approach should be considered for protein significance analysis using MRM data.-
dc.description.tableofcontents1. Introduction 7
1.1 Background 7
1.2 Purpose 8

2. Materials and Methods 9
2.1 Experimental Design of the Multiple Reaction Monitoring Mass Spectrometry 9
2.2 Linear Mixed Model (LMM) Approach 10
2.3 Generalized Linear Mixed Model (GLMM) Approach 11

3. Simulations 13
3.1 Simulation Settings 13
3.1.1 Settings for Type I Error Estimation 14
3.1.2 Settings for Empirical Power Comparison 14
3.1.3 Settings for Prediction Performance Comparison 15
3.2 Results of Simulation 16
3.2.1 Results for Type 1 Error Estimation 16
3.2.2 Results for Empirical Power Comparison 21
3.1.3 Results for Prediction Performance Comparison 26

4. Application to Real Data 29
4.1 Sorafenib Drug Response MRM Data 29
4.2 Results 30

5. Discussions 34

Bibliography 36

Abstract (Korean) 39
-
dc.formatapplication/pdf-
dc.format.extent825685 bytes-
dc.format.mediumapplication/pdf-
dc.language.isoen-
dc.publisher서울대학교 대학원-
dc.subjectProtein significance analysis-
dc.subjectMRM-
dc.subjectLinear mixed model-
dc.subjectMSstats-
dc.subjectLoss of power-
dc.subjectVariance component test-
dc.subjectGLMM-
dc.subject.ddc519-
dc.titleProtein Significance Analysis of Multiple Reaction Monitoring (MRM) Data via Generalized Linear Mixed Effect Models-
dc.typeThesis-
dc.description.degreeMaster-
dc.citation.pages42-
dc.contributor.affiliation자연과학대학 통계학과-
dc.date.awarded2016-02-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share