Publications

Detailed Information

Classification of Prion Strains with Polymorphism Dataset : 다형성 데이터를 이용한 프라이온 서열의 분류

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

이지혜

Advisor
손현석
Major
자연과학대학 협동과정 생물정보학전공
Issue Date
2013-08
Publisher
서울대학교 대학원
Keywords
prionpolymorphismsusceptibilitysubstitution score matrixdiscriminant analysis
Description
학위논문 (석사)-- 서울대학교 대학원 : 협동과정 생물정보학전공, 2013. 8. 손현석.
Abstract
Prion은 정상 프라이온 단백질인 PrPC가 전염성을 갖는 비정상 형태인 PrPSc로 구조적 변화가 일어난 것으로, 양의 스크래피(scrapie), 소의 광우병(BSE), 사람의 쿠루(kuru), 크로이츠 펠트 야콥병(CJD)와 같은 전염성 해면상 뇌증(TSE)의 원인 물질로 알려진 단백질이다. 이러한 프라이온 질환은 종을 뛰어넘어 인간에게도 다른 종의 질환이 전염될 수 있기 때문에 보건학적으로도 많은 관심을 받고 있다. PrPC는 주로 α-helix 구조를 이루어져 있고, PrPSc는 주로 β-sheet이 우세한 구조로 구성되어 있다. 프라이온의 서열에서 다양한 돌연변이(mutation)와 다형성(polymorphism)이 발견되고 있는데, 이러한 서열상의 차이가, PrPSc로의 구조적인 변화와 단백질 발현을 조절해서 프라이온 관련 질환의 감수성(susceptibility)에 영향을 줄 수 있다. 그동안 실험 연구를 통해서 감수성에 영향을 주는 프라이온 단백질의 다형성에 대한 중요성이 확인되어 왔지만, 그에 특화된 데이터베이스가 아직 생성되지 못하고 있다. 또한 PrPSc의 생화학적 특징으로 인해서 실험 연구가 어렵고, 분자동역학과 같은 컴퓨터 시뮬레이션은 많은 시간이 요구된다는 어려움이 있다. 따라서 실험과 복잡한 구조 분석없이 프라이온 단백질의 일차구조에 나타난 다형성 정보만을 이용하여 빠르게 감수성을 판단할 수 있는 기법이 필요하다고 생각하였다. 프라이온 다형성 데이터베이스를 생성하기 위해서, BLASTP 프로그램을 이용해서 포유류의 프라이온 단백질 서열을 수집하였고, ClustalW 프로그램을 이용해서 다중 서열 정렬을 하였다. 그런 다음에, JAVA 프로그래밍 언어를 이용해서 필요한 정보를 파싱하였고, MySQL 데이터베이스에 테이블을 생성해서 수집한 정보들을 저장하였다. 감수성 예측 프로그램을 생성하기 위해서, 문헌조사를 통해서 포유류의 프라이온 단백질 서열에서 돌연변이와 다형성이 프라이온 질환의 감수성에 주는 효과를 조사하였고, 이러한 정보를 이용하여 훈련 데이터 셋을 4개의 그룹으로 분류하였다. 판별분석은 그룹이 분류된 이러한 데이터를 이용해서 수행된다. 새로운 서열에서 그룹이 정확하게 예측되는 지를 알아보기 위해서 다형성이 나타나지 않는 참조 서열에 인위적인 변화를 준 서열을 생성하여 판별 분석을 위한 테스트 데이터 셋으로 사용하였다. JAVA 코딩으로 위치 특이 점수(position-specific score)를 계산하였으며, 점수 행렬(scoring matrix)인 BLOSUM62 행렬과 PSSM 행렬을 이용해서 서열에서의 아미노산 차이를 점수로 치환하여 점수 행렬에 따른 판별 분석의 정확성을 비교하였다. k-nearest neighbor(kNN)과 선형판별분석의 정확성을 교차검증(cross-validation)방법으로 비교하였으며, 정준판별분석을 통해서 2차원 그래프로 그룹의 분류를 시각화하였다. 그 결과, 다형성의 개수와 프라이온 질환의 감수성에는 연관성이 없었으며, 3 또는 4개의 k 개체를 고려한 k-nearest neighbor를 사용하였을 때 가장 정확하게 감수성 그룹이 판별되었다. PSSM 행렬보다 BLOSUM62 행렬을 사용하였을 때 오분류율이 감소하였으며, 2차원 그래프에서 더 명확히 그룹이 분류되었다. 또한, 질환에 대한 감수성을 높이는 다형성을 갖는 서열에서 비교적 판별의 정확성이 높았지만, 다형성 변화 자체만으로 감수성의 변화에 주는 영향을 평가하기에는 제한점이 있었다. 본 연구를 통해서, 다형성 정보와 점수행렬을 이용한 판별 분석의 가능성을 살펴보았으며, 이러한 방법은 실험 없이 프라이온 질환에 대한 감수성 정도를 쉽고 빠르게 판별하는 데에 있어서 도움을 줄 것이다. 또한 이러한 생명정보학 기법은 추가적인 연구 분석을 통해서 보건학적으로도 유용하게 사용될 수 있을 것이다.
Pathogenic prion which has undergone conformational change of normal PrPC into abnormal PrPSc is known to be the causing material of Transmissible Spongiform Encephalopathy (TSE) including ovine scrapie, bovine spongiform encephalopathy (BSE), human kuru and Creutzfeld-Jacob Disease (CJD). These prion diseases are strongly concerned in public health context for their possibility of transmission to the human from other host species. PrPC is mainly composed of α-helical structures while PrPSc is mainly composed of β-sheet structures. Numerous polymorphisms and mutations are found in the sequence of prion protein. These sequence difference might influence prion disease susceptibility through the modulation of protein conformational change and expressions. Though prion protein sequence polymorphisms which influence prion disease susceptibility was considered important, the database which is specific on theses polymorphisms has not been developed. Also, PrPSc is biochemically difficult for experiments in the laboratory and computational simulations including molecular dynamics study need much computational resource. Thus, the prion disease susceptibility prediction method based on the polymorphism information of prion sequences without molecular biological experiments and detailed structural analysis was quite necessary. Following procedures were performed for the generation of prion polymorphism database. BLASTP application was exploited for the collection of mammalian prion protein sequences and ClustalW application was used for the multiple sequence alignment. Also, necessary information was parsed using JAVA programming language, and archived in the MySQL database tables. Following procedures were performed for the construction of computational application for the prion susceptibility prediction. The effect of polymorphisms and mutations on the prion disease susceptibility was investigated through literary search and training dataset was classified into four groups using polymorphism information. Discriminant analysis was performed based on training data, and they were classified as groups. In order to determine the accuracy of prediction in new strains, manually mutated sequences from reference sequence which does not appear polymorphism or mutation were generated and were used as test dataset of discriminant analysis. Position-specific scores were calculated using JAVA codes and the accuracy of discriminant analyses based on distance from either BLOSUM62 or PSSM were compared. Cross-validations were performed for the accuracy analysis of k-nearest neighbor and linear discriminant analysis. The classification was visualized in a 2D graph in canonical discriminant analysis. As a result, there was no association between the frequency of polymorphisms and susceptibility of prion disease. K-nearest neighbor method with k of three and four showed the most accurate susceptibility prediction among the used discriminant analyses. The rate of misclassification was decreased and would more clearly discriminate in the 2D plot of canonical discriminant analysis when using BLOSUM62 than PSSM matrix. In addition, sequences with negative polymorphism have relatively higher accuracy of classification. But, the presence or absence of a specific polymorphism in prion sequence was difficult to accurately assess the risk of prion diseases. Through this research, polymorphism information was incorporated for the classifications and the discriminant analysis with distances from amino acid substitution matrix developed in this study. It might help prompt and correct prediction of prion disease susceptibility without experiments and also might be useful in public health context through additional research.
Language
English
URI
https://hdl.handle.net/10371/131172
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share