Nucleotide sequence variation on conserved regulatory sequence motifs in G. max and G. soja

농업생명과학대학 식물생산과학부(작물생명과학전공)
Issue Date
서울대학교 대학원
Comparative genomicsSingle nucleotide polymorphismSoybeanTranscription factor
학위논문 (석사)-- 서울대학교 대학원 : 식물생산과학부(작물생명과학전공), 2012. 8. 이석하.
최근 콩을 포함한 야생콩, 비둘기콩, 메디카고와 같은 콩과 작물들의 전장 유전체 지도가 완성됨에 따라 이들 사이의 비교 유전체 연구가 활발하게 진행되고 있다. 이와 같은 비교 유전체 연구는 주로 유전자의 염기서열과 그들의 synteny를 비교하여 종의 특화나 분화, 진화 등의 방향으로 수행되었으나, 최근 프로모터와 같은 비유전자 부분도 표현형을 규정하는 중요한 유전적 정보라는 점이 보고됨에 따라 이런 부분에 대한 비교 유전체 연구 또한 중요하게 되었다. 특히, 프로모터 상에 위치하는 짧은 도막의 염기서열은 유전자가 아님에도 불구하고 여러 종간에도 보존되어 있는 것을 살펴볼 수 있다. 이번 연구에서는 BLASTN과 softberry website에 게시되어 있는 쌍자엽 식물의 프로모터 데이터 베이스를 활용하여 콩에서의 transcription factor binding site (conserved short sequence motif)를 예측하고, 이에 대한 14종의 재배콩과 야생콩의 염기서열 정보를 활용하여 SNP 변이를 분석하였다. 이를 통해, 전체 46,367개의 재배콩 유전자 중 야생콩과 재배콩에서 발현차이를 보일 것으로 여겨지는 15개의 후보 유전자와 야생콩과 재배콩 집단 내에서 발현차이를 보일 것으로 여겨지는 2개의 후보 유전자를 찾을 수 있었으며, 총 17개의 유전자에 대한 발현 양상을 RT-PCR 방법으로 검증해보았다.
Recently, comparative genomics has been vigorously studied by many research groups with rapid development of whole-genome draft sequences of plant species including several legumes: Glycine max, G. soja, Cajanus cajan and Medicago truncatula. The majority of the comparative genomics has been performed by synteny of coding region sequence because variations on those regions could contribute speciation and evolution. However, the non-coding regions were also reported as the important phenotypic regulator and it suggested that comparative analysis on these regions is also worthwhile. In particular, short sequence motifs in the promoter regions tend to be highly conserved, though these sequences are not encoded. In this study, we predict the conserved short sequence motifs by BLASTN algorithm using dicot promoter database on Softberry ( A total of 37,396 conserved short sequence motif on to 2 kb upstream sequences were identified in 46,367 high confident genes of G. max (Williams 82). We also detected single nucleotide polymorphisms (SNPs) in regulatory and genic regions of 7 G. max landraces and 7 G. soja cultivars. SNPs were retrieved by SamTools software after mapping short reads produced by Illumina HiSeq 2000. Among 46,367 high confident G. max genes, 15 candidate genes for comparing transcriptional level between G. max and G. soja and 2 candidate genes for comparing transcriptional level between intra-species were selected by the number of SNP variations in regulatory region containing conserved short sequence motif. No SNP variation was detected in all of these 17 putative genes of genic region and 17 genes were verified by RT-PCR methods.
