论文部分内容阅读
新一代高通量测序技术的诞生和快速发展使对一个物种的基因组进行细致全貌的分析成为可能。本文利用SOLiD(Applied Biosciences)测序平台和全基因组鸟枪法测序策略对一只中国梅花鹿(东北亚种,Cervus nippon hortulorum)进行了全基因组测序,东北梅花鹿亚种是中国鹿产业中最重要的鹿种之一。对梅花鹿基因组原始测序数据进行初步的质量评估后,共产生约1.9×109个50bp双末端配对读段,评估基因组测序深度约32倍,构建了插入长度1kbp和2kbp两个测序库。本文组合了当前可利用的基因组组装策略,包括全局从头组装,参考局部向导组装,也利用了鹿与牛基因组之间的保守序列进行共线性局部组装,尽最大限度地组装了梅花鹿基因组。产生约4百万长度大于100bp个重叠群(contigs),包含碱基总量1.83Gbp,N50值为695bp,最大重叠群长度10.80kbp。梅花鹿基因组质量评估发现约0.3%的重叠群存在组装错误,进一步更正了组装错误。最后利用双末端配对信息对重叠群定位和定向,产生约1.9百万个基因组序列框架(scaffolds),N50值为21.6kbp,最大长度249kbp,包含碱基总量2.6Gbp,约1.8百万个缺口(gap)。本文通过各种生物信息学数据处理方法对组装后的梅花鹿基因组作了进一步的分析,主要结果和结论如下:1.测序偏倚导致梅花鹿基因组不同区域覆盖率相差较大,基因组区域GC含量越高,其覆盖率越低。梅花鹿基因组覆盖牛基因组约62%(相似性85%以上),覆盖鹿转录组约62%(相似性90%以上)。2.从鹿、牛和羊的微卫星引物数据集中筛选了1,534个在梅花鹿基因组上保守的微卫星引物,占收集微卫星总数的61%。3.鹿、牛基因组功能区SNP变异与Indel变异比非功能区更趋保守,基因组水平上的SNP变异与Indel变异有强的正相关性,鹿、牛与人、黑猩猩的基因组SNP变异数据比较结果支持分子钟理论。4.在组装的梅花鹿基因组中筛选了2.7百万个SNP杂合位点,平均每678bp包含1个SNP位点。梅花鹿个体常染色体基因组、外显子区和编码区的SNP杂合率分别为0.152%、0.087%和0.082%,梅花鹿基因组表现高度杂合现象暗示中国梅花鹿在长期的人工饲养和驯化过程,具有不同遗传背景的梅花鹿发生了血缘交换。5.本研究产生的6,367个SNP位点非常适合中等密度的SNP分型芯片的定制,并能在种属间,包括梅花鹿、马鹿和赤鹿等鹿种,进行检测分型等相关研究,证明了开发高密度的鹿全基因组SNP分型芯片具有可行性。6.梅花鹿线粒体基因组的组装进一步证实了Numts序列在脊椎动物和无脊椎动物核基因组中广泛存在,同时也暗示梅花鹿核基因组中存在大量的Numts序列,其数量相当于1,867个线粒体基因组。