论文部分内容阅读
基因组结构变异是一种介于单个碱基的突变和染色体变异之间的变异类型,不同于单核苷酸多态性,结构变异是一种更大规模的变异,涉及的碱基序列大小通常在几百bp以上,最大的甚至可以达到百万bp级别。由于其规模较大,基因组结构变异对个体的性状(如抗病性)、以及一些疾病(如癌症、自闭症)的影响,要远大于单核苷酸多态性。基因组结构变异在个体的基因组的出现频率较SNPs低,在5%左右,同时由于基因组结构的复杂性,个体基因组中存在大量的重复,以及现阶段测序技术的局限性,因此基因组结构变异的检测的复杂性要远远高于单核苷酸多态性(SNPs),而且植物大多为多倍体,基因组结构更加复杂,包括很多古多倍体,结构变异检测的难度更大。高通量测序技术不断向前发展,测序成本下降,测序质量也不断提升,研究人员对大量物种进行了重测序。现在的难点在于如何使用这些高通量reads数据以及如何开发基于这些数据的经济、快速、准确的基因组结构变异检测算法及程序。本文从高通量测序技术着手,研究了现今最流行的三大测序平台的测序过程,比较了每种方法的优势以及缺点并加以分析,并分析了存储测序结果的FASTQ文件格式。同时,本文还对现有的一些方法如读深度法、Split Read法、序列拼接法等进行了分析,总结了这些方法存在的问题。针对植物体基因组结构变异检测,本文提出了一个基于高通量测序Pair end reads数据,使用PEM(Pair end mapping)方法进行结构变异检测的算法。该算法分为三大部分,第一部分为数据的处理:本文对现有的短序列比对工具进行了分析和比较,总结出每种工具的优势,选用最适合PEM算法和高通量测序数据的比对工具,来进行Pair end reads数据到参考基因组的比对,然后,将比对后得到的SAM文件转换为二进制的BAM文件,并进行排序;第二部分是关键参数(插入距离及其标准差)的计算。根据第一部分处理得到的数据,我们计算出Pair end reads数据比对到参考基因组后插入距离的大致分布,并根据得到的分布计算出相关的关键参数;第三部分是根据第二部分得到的参数,使用我们提出的找寻异常区间算法,和建立异常区间联系算法,得出结构变异的检测结果。本文使用仿真数据和真实的大豆数据对的算法进行了实验验证。最后我们比较了算法在大豆基因组结构变异检测以及在人类基因组结构变异检测结果上与Breakdancer和Pindel两种方法的差别,并对结果进行了分析。结果表明该算法在基因组结构变异检测方面运行速度快、准确率高。