植物基因组结构变异识别方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:_STLer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因组结构变异是一种介于单个碱基的突变和染色体变异之间的变异类型,不同于单核苷酸多态性,结构变异是一种更大规模的变异,涉及的碱基序列大小通常在几百bp以上,最大的甚至可以达到百万bp级别。由于其规模较大,基因组结构变异对个体的性状(如抗病性)、以及一些疾病(如癌症、自闭症)的影响,要远大于单核苷酸多态性。基因组结构变异在个体的基因组的出现频率较SNPs低,在5%左右,同时由于基因组结构的复杂性,个体基因组中存在大量的重复,以及现阶段测序技术的局限性,因此基因组结构变异的检测的复杂性要远远高于单核苷酸多态性(SNPs),而且植物大多为多倍体,基因组结构更加复杂,包括很多古多倍体,结构变异检测的难度更大。高通量测序技术不断向前发展,测序成本下降,测序质量也不断提升,研究人员对大量物种进行了重测序。现在的难点在于如何使用这些高通量reads数据以及如何开发基于这些数据的经济、快速、准确的基因组结构变异检测算法及程序。本文从高通量测序技术着手,研究了现今最流行的三大测序平台的测序过程,比较了每种方法的优势以及缺点并加以分析,并分析了存储测序结果的FASTQ文件格式。同时,本文还对现有的一些方法如读深度法、Split Read法、序列拼接法等进行了分析,总结了这些方法存在的问题。针对植物体基因组结构变异检测,本文提出了一个基于高通量测序Pair end reads数据,使用PEM(Pair end mapping)方法进行结构变异检测的算法。该算法分为三大部分,第一部分为数据的处理:本文对现有的短序列比对工具进行了分析和比较,总结出每种工具的优势,选用最适合PEM算法和高通量测序数据的比对工具,来进行Pair end reads数据到参考基因组的比对,然后,将比对后得到的SAM文件转换为二进制的BAM文件,并进行排序;第二部分是关键参数(插入距离及其标准差)的计算。根据第一部分处理得到的数据,我们计算出Pair end reads数据比对到参考基因组后插入距离的大致分布,并根据得到的分布计算出相关的关键参数;第三部分是根据第二部分得到的参数,使用我们提出的找寻异常区间算法,和建立异常区间联系算法,得出结构变异的检测结果。本文使用仿真数据和真实的大豆数据对的算法进行了实验验证。最后我们比较了算法在大豆基因组结构变异检测以及在人类基因组结构变异检测结果上与Breakdancer和Pindel两种方法的差别,并对结果进行了分析。结果表明该算法在基因组结构变异检测方面运行速度快、准确率高。
其他文献
介绍了新型气流分级机的工作原理,技术参数和结构设计特点,并进行了相应的分析探讨。
目的比较完全胸腔镜下解剖性肺段切除术与肺叶切除术治疗肺部小结节的近期疗效。方法研究对象为我院52例肺部小结节患者。全部患者均接受肺功能及支气管舒张试验、胸部HRCT及
患者男,58岁,18 d前因右下腹痛在外院行阑尾切除术,术后1周突发胸闷、憋气,无咳嗽咳痰、无咳血,精神状态差。患者有高血压病史6年,无吸烟史、肺结核病史等。超声心动图示:右
人格是人作为生物和社会属性的主体在处理人与自然、社会及人本身关系时所外显出来的人之为人的规定性,也即人作为人的价值、尊严、品质、行为和感情的总和。生态人格即是人
[目的]了解抗击新型冠状病毒肺炎临床一线医护人员的心理状况。[方法]采用症状自评量表(SCL-90)对48名参加抗击新型冠状病毒肺炎的临床一线医护人员心理进行测评,分析可能存
背景:Duchenne型肌营养不良和Becker型进行性肌营养不良都是dystrophin基因突变所致,但后者临床表型较轻。"阅读框规则"可解释大部分基因型与临床型关系,但累及疏水区段的整
本文利用乘积积分理论给出了映射芽在A和H的一些子群下有限决定的充分必要条件。
推进教育的均衡发展,着力提升农村学校薄弱的办学水平,对促进教育公平、构建和谐社会具有重大的现实意义。英语作为一门学科,城乡之间的英语教学仍有差异。近年来,我国采取很
编辑同志!我们农民工讨薪打官司“最闹心的是交钱,您想我们有钱能抛家舍业出来打工吗?干了活老板不给工钱,出门时带的钱又不多,哪里还有钱 Edit comrades! We migrant worke
本文在简要回顾热工课程教学的历史后,着重介绍和分析了工业发达国家近十年热工及相关课程的教学与教材编著情况,最后提出对该类课程发展的一些思考和意见。认为,热工基础类课程