大规模基因组比对算法

来源 :南开大学 | 被引量 : 0次 | 上传用户:gudujian13
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着测序技术的发展,越来越多的动植物、微生物的全基因组序列得以测定完成,基因组数据和规模正在以前所未有的速度迅速增长。基因组在进化过程中常常会有基因复制,基因缺失,易位,倒置等大规模突变发生。基因复制会产生旁系同源基因;基因缺失会导致物种的直系同源性模糊;而易位或者倒置通常会引起遗传物质的重排。长基因组的序列比对可以查找基因组突变,是基因组数据的比较分析,物种的进化分析和基因功能研究的基础。 传统的动态规划算法[1][2]的计算复杂度为O(n<2>),其中n是输入序列的平均长度.动态规划只能处理长度在500K以内的氨基酸序列或者基因组序列。基于统计推断的SPA算法[3]的计算复杂度为O(n),可以准确的比较长度在2M之内的基因组序列,但是随着长度的增加和输入序列同源性的降低,比对误差越来越大。 要比对长度规模更大的基因组序列,需要新的高效精确的算法。本文的结果就是开发适合大规模基因组序列比对的算法。具体结果如下: 1.首次将数据压缩的思想用于序列比对,对SPA算法做了改进,拓展了SPA算法的应用范围,开发出GSPA-I算法,该算法可用于大规模的微生物基因组和真核生物基因组的序列比对,测试结果表明GSPA-I算法比传统的序列比对算法速度大大提高,作长度大于2M的序列的比对结果的精确度高比SPA算法有明显提高。 2.首次将基于语法的编码 Yang-Kieffer算法[4]用于序列比对,开发出基于语法的比对算法GSPA-Ⅱ.GSPA-Ⅱ算法利用Yang-Kieffer码首先对输入序列进行编码处理,找到序列之间的语法匹配模块GMB,在GMB的基础上再完成比对,该算法比对规模大,克服了以往基因组序列比对算法受输入序列规模限制的弱点,用编码方法大大降低了算法的复杂度的同时,方便了对比对结果的分析。GSPA-Ⅱ算法能够很快处理长度在200M以上的基因组染色体序列,另外GSPA-Ⅱ算法能找到倒置,换位等大规模基因组突变。实验结果表明,GSPA-Ⅱ算法与最流行的 BLASTZ算法相比,比对速度平均高100倍左右,但是比对结果的相似度和基因覆盖率大致相当。 3.开发了大规模基因组多重比对算法SMGA.该算法结合了“模结构”理论和GSPA-Ⅰ算法,比对的速度和其他的各项指标与SMlA算法基本持平,但是SMGA能够处理像细菌古细菌等长基因组序列的多重比对。SMGA是基因组序列同源保守区的估计,基因预测和物种进化研究的有效工具。
其他文献
本文研究了有脉冲的一阶泛函微分方程周期正解问题的存在性,以及其在具体的生物数学模型问题中的应用。主要结果是利用锥不动点定理证明的,这个结果是在文献[1-3]的基础上更一
本文对一类椭圆型方程解的存在性及多重性进行了研究。在讨论中总假设p>1,Ω为R(Ⅳ≥1)中的带有光滑边界aQ的有界区域.早在1973年,Ambrosetti和Rabinowitz利用著名的山路引理得
本文首先从Hall定理的推广出发,利用模糊数学的分析方法(模糊因子法)及Gale-Shapley算法研究了在现实婚姻的形成过程中的平等性问题,即“双式”理论在一定条件下是成立的.并受其
本文在经典的风险模型的基础上,从实际需要出发,对其进行各种各样的改造,同时考虑了重尾和轻尾的两种情况,得出了关于破产概率和大偏差的几个结果。 在第二章中,考虑了带干扰的
本文对单位球面中子流形的两个问题进行了研究.一类是不仅具有常数量曲率,而且仅有两个不同主曲率,其中一个是单重的紧致超曲面的等距问题;另一类是可定向紧致子流形的球面定理
学位
本文对组合反演关系的若干问题进行了研究。文章分为三个部分: 第一章介绍了组合反演理论的历史及其在组合数学与特殊函数领域中的几个重要结果,引入作为重点研究的(f,g)-反
无穷维动力系统在非线性科学中占有极为重要的地位。全局吸引子是无穷维动力系统的最重要内容之一。格点系统是一类很重要的无穷维动力系统。本文主要利用钟承奎等关于Hilber