论文部分内容阅读
随着人类基因组计划(HumanGenomeProj eot, HGP)的顺利实施和信息技术的迅速发展,大量分子序列数据被人们发掘出来。对这些分子序列数据进行科学有效的分析和处理,让它们为人类疾病的诊断和治疗、疫情的预防、新药的开发等领域发挥更大的作用,已经成为人们愈加重视的研究话题,也是生物信息学的重要研究方向。生物信息学是多门学科相融合的新型的交叉学科。在生物信息学中,如何对基因序列进行有效且快速的比对,基因序列的相似性分析和进化关系分析都是其热门课题之一。本文的主要工作是提出一种新的多序列比对算法——基于模式匹配的DNA多序列比对算法,并在其基础上进行基因序列的相似性分析。具体工作概括如下:多序列比对是生物信息学中的一个基本问题。本文在模式匹配和Aho-Corasick搜索算法的理论基础上,深入分析研究了基于关键字树的DNA多序列比对算法,提出了一种新的多序列比对算法——基于模式匹配的DNA多序列比对算法。对该算法通过三组实验进行分析,并与原星比对算法、基于关键字树的DNA多序列比对算法进行比较。当序列相似度相对较低时,虽然该算法所用时间略长于基于关键字树的DNA多序列比对算法,但比对结果要优于基于关键字树的DNA多序列比对算法。当相似度很高的序列进行比对时,其比对的时间复杂度也优于另两种方法。实验结果表明了该算法的有效性。序列相似性分析也是生物信息学中的基本问题之一,其分析结果可广泛应用于物种分类、结构和功能预测、物种进化分析等领域。本文将模式匹配方法应用于序列相似性分析,使用基于模式匹配的多序列比对结果,采用Kimura双参数模型和Neighbor-joining方法构建进化树。实验结果表明该方法得到了与事实相近的结果。