论文部分内容阅读
生物信息学是一个崭新的领域,这个学科的发展对基因组研究、人类健康和农林业发展产生了深远的影响。随着生命科学研究的不断深入,生物信息学所涉及的研究范畴也在不断扩充。其中很多工作都是以序列比较为研究基础,因此,生物序列比较不仅是生物信息学中最基本、最重要的课题之一,而且对生命科学的研究具有深远的意义。本文以生物序列比较的方法为研究对象,主要研究内容如下: 1.首先对生物序列比较的概念和研究内容做了概述,重点介绍双序列和多序列比对算法以及字统计模型和几何表示模型两类非比对算法,介绍各类研究方法的区别与联系,分析其优缺点,为本文的研究提供了理论基础。 2.提出一种基于LZ-WORD分布的序列非比对算法。基于LZ复杂度的分段思想,本文修改了LZ复杂度算法并利用它将DNA序列打成片段,得到一个LZ-WORD集合。考虑到LZ-WORD的组分和长度信息,将来自两条不同检测序列的LZ-WORD按照字典排序法列队,根据其来源得到检测序列的标记序列,利用标记序列中元素分布度量不同序列之间的差异。本文采用5种不同长度序列模式比较不同类型的乙肝基因序列,发现其结果存在差异,G5的结果最好,由此可见,设计LZ-WORD非比对算法时,需要充分考虑不同长度的序列片段的影响。 3.提出了一种基于相关矩阵和马尔可夫模型的序列比较算法。根据生物序列局部信息的差异性,本文首先设计相关矩阵模型描述特定核苷酸周围的碱基分布情况,利用信息熵量化分析了特定核苷酸周围碱基分布的均匀性;其次,本文引入马尔可夫模型描述局部碱基的相互影响,并与相关矩阵相结合,构建了混合γ模型;最后,将γ模型运用于11个物种的β-球蛋白的第一外显子的编码序列间的相似性分析,通过与现有的研究结果比较,验证了该混合模型的有效性。