论文部分内容阅读
在20世纪,随着人类基因组计划中精确的DNA全序列图的完成,近年来基因库中的碱基数目大量增长,为了能够管理好这些数据并挖掘出有用的生物信息并分析它,众多的生物学家、数学家、计算机科学家积极的在这个新兴领域中进行研究,生物信息学即计算分子生物学就在这样的研究过程中产生的交叉学科。生物序列的分析比较是计算生物学的主要研究内容之一,通过近些年的研究发展,生物序列的比较分析方法一般分为两大类:一种是比对方法,另一种是非比对方法。鉴于目前DNA序列数据量庞大,比对方法计算量过大、耗时长,算法成本比较高,非比对方法成为此领域研究者关注的重点。本文以二阶马尔可夫模型为研究对象,提出DNA序列非比对模型,主要内容概括如下:1.对DNA序列的比较,判断他们之间的相似程度,从而推测他们的结构、功能以及进化的联系。利用加权相对熵的二阶马尔可夫模型的基本原理,对DNA序列进行比较。DNA序列将其视为一个马尔可夫链,取状态空间I={A,T,G,T},使用二阶转移概率矩阵来描述DNA序列,得到DNA序列的特征值,进而利用特征值定义DNA序列的相似性度量,得到能够对DNA序列进行比较的新方法,并利用这个方法对30个物种的线粒体DNA序列进行分类。2.在DNA三联体密码子表示的基础上,建立了DNA序列新的几何图形表示模型,将DNA序列映射成一条三维曲线,并将曲线数值化后进行特征值的提取。通过距离矩阵重构8种病毒cRNA序列NA片段的进化树,并分析其相似性。为DNA序列的描述提供了新的手段。