论文部分内容阅读
随着人类基因组计划的完成和模式生物基因组计划的全面实施,产生了大量的生物数据。生物学研究的重心由数据的采集积累向数据的解读分析过渡。生物信息学就是在这样的大背景下应运而生,其主要的研究内容是科学的处理分析生物数据,从中提取其所包含的生物信息。生物信息学是一门交叉学科,综合运用数学、生物学、计算机科学、信息科学等诸多学科的知识和方法来挖掘和提取生物序列所包含的生物规律。对生物序列设计有效的图形表示并进行相似性分析是目前生物信息学一个比较热门的课题。 本文主要开发新的DNA序列的图形表示方法,基于图形表示对DNA序列作相似性分析。本文主要工作如下: 1)提出了一种新的有效的2维DNA图表示方法——B曲线,详细阐述了图表示的具体构建过程,然后从图形中提取特征组成24维的特征向量来代表DNA序列,利用向量的欧氏距离来表示序列的相似程度。 2)为了验证B曲线方法在生物序列分析中的有效性,我们基于图表示B曲线,对11个不同物种β球蛋白基因的第一个外显子序列进行研究,构造了相似性矩阵,并构建了系统发育树,对上述序列作了相似性分析,得到的结果也比较理想,说明了该方法的有效性。为了进一步验证,我们将该方法应用到45个物种的线粒体基因序列,结果基本符合生物进化关系。 3)将二维图形表示方法B曲线应用到两个甲型流感病毒数据集,进行了相似性分析,并与其它6种算法进行了比较,结果也比较理想,说明了该方法的实用性和优越性。