论文部分内容阅读
20世纪末,生物信息学获得了飞速的发展。如何充分利用当前基于国际互联网的各类免费生物信息学资源,来进行核苷酸序列和蛋白质序列的生物信息学分析,是生物科学的研究人员以及相关科学技术人员面临的一类很现实的问题。由于分子生物科学的复杂性,为了解决其领域内的多种生物学分析问题,需要提供有效的算法。而多序列比对和种系发生树生成问题是分子生物学中最基本的最常用的具有代表性的计算问题。在生物信息学中,有许多相应算法已经非常成熟,也已被生物学家和实验室工作人员应用多年。在近20年的研究和实践过程中,形成了许多有效的算法,这些算法已构成多个完整的软件包。并且互联网上另有免费的大型数据库数据提供查询,如NCBI—美国国家生物技术信息中心,担负着世界上最大公共序列数据库GenBank的建立和维护,EBI—欧洲生物信息研究所开发了大量的生物信息软件和资源,构成了另一个最大的基因组和生物信息资源中心。但是,也仍然有许多有待改进的地方,而且,加上多种学科中的许多类似技术也可以移植或经改造后移植到生物信息学分析技术和算法中来,所以,这个领域内可供研究和改进的内容仍然非常多。实际上确有大量人员在从事这类工作。本论文针对上述问题,以分子生物学的蛋白质序列和基因序列为研究对象,详细地分析了蛋白质序列和基因序列的两两序列比对、多序列比对以及种系发生树的生成方法,以及完成这些分析工作的部分的和最常见的有效算法。论文的主要内容为:1.详细研究了蛋白质序列和基因序列的两两比对和多序列比对的技术和算法。2.详细研究了进化树的生成方法和成熟算法,其中提出了一些改进技术和算法。3.分析了最常用软件包Clustal的主要技术、构成、功能、流程图、使用方法。4.使用成熟的Clustal基础软件,编制了一个多序列比对和进化树生成的使用平台。5.举例说明该平台的使用步骤和方法。6.编制了一个改进的距离矩阵算法的程序,并对它进行了分析。本课题采用的方法为:阅读文献、网上查找、用C语言软件编制集成软件、用C语言软件编写中型软件检验新的算法。本人作为一个计算机专业的学生,对立足于生物学背景的2个大问题—多序列比对和种系进化树生成,进行了方法上和算法上的研究和探讨。也采用Clustal软件作为例子,说明如何使用计算机软件包,来解决生物学中的实际问题。