论文部分内容阅读
现代生物信息学是采用计算机技术和信息论方法研究生命科学中各种生物信息的表述、采集、储存、传递、检索、分析和解读的科学。是现代生命科学与信息科学、计算机科学、数学、统计学、物理学、化学等学科相互渗透和高度交叉形成的学科。随着生物数据量呈指数级增长,产生了新的交叉学科――计算生物学,由此给数据挖掘、机器学习和统计学等领域带来了新的挑战。计算生物学的研究内容之一就是从蛋白质序列预测蛋白质结构,从计算机技术角度看,这是一个分类预测问题。而如何为分类问题建立一个有效并且高效的预测模型一直以来是数据挖掘领域,机器学习和统计学领域研究的热点。序列比对是生物信息学研究的一个基本方法,寻求更快更灵敏的序列比对算法一直是生物信息学研究的热点。本文给出了生物序列比对问题的定义,综述了目前常用的各类比对算法,并对每一类算法的优缺点以及应用范围进行了分析,最后指出序列比对算法目前存在的问题以及未来的发展方向。在蛋白质序列的比对研究中,拥有相似模式的蛋白质常常具有相似的功能。通过已知的蛋白质序列模式可以方便我们对新的蛋白质序列的功能结构进行研究和确认。本文尝试在Pratt算法的基础上引入模糊序列查找方法。能够更好的从互不相关的蛋白质序列集合中找出最具代表性的蛋白质模式。本文的主要工作如下:本文细致地研究了当今国际上各种序列比对算法,系统地阐述了最具代表性的比对算法Smith-Waterman、BLAST、FASTA、并具体地分析了它们的优缺点。对基于模式驱动的蛋白质模式发现算法——Pratt做了详细的分析,并从PROSITE数据库中选取了不同的几种蛋白质序列进行实验证明。在Pratt算法的基础上引入模糊的序列查询方法,对Pratt算法进行优化,并进行实验论证,并得到结果。最后通过对实验结果比较,分析对算法的优缺点做进一步的总结。