论文部分内容阅读
序列比对是现代生物信息学中的一个最基本的研究课题。随着生物数据库快速持续的增长,对多序列比对算法的敏感性和运算速度提出了更高的要求,开发具有高敏感性和高效率的算法成为当今研究的重点。本文对此进行了深入研究和探讨,主要研究成果如下:
本文首先介绍了序列比对涉及的基本问题:空位罚分,替换矩阵和比对结果评价标准。接着对基于渐进方法构建的多序列比对算法ClustalW、T-Coffee和Muscle算法进行了深入的研究。然后通过对这些算法的分析,对Kalign算法提出了改进。
Kalign是一种常见的多重序列比对算法,它使用Wu-Manber字符匹配算法来改善比对的质量和速度,对大量序列和距离较远的序列的比对有较明显的速度优势。然而由于对序列的距离估计不准导致比对的质量不高。本文提出了一种改进Kalign比对质量的算法---KaLligns算法,根据Kalign最初比对的结果,利用新的序列距离测试方法计算出新的两两序列之间的距离,然后使用UPGMA方法构建向导树,再进行渐进比对,产生新的比对结果。重复这一过程,直到比对的SP得分不再改变或者达到一定迭代次数为止。用Balibase3.0进行测试,结果显示该算法较好的改进了Kalign的比对质量。