论文部分内容阅读
生物信息学是一门交叉学科,它包含了生物信息的处理、存储、分发、分析和解释在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物意义.本论文大致可以分为两大部分:生物序列相似性比对和序列拼接.生物序列的相似性比对是生物信息处理中最重要的数据处理任务之一,而序列拼接是全基因组测序中的一个极其重要的环节.论文首先简单介绍了生物序列相似性比对及其算法,特别的讨论了最早提出的,也是最基本的生物序列相似性比对算法——动态规划算法,它是1970年由Needleman和Wunsch提出的.在这些算法的启发下,本文提出了基于快速沃尔什变换的分子子序列识别方法.这种方法不仅极大地降低了CPU时间而且其准确度可以达到100%.由于分子子序列识别应用的局限性,在此基础上论文进而提出了基于快速沃尔什变换的两两相似性比对方法.这种方法可以对任意两条序列进行相似性比对.由计算模拟可知,此方法耗费的时间与序列长度成近似线性关系,并且其空间复杂度也明显降低.接着,论文简单综述了序列拼接及其算法,并对Phrap和Euler两种典型算法进行了分析和比较.通过分析序列拼接中存在的问题可知重复序列对序列拼接的准确度有极大的影响.针对这种情况,论文利用前述的分子子序列识别方法提出了一种新的重复序列屏蔽方法.它能快速给出重复序列的位置信息,并加以识别.所以,根据计算模拟分析和实现表明此方法的时间复杂度得到了极大的降低,其精确度可达100%.