论文部分内容阅读
近年来,随着人类基因组计划的实施,Gene-bank数据库里的基因组序列急剧增长,若要对这些急速膨胀的数据进行完整的分析处理,以及对DNA序列上的基因结构进行完整的注释,则需要高效的方法来揭示这些数据的内涵,并从中获得对人类更有用的信息。尽管近年来该领域的研究已经积累了一些成果,但针对生物学的复杂性和特异性而言,设计高效算法仍然是数学、计算机科学及生物学等交叉领域研究的热点问题。本文是从数字信号处理的角度出发来研究基因预测的方法,这类方法是利用蛋白质编码区的典型特征“三周期性”来预测基因序列的编码区,即编码蛋白的总傅里叶光谱在N/3频率处有一个峰值,而非编码区没有明显的峰值,因此可以来预测DNA序列的编码区部分。此方法的具体步骤是:先将碱基序列转换成字符序列,然后对此进行傅里叶变换,出现峰值的部分为编码区,否则为非编码区。但是由于傅里叶变换带来了大量的噪声,因此会出现很多伪峰值,使得预测结果不是很理想。所以本文通过去除噪声来提高基因预测的效率。小波变换可以去除傅里叶变换所带来的高频噪声,但是对于第一个外显子较短,三周性不明显的序列,则需要用FIR数字滤波器进行去除。由于已有的FIR数字滤波器在设计上存在缺陷,所以本文在FIR滤波器原有设计的基础上进行改进,并将小波变换和FIR数字滤波器进行有效的结合,建立了一种新型的基因预测方法,并把这种方法应用到抗逆基因序列的预测中。经实验证实,该新方法可行有效并且效率较高,且不需要基因组序列的任何先验知识,易于推广应用。