论文部分内容阅读
生物信息学是一门新兴交叉学科,面对人类基因组计划所产生的庞大的分子生物学数据,生物信息学的重要性将越来越突出,它无疑将会为生命科学的研究带来革命性的变革。基因预测是生物信息学中的重要研究领域,而基因5’exons预测又是其研究的重点和难点,其研究成果不仅对于建立完整的基因预测模型具有重要的意义,而且对于进行基因表达、基因调控、基因功能预测和生物医学工程等研究具有重要的指导价值。 本文根据基因5’exons预测存在的问题,从探索基因区域尤其是基因5’exons区域的信号特征入手,结合生物学理论,运用统计学等方法,抽取出反映该区域特点的序列特征模式,并据此对基因序列进行分类预测;同时根据基因5’exons区域预测问题的目标和特点,设计了相应有效的基因预测算法;并在对现有的基因预测算法进行综合的基础上,建立了基于统计组合与基因特征分类的基因预测模型,从基因特征、预测算法和综合预测三个层次上提高了预测的精度。具体而言,本论文主要研究工作有: (1)在基因预测现有研究工作的基础上,设计了一个用于基因5’exons预测的总体框架。该框架针对基因5’exons的特点,根据基因局部区域特征对序列进行分类,按照不同类的特点设计相应的预测算法,并运用统计组合思想将多种信息处理方法综合起来进行基因5’exons预测。在该框架的基础上构建了基于统计组合与基因特征分类的基因5’exons预测模型。 (2)从生物学理论出发,运用统计学等方法分析了基因5’exons区域三种局部特征—CpG岛、TATA-框和DPE,提出了一种基于基因特征的分类预测方法。分类预测的优势在于针对不同类的基因序列能够构建相应的基因预测程序分别进行预测,预测程序在构建的过程中更有针对性,能够有效地提高算法预测的精度。 (3)从信息论的角度出发,对基因序列进行了多重分形谱分析,得到了基因5’exons区域序列的特点,以此为基础分析了基因5’exons预测问题中存在的难点,指出了遗传算法在基因5’exons预测中的优势,针对现有用于基因预测的