论文部分内容阅读
生物信息学是计算机科学与生命科学相结合形成的一个研究领域。它通过用计算机科学的理论和相关算法对生命科学领域内的数据进行加工、存储、检索和分析。随着生物序列数据的快速增长,如何运用高效的算法来处理这些数据已经得到了越来越多的关注。基因识别正是其中一个焦点。它是指在DNA序列中识别出所有编码蛋白质的区域和所有与基因表达调控有关的不编码蛋白质的区域。本文主要研究非编码核糖核酸(non-coding ribonucleic acid, ncRNA)的基因识别问题。研究的方法采用上下文敏感隐马尔可夫模型(context-sensitive hidden markov model,csHMM)的技术,结合物种进化关系,尝试找出一种能够从基因组中识别非编码RNA基因的新方法。本文的重点是利用上下文敏感隐马尔可夫模型和物种进化关系构建非编码RNA的二级结构模型,并实现了非编码RNA基因的理论预测。首先,利用csHMM构建基本的非编码RNA二级结构模型。其次,从代表物种进化关系的氨基酸置换矩阵推导出上下文敏感隐马尔可夫模型的生成概率,从而构建新的非编码RNA识别模型框架pair-csHMM。再次,修改csHMM的Inside-Outside算法优化模型参数,使模型能从已知序列中提取二级结构特征。最后,用优化后的模型去预测非编码RNA基因,并实现了原型系统。研究的难点在于反映非编码RNA特征的模型的建立,及其参数的优化。本文把非编码RNA的二级结构特征和物种进化过程中的保守性融合到非编码RNA模型中,使模型能更好地反映非编码RNA的特征。并且修改了csHMM的Inside-Outside算法以训练新构建的非编码RNA模型,使模型更精确。实际的测试结果表明,所构建的模型比较合理地反映了非编码RNA的特征,经过优化后可以用于非编码RNA基因的识别。本文的主要创新点:(1)在非编码RNA识别中使用上下文敏感隐马尔可夫模型。实验结果表明,该模型提高了非编码RNA基因识别的特异性;(2)在csHMM模型中引入物种进化关系。实验结果表明,两比对基因组的进化距离与模型的进化距离越近识别效果越好;(3)实现了非编码RNA基因识别原型系统RNA-cs。