非编码RNA基因识别模型的设计与实现

被引量 : 0次 | 上传用户:hou0608
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学是计算机科学与生命科学相结合形成的一个研究领域。它通过用计算机科学的理论和相关算法对生命科学领域内的数据进行加工、存储、检索和分析。随着生物序列数据的快速增长,如何运用高效的算法来处理这些数据已经得到了越来越多的关注。基因识别正是其中一个焦点。它是指在DNA序列中识别出所有编码蛋白质的区域和所有与基因表达调控有关的不编码蛋白质的区域。本文主要研究非编码核糖核酸(non-coding ribonucleic acid, ncRNA)的基因识别问题。研究的方法采用上下文敏感隐马尔可夫模型(context-sensitive hidden markov model,csHMM)的技术,结合物种进化关系,尝试找出一种能够从基因组中识别非编码RNA基因的新方法。本文的重点是利用上下文敏感隐马尔可夫模型和物种进化关系构建非编码RNA的二级结构模型,并实现了非编码RNA基因的理论预测。首先,利用csHMM构建基本的非编码RNA二级结构模型。其次,从代表物种进化关系的氨基酸置换矩阵推导出上下文敏感隐马尔可夫模型的生成概率,从而构建新的非编码RNA识别模型框架pair-csHMM。再次,修改csHMM的Inside-Outside算法优化模型参数,使模型能从已知序列中提取二级结构特征。最后,用优化后的模型去预测非编码RNA基因,并实现了原型系统。研究的难点在于反映非编码RNA特征的模型的建立,及其参数的优化。本文把非编码RNA的二级结构特征和物种进化过程中的保守性融合到非编码RNA模型中,使模型能更好地反映非编码RNA的特征。并且修改了csHMM的Inside-Outside算法以训练新构建的非编码RNA模型,使模型更精确。实际的测试结果表明,所构建的模型比较合理地反映了非编码RNA的特征,经过优化后可以用于非编码RNA基因的识别。本文的主要创新点:(1)在非编码RNA识别中使用上下文敏感隐马尔可夫模型。实验结果表明,该模型提高了非编码RNA基因识别的特异性;(2)在csHMM模型中引入物种进化关系。实验结果表明,两比对基因组的进化距离与模型的进化距离越近识别效果越好;(3)实现了非编码RNA基因识别原型系统RNA-cs。
其他文献
高校志愿服务工作的完善与发展问题逐步受到各大高校乃至社会的广泛关注。本文将结合医学院校学生特点,对信息化时代背景下大学生志愿服务的科学管理以及网络平台的构建进行
目的观察采用耳穴压豆(降压沟)对高血压病人血压的影响。方法对符合标准的60例患者进行为期8周的耳穴压豆治疗,对比患者治疗前后血压及症状的改善情况。结果经过8周耳穴压豆
“概括地说,点、线、面、体是用视觉表达质体——空间的基本要素。生活中我们所见到的或感知的每一种形状都可以简化为这些要素中的一种或几种的结合,”——加勒特,1969。从现代
本文沿着中国动画80年的发展历程,选取20世纪50年代末到60年代中期和70年代末到80年代中期的两个动画发展高潮阶段中形态各异具有代表性的动画作品,从视听两个角度深入分析了
随着计算机技术和现代控制理论的发展,由数字控制装置组成的随动系统应运而生。与传统的模拟系统相比,数字随动系统具有设计简单,体积小,修改方便,精度高,可靠性高等优点。作
特殊群体主要是指老人、未成年人、残障人士、农民工等群体。特殊群体的存在影响着社会的稳定与发展、公平与正义。因此,研究并解决当代中国的特殊群体问题,对促进社会均衡和
目的分析引发中成药不良反应的原因及预防措施。方法回顾性分析出现中成药用药不良反应患者43例的临床资料,从患者性别、年龄、用药途径、药品剂型、药品品种及临床表现等方
框架理论是最早从西方兴起的一个重要传播理论,到了20世纪80年代后逐渐受到许多媒介研究学者的关注。学者们大致从三个层面去研究新闻框架:一是新闻生产;二是新闻文本;三是受
内容摘要:人口在资源、生态、环境和可持续发展问题中处于核心地位,也是人口地理学的重要研究内容。对人口的研究开展了许多工作,不同的学科和不同的学者从众多方面进行了很
在化工、制冷、核电站等领域,采用常规方法对微小管道检测费时费力,且存在中毒、辐射等危险。因此,微小管道机器人在细小管道检测方面具有良好的应用前景。本文针对管道内径