基于序列顺序与位置信息的启动子预测

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:edward109
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
启动子是位于转录起始点附近的能促使基因发生转录的一段DNA序列,通常由核心启动子区域和调控区域组成。在RNA合成过程中,启动子可以和决定基因转录起始的蛋白质相互作用,进而控制基因表达时间和水平。启动子是转录起始点附近的基础调控区域,对其进行准确定位十分重要。启动子识别对于确定负责特定通路的转录单位、研究基因结构、分析基因调控机制以及注释基因信息具有重要意义。准确识别基因启动子的传统方法通常涉及复杂的生物学实验,要用此方法在全基因组范围定位所有启动子是一项极其耗时费力的工作。在过去几十年,启动子实验数据的积累以及测序技术的发展使启动子的计算预测成为可能。许多基于启动子序列相似性、保守性、信号基序、核苷酸组成等信息的计算识别模型相继被提出。但是,绝大多数方法的预测能力比较有限,分类精度仍有一定的提升空间。因此,本文尝试了一种新的样本描述方法,希望其能改善模型的预测能力。本文从多个数据库中搜索并下载了人类、果蝇、线虫、枯草杆菌和大肠杆菌的启动子和非启动子序列数据,构建了五个基准数据集。基于伪核苷酸方法和位置关联打分方法提取启动子序列的核苷酸组分信息、长程序列顺序信息和3-联体核苷酸的位置关联信息。为了剔除两类特征整合过程中产生的冗余或噪声信息,我们采用了最小冗余最大相关和增量特征选择方法对整合后的所有特征进行排序进而确定最优特征子集。然后,利用支持向量机算法搭建模型对五个物种的启动子和非启动子进行分类,并基于10-倍交叉验证评价五个预测模型的性能。人类、果蝇、线虫、枯草杆菌、大肠杆菌模型的准确率和ROC曲线下的面积分别为93.3%和0.974、93.9%和0.975、95.7%和0.981、95.2%和0.988、93.1%和0.976。与现有启动子预测算法比较的结果表明本文提出的模型优于其他模型。最后,为了方便大家使用此新的启动子识别方法,基于本文提出的分类模型,我们创建了一个在线预测工具(http://lin-group.cn/server/iPro-PseKNC)。
其他文献
为充分利用智能变电站的站端信息,帮助运维人员更加快速准确地定位智能变电站二次系统的故障,从而保证电力系统的安全稳定运行,文中提出一种基于多分类支持向量机(SVM)的智能
<正>【教学内容】人教版三年级上册第一单元《时分秒》例2。【教学过程】一、谈话引入,引发思考师:同学们,今天我们继续学习跟"时间"有关的问题。老师这里有两个跟时间有关的
<正>在人教版(2011版)小学数学的教材中,分五个阶段来逐步认识时间(如下表)。在教材的编排上,我们可以看出循序渐进,符合学生的认知规律。但是在实际的学习过程中我们还是发
期刊
“阅读教学是学生、教师、文本之间对话的过程。”语文的学习是有情感、有生命的。我们的课文是通过语言文字来塑造形象的,因此,在课堂教学中,教师应巧妙预设,积极引领,以文本中的形象为突破口,扎实有效地学习语文。    一、浮华的多媒体课件——喧宾夺主    [案例]1《螳螂捕蝉》  一位教师在教《螳螂捕蝉》,他展示了一个制作颇为精美的课件,显然课件形象生动地再现了这则寓言的内容,同学们看后自然是“哇声”
目的分析慢性乙肝患者实行免疫球蛋白检验的临床意义与影响。方法选取我院2017年1月-2018年1月收治的慢性乙肝患者50例作为观察组,选取同期的健康体检者50例作为对照组,两组