基于SVM的植物microRNA预测

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:feierdalong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
MicroRNA (miRNA)是一种非编码的RNA序列,这些长度约为21个碱基的序列在动物、植物、病毒基因的后转录过程中发挥着巨大的作用。MiRNA可以靶向到它们对应的靶基因,抑制某些基因的转录和翻译,进而阻止相应性状的表达。大量科学实验表明,miRNA参与到很多的生物反应中,这些生物反应可以由生化作用产生也可以由非生化作用产生。为了更好地了解生物的基因调控过程和生长机理,必须对这些miRNA和它们对应的靶基因有更深入的了解。近些年来,以计算机强大的存储和计算能力为基础,通过机器学习方法建立模型的方式被广泛的应用到了生物miRNA分类预测、miRNA靶基因研究和miRNA相互作用分析等研究中。现有的miRNA分类模型单纯的把哺乳动物做为研究对象,或者仅仅可以识别植物miRNA前体而无法给出miRNA的位置。因此,本文在支持向量机(Support Vector Machine, S VM)算法的基础上,构建了一个可以分类植物miRNA前体,并给出前体中成熟miRNA所在位置的集成分类模型miPlantPreMat。从第一个miRNA被发现开始,科学界提出了许多miRNA相关的特征,通过总结以往的这些特征和对植物miRNA序列的分析,本文共提取了152个miRNA序列结构相关特征。从每个特征的信息增益值和在SVM分类过程中的贡献率综合分析出发,提出了一种有放回的支持向量机递归特征消除(Support Vector Machine-Recursive Feature Elimination,SVM-RFE)特征子集选择方法,同时结合了合成少数样本过采样(Synthetic Minority Over-sampling Technique, SMOTE)数据预处理方法和网格优化参数方法,分类效果有所提升。在拟南芥,大豆,番茄等9种植物的数据集上的测试结果表明,该方法对植物的miRNA前体和成熟体分类有着高分类精度和普适性特点。通过miPlantPreMat分类模型,从番茄基因组中预测到了522条潜在的miRNA序列,进一步通过psRNATarget预测得到了3214个miRNA与番茄靶基因相互作用关系,并通过这些关系构建了番茄miRNA通过靶基因的协同作用网络,为生物实验提供了参考。总之,本文成功地利用基于SVM和植物miRNA序列结构特征的分类模型及相关算法解决了miRNA前体和成熟体分类问题。通过对具有代表性的植物和模拟数据的实验分析,无论是在特征的质量还是模型分类能力方面,效果都得到了一定的提高。
其他文献
集成学习的主要思想是融合多个分类学习算法的分类性能来提高整体分类算法的泛化能力。构建一个具有多样性/差异度大的弱分类学习算法集合是集成学习取得高泛化能力的关键。对
相比传统网络,泛在网中设备数量众多,种类繁杂,且许多数据源网络长期处于无人值守的工作状态。泛在设备的存储和计算能力相比传统网络也更加有限,当前,大多数数据源网络之间
数据统计显示,意外事故发生时,当事人几分钟之内的死亡率为50%;几小时内的死亡率为30%;受伤之后,在几星期内死亡的占20%。而且,立即死亡的当事人,绝大部分丧生于事故现场。可见
人脸识别凭借其友好、便捷、隐蔽性等优势成为生物识别领域的热点研究课题之一。经过近50年的发展,基于二维图像的人脸识别技术日趋成熟,但受限于二维图像的数据形式,二维人
集电力电子和智能控制于一体的无刷直流电机(Brushless DC Motor,BLDCM),得益于其电能转化效率高、使用寿命长及维护维修方便的优势,已广泛应用于工业控制、交通运输、家用电气
三维网格模型在计算机图形学中具有主导地位。它广泛应用于电影、游戏、计算机辅助设计、模拟仿真、艺术与历史、医药等众多领域。基于多边形网格模型的数字几何处理技术不断
随着互联网的发展,数据呈现几何式的增长,如何能够从巨大的数据中快速寻找出对自己有用的数据,将会是大家面临的一个问题。搜索技术的出现方便了人们快速而且有效的获取信息
现代数字信号处理器(DSP)一般采取超长指令字或是超标量来实现指令级并行。超长指令字(VLIW)数字信号处理器将并行任务的识别和调度交给了编译器,因此在利用VLIW DSP的时候需
在通信技术迅速发展的今天,手机已经成为人们工作和生活当中不可或缺的联系工具。手机给人们带来众多便利的同时,也常常被不法分子利用作为犯罪工具,司法机关急需采取有效的技术
生物医学文献数量的急剧增加,使得生物医学从业者在海量生物医学文献中快速地获取大量的感兴趣的信息变得困难。因此,快速有效地从海量无结构化的文本中抽取出便于管理、查询