论文部分内容阅读
MicroRNA (miRNA)是一种非编码的RNA序列,这些长度约为21个碱基的序列在动物、植物、病毒基因的后转录过程中发挥着巨大的作用。MiRNA可以靶向到它们对应的靶基因,抑制某些基因的转录和翻译,进而阻止相应性状的表达。大量科学实验表明,miRNA参与到很多的生物反应中,这些生物反应可以由生化作用产生也可以由非生化作用产生。为了更好地了解生物的基因调控过程和生长机理,必须对这些miRNA和它们对应的靶基因有更深入的了解。近些年来,以计算机强大的存储和计算能力为基础,通过机器学习方法建立模型的方式被广泛的应用到了生物miRNA分类预测、miRNA靶基因研究和miRNA相互作用分析等研究中。现有的miRNA分类模型单纯的把哺乳动物做为研究对象,或者仅仅可以识别植物miRNA前体而无法给出miRNA的位置。因此,本文在支持向量机(Support Vector Machine, S VM)算法的基础上,构建了一个可以分类植物miRNA前体,并给出前体中成熟miRNA所在位置的集成分类模型miPlantPreMat。从第一个miRNA被发现开始,科学界提出了许多miRNA相关的特征,通过总结以往的这些特征和对植物miRNA序列的分析,本文共提取了152个miRNA序列结构相关特征。从每个特征的信息增益值和在SVM分类过程中的贡献率综合分析出发,提出了一种有放回的支持向量机递归特征消除(Support Vector Machine-Recursive Feature Elimination,SVM-RFE)特征子集选择方法,同时结合了合成少数样本过采样(Synthetic Minority Over-sampling Technique, SMOTE)数据预处理方法和网格优化参数方法,分类效果有所提升。在拟南芥,大豆,番茄等9种植物的数据集上的测试结果表明,该方法对植物的miRNA前体和成熟体分类有着高分类精度和普适性特点。通过miPlantPreMat分类模型,从番茄基因组中预测到了522条潜在的miRNA序列,进一步通过psRNATarget预测得到了3214个miRNA与番茄靶基因相互作用关系,并通过这些关系构建了番茄miRNA通过靶基因的协同作用网络,为生物实验提供了参考。总之,本文成功地利用基于SVM和植物miRNA序列结构特征的分类模型及相关算法解决了miRNA前体和成熟体分类问题。通过对具有代表性的植物和模拟数据的实验分析,无论是在特征的质量还是模型分类能力方面,效果都得到了一定的提高。