论文部分内容阅读
非编码小RNA是对一类长度为20-30个碱基且不翻译成蛋白质的RNA小分子的统称。目前已知的非编码小RNA主要有三类,分别是siRNA, miRNA和piRNA。这些非编码小RNA分子既能够参与转录阶段的调控,又能够实现转录后的调控,在生物体生长发育过程中发挥着非常重要的作用。近年来,非编码小RNA的研究得到了广泛的关注。基于序列,本文使用机器学习的方法对一种代表性的非编码小RNA分子miRNA产生机制以及作用原理展开了广泛且深入的研究,取得了一系列的研究成果。概括起来,主要包含以下四个方而:1.提出了一种新的miRNA前体预测方法miRenSVM。通过提取并选择合适的特征,该方法能够识别二级结构包含多茎-环的miRNA前体。进一步运用组合分类方法,我们有效的解决了miRNA前体预测中一直存在的样本不均衡问题。通过与其他方法比较,miRenSVM的表现明显优于现有的预测方法。随后,用27个物种的5238个miRNA前体序列做测试,其准确率达到了92.84%。2.为了有效的组织和管理现有的miRNA数据,提出了一种基于有监督学习的方法miRFam用于自动划分miRNA前体的家族。该方法仅依靠miRNA的序列信息,通过提取n-gram特征,并使用multi-class SVM对由n-gram组成的特征向量进行分类。相比于传统的序列比对方法,miRFam的效率和准确率明显更高。实验测试表明,miRFam方法完全可以满足实际应用当中快速、准确的要求,因此可以大大节省人力和物力成本。3.通过整合现有的植物miRNA靶基因预测方法,首次提出了一种预测拟南芥miRNA靶基因的整合方法imiRTP。伴随着研究的深入,miRNA与其靶基因的作用原理也变得更加复杂。现有的方法并不足以很好的解决这一问题,因此有必要研究新的靶基因预测方法。参考动物miRNA靶基因预测的成功经验,我们挑选了四种当下最流行的植物miRNA靶基因预测方法整合在imiRTP中,并提出了四条标准用于进一步筛选高质量的拟南芥miRNA靶基因。4.基于NGS数据,提出了一种新的TAS基因预测方法,并提出了次级双引物模型用于解释拟南芥TAS2基因与某些PPR基因之间的作用关系。基于拟南芥根部Illumina测序的多个数据集,结合模式识别的方法,我们成功实现了拟南芥TAS基因的预测,得到的结果比基于统计的方法更为精确可靠。在大量计算的基础上,我们还研究了初级和次级ta-siRNA的产生原理,并提出了次级双引物模型对拟南芥miRNA-TAS2-PPR之间的作用关系进行了详细的描述。