论文部分内容阅读
MicroRNA(MiRNA)是RNA家族中的一员,被称为小分子RNA。目前,众多的研究表明,miRNA与生物体的基因表达、生长发育和行为等都有十分密切的关系。早期对miRNA的识别均采用生物学实验方法,但却因其低效、费时、昂贵等因素导致识别效果并不理想。之后,研究者开始把机器学习引入miRNA的识别,这为大规模预测miRNA提供了新的思路。本文侧重对应用在miRNA识别领域的机器学习方法做了较深入的研究,以此提高miRNA的识别精度。主要的研究工作如下:
1.提出了基于成对约束的半监督降维算法LSLDA。通过对已提出的几种采用机器学习识别miRNA的方法的研究表明,这些方法大都以生物学理论为基础,从miRNA的序列和二级结构中提取特征,并未考虑这些特征中是否有些特征影响了分类效果。为此,本文采用基于成对约束的降维方法去除那些对分类贡献不大的特征,进而提高分类器的性能。与原训练集上的实验结果相比,LSLDA在时间复杂度和分类器性能上都有明显的改进。
2.提出了基于成对约束的集成算法En-LSLDA。该算法针对LSLDA算法可有效进行降维,但不能克服成对约束不确定性的影响(每次取到的成对约束个数不同和内容不同,会导致不同的分类结果)。因较高的分类精度不确定在取哪些成对约束个数时得到,为此,本文通过对取各个成对约束个数下的分类器进行集成,构建一个比单个分类器性能更优的集成分类器,以此提高miRNA的预测精度。从实验结果看,En-LSLDA算法是有效可行的。
3.提出了异构的分类器集成算法EnH-LSLDA。为满足好的集成算法对基分类器精度和差异性的要求,我们在降维后的低维空间中进行特征选择得到一系列有差异的特征子空间。在这些特征子空间上训练异构的基分类器,可得到分类精度高且有差异性的基分类器。最后通过投票法对这些基分类器进行集成,从而得到一个好的集成分类器。在miRNA和UCI数据集上的实验表明,EnH-LSLDA算法可很好地改善预测精度。