基于万圣约束降维和分类器集成的MicroRNA识别方法研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:iammycsj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
MicroRNA(MiRNA)是RNA家族中的一员,被称为小分子RNA。目前,众多的研究表明,miRNA与生物体的基因表达、生长发育和行为等都有十分密切的关系。早期对miRNA的识别均采用生物学实验方法,但却因其低效、费时、昂贵等因素导致识别效果并不理想。之后,研究者开始把机器学习引入miRNA的识别,这为大规模预测miRNA提供了新的思路。本文侧重对应用在miRNA识别领域的机器学习方法做了较深入的研究,以此提高miRNA的识别精度。主要的研究工作如下:   1.提出了基于成对约束的半监督降维算法LSLDA。通过对已提出的几种采用机器学习识别miRNA的方法的研究表明,这些方法大都以生物学理论为基础,从miRNA的序列和二级结构中提取特征,并未考虑这些特征中是否有些特征影响了分类效果。为此,本文采用基于成对约束的降维方法去除那些对分类贡献不大的特征,进而提高分类器的性能。与原训练集上的实验结果相比,LSLDA在时间复杂度和分类器性能上都有明显的改进。   2.提出了基于成对约束的集成算法En-LSLDA。该算法针对LSLDA算法可有效进行降维,但不能克服成对约束不确定性的影响(每次取到的成对约束个数不同和内容不同,会导致不同的分类结果)。因较高的分类精度不确定在取哪些成对约束个数时得到,为此,本文通过对取各个成对约束个数下的分类器进行集成,构建一个比单个分类器性能更优的集成分类器,以此提高miRNA的预测精度。从实验结果看,En-LSLDA算法是有效可行的。   3.提出了异构的分类器集成算法EnH-LSLDA。为满足好的集成算法对基分类器精度和差异性的要求,我们在降维后的低维空间中进行特征选择得到一系列有差异的特征子空间。在这些特征子空间上训练异构的基分类器,可得到分类精度高且有差异性的基分类器。最后通过投票法对这些基分类器进行集成,从而得到一个好的集成分类器。在miRNA和UCI数据集上的实验表明,EnH-LSLDA算法可很好地改善预测精度。  
其他文献
可信计算是一种信息系统安全新技术,它已经成为国际信息安全领域的一个新热潮,并且取得了令人鼓舞的成绩。可信计算的总体目标是提高计算机系统的安全性。可信平台模块TPM,是
随着网络技术的发展及网络应用的普及,入侵检测作为网络安全的主动防御工具,也面临着更多新的挑战,尤其是在大量的网络数据、在线学习以及噪声数据等情况下,无法准确识别网络
随着信息技术的不断发展与在企业中应用的不断扩大,数据库做为数据存储与管理的软件系统,其作用越来越被从业人员所重视,伴随而来的是数据库管理与性能调整、监控问题。数据
随着新兴电子商务平台广泛使用,用户在享受便利的同时,也通过论坛发表关于产品的观点。通过这些评论,普通用户可以了解产品的性能,为购买行为做出理性的选择,生产者可以快速
图像信号在产生、传输和记录过程中,经常会受到各种噪声的干扰,这破坏了图像的视觉效果,严重影响了边缘检测、图像分割等后续处理的进行。因此,采用适当的方法减少噪声(即对
近年来,随着各种应用需求的不断增长,数据融合技术作为一门新兴交叉学科得到飞速发展和广泛关注。各种传感器、信息源所获得的大量数据均希望通过数据融合系统相互互补,以获
在自然语言处理领域,语义推理研究是一个非常重要的研究课题。虽然目前的语义研究尚且不够成熟,但语义推理研究对于深入分析文本语义,使计算机更加智能具有深刻的意义。本文
在电信行业,其客户数据的增长速度越来越快,为了提高其决策效率,人们已将数据挖掘中的聚类分析技术引入电信业的客户关系管理中。在数据挖掘中,大部分对象的类属性和归属关系没有严格要求和限制,这些对象数据的属性存有重复叠加性、和交错性,这种特点比较适合进行模糊划分,而且现实生活中许多客观事物之间又具有模糊性,便产生了模糊聚类分析。将模糊聚类应用于各个领域成为了一个研究热点。本文对课题研究主要有以下几个方面
伴随着网络技术的发展,许多应用需要迁移到网络环境的异构平台上,这对新一代的软件开发提出了新的需求。中间件(Middleware)正是应这个需求而被提出,成为研究的热点。   消息
学位