基因表达数据的特征选择及其分类算法研究

来源 :中国计量学院 | 被引量 : 0次 | 上传用户:zhgrmlshr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基因组学的不断发展,DNA微阵列技术为生命科学提供新的解决问题的思路与方法。基因表达数据是一般为矩阵形式,分析的是基因发生的改变,基因间的互相关系以及基因活动产生的影响等,具有维数高、样本少、分布不平衡等特点。基因表达数据可以为疾病的诊断和治疗提供可靠的分类结果。分析基因表达数据时,需要对其进行特征选择,从而降低数据的维数,降低后期的生物学分析成本。选择出对分类起重要作用的那部分基因可以为疾病的预防与诊断等提供更准确的依据。本文将针对基因表达数据的特征选择和分类算法进行研究,主要内容包括:(1)提出基于互信息最大化的模型无关的特征选择方法。利用互信息最大化方法对基因进行初步筛选,能去除大量噪声,有效减少冗余基因,为遗传算法提供比较理想的种群初始化环境,特征选择转变为全局优化问题。选择得出的特征子集可直接用于其他类型的分类器,分类精度较高。(2)提出基于云平台的特征选择方法。结合了云计算与特征选择方法的特点,利用5台PC模拟搭建Hadoop云计算平台,用Map任务计算各自特征集的信息熵,在Reduce步骤中,对上一步得到的互信息进行排序,筛选特征,汇总后运送到客户机,在客户机端用ELM对获得的基因特征进行训练和测试,算法能够在保证一定分类精度的情况下快速进行特征选择,降低了时间复杂度。(3)提出基于鱼群优化算法的改进RELM基因表达数据分类方法。用鱼群优化算法优化RELM的输入层权值,对输出权值矩阵采用Cholesky分解,改进后的基因表达数据分类算法泛化性能好,分类精度较高。(4)改进了正则极限学习机的隐层偏置,提高了基因表达数据的分类精度。RELM的隐层偏置用Fibonacci方法优化,改进后的算法应用到肿瘤数据集中,分类精度较高。本文主要针对特征选择和分类问题开展研究,并将研究成果应用在Breast、Colon、Leukemia、SRBCT等基因表达数据集上,丰富了特征选择的方法,基因表达数据分类的准确率得到提升,为生物学以及生命科学领域的基因表达数据研究提供了有价值的分析工具。
其他文献
软件测试是软件质量保证的重要手段。随着互联网技术的普及,软件产品已从传统的单机环境迁移到复杂多变的网络环境。因此,研究如何对网络软件进行测试是软件测试领域的一个重
随着Internet的持续快速发展,人们对网络的需求由简单的数据传输向综合的多媒体业务发展。多播技术作为一种可大大节省网络资源的技术在多媒体业务中有着广泛的应用。很多实时
随着企业信息化的发展,企业越来越依赖于网络,Intranet中的关乎企业利益的安全问题越来越受到更到的关注。而如何能够有效地保障网络中这些与企业息息相关的重要数据信息的安全
本文针对XX部机关局域网的安全要求,提出了一套系统、先进和科学合理的网络安全整体解决方案,包括内部网络的安全、远程接入的安全、连接外部网络的安全以及操作系统安全、应用
分布式一致性是指n个处理器组成的分布式系统,其中最多有m个处理器发生故障,要求所有的无故障处理器都能做出相同的决定,并且决定值必须是合理的。区域故障模型是多个局域网中处
互联网的发展为全球范围内实现高效的资源和信息共享提供了方便,同时也对网络安全防护提出了新的挑战。网络入侵检测技术作为一种积极主动的安全防护技术正成为目前网络安全领
不断发生的瓦斯灾害事故带来的是巨大的生命和财产损失,为了让悲剧能够谢幕,我国也在不断地利用计算机等新兴高科技技术来推动瓦斯抽采监测系统的发展。要提高煤矿瓦斯抽采效
基因组重组问题是计算生物学中的常见问题,基因组重组算法对分子生物学中生物进化的研究具有重要意义。早在六十年前,Dobzhansky和Sturtevant发表了一篇重要论文,证明了两种不同
聚类是数据挖掘的重要分支之一,引入模糊理论的模糊聚类分析为现实数据集提供了模糊处理能力,在许多领域被广泛应用。本文在对基于划分的模糊聚类算法中模糊C均值聚类算法及
随着互联网新技术的发展,网络服务和信息交换等应用大规模出现。由于网络数据的异种性和异构性,就急需一套统一的数据表式和数据交换的标准。可扩展标记语言(XML)及时解决了