【摘 要】
:
随着信息技术的迅速发展,生物信息学、图像处理、文本挖掘等许多领域中研究对象的数据描述越来越趋向于高维,给数据挖掘造成了“维数灾难”。针对这个问题,出现了数据降维的研究
论文部分内容阅读
随着信息技术的迅速发展,生物信息学、图像处理、文本挖掘等许多领域中研究对象的数据描述越来越趋向于高维,给数据挖掘造成了“维数灾难”。针对这个问题,出现了数据降维的研究。而特征选择作为数据降维的方法之一,因简单、直观、有效而应用广泛。特征选择可以去除冗余特征、无关特征、甚至噪声特征,从而得到一个近乎无冗余、无噪声的样本集。研究证明,特征选择不仅能显著提高训练分类模型的效率,还能提高分类模型的性能。因此在数据挖掘、机器学习、模式识别等相关领域中,特征选择成为了数据预处理中非常重要的一步,是监督学习算法的一个重要组成步骤。
和学习方法一样,特征选择也存在泛化能力的问题。稳定性就是该问题的具体体现:同一个特征选择算法在同一个样本集的不同训练数据集上得到的最优特征子集是不同的,即算法的输出随着训练数据集的变化而变化,是不稳定的。而在机器学习领域有许多算法与特征选择算法密切相关,比如集成学习和多任务学习。集成学习通过训练多个个体学习器并将其结果进行合成,显著地提高了学习系统的泛化能力。将集成学习运用到特征选择算法中,能较好地解决其稳定性问题,成为近年来的一个研究方向。
本文首先介绍特征选择算法及其基本过程,从“特征子集生成”、“特征子集评价”以及“特征选择与学习算法的结合方式”三个不同的角度对特征选择算法进行分类。接着分析集成方法的研究现状及高维小样本数据集的特征选择的稳定性问题。然后介绍一些常见的特征选择算法及其集成学习模型。基于选择性集成的思想,Zhang Li提出了一种利用集成学习提高稳定性的特征选择算法-基于装袋的选择性结果集成(Bagging-based Selective Results Ensemble,BSRE)算法,本文指出该算法在实际应用中的一些缺陷,并提出了两种改进算法。通过实验和BSRE算法比较,改进算法不仅克服这些缺陷,还在稳定性和分类性能方面都有所提高,所以是有效的。
其他文献
智能监控系统主要基于图像处理,人工智能及模式识别等技术。对这种系统的研究有如下几个方面:①运动前景的提取,②目标分割及辨识,③目标跟踪,④行为识别及归类。本文针对的
随着互联网技术的迅速发展和人们社交需求的日益增长,产生了大量的社交网络数据。通常这类数据既包含用户之间的关系特征,也包含用户自身的基本信息。目前常用来进行社交网络
随着互联网的不断发展以及无线网络技术的普及,网络主机的数量逐渐增加,提供域名系统(Domian Name System,DNS)解析服务的主机数量也逐渐增多。DNS作为互联网重要的基础服务
相比于传统的视频点播,组播技术能够有效地解决网络数据流单点发送、多点接收或者多点发送、多点接收的高效传送问题。IPv6在组播技术上对IPv4进行了扩展,增强的组播支持以及
发展养老服务业是解决老龄化问题的重要途径之一,加快养老服务业发展对更好的满足养老服务需求及促进养老服务资源的节约与合理利用具有重要意义。在“互联网+”和“云服务”
随着计算机网络技术的飞速发展,网络教学这种不受时间和空间限制的教学模式越来越受到教学者的关注,成为传统教学的一个重要的补充。教学信息检索作为网络教学的重要部分,已
无线传感器网络(Wireless Sensor Networks,简称WSNs)是当前一个十分热门的研究课题,它的发展得益于计算、通信、传感等技术的进步。覆盖作为无线传感器网络中的一个基本问题
日益发达的互联网对图像文件的传输存储和安全性提出了更高的要求。在国家安全、医疗、卫星遥感等对图像要求比较高的方面,为了提高图像的传输、存储效率和安全性,设计性能良
随着我国经济建设的迅速发展,电力事业发展规模日趋庞大。面对电力资源需求的不断增长、GIS技术的深入应用,针对现有二维GIS在输电管理系统应用中的局限,以三维GIS输电管理系统应用实例为依托,探讨了三维GIS在输电管理中的关键技术应用。本文针对输电管理的实际情况和特点,在掌握了三维GIS的相关基础知识的情况下,首先对输电管理系统中的海量多源数据的组织进行了分析,采用不规则三角网(TIN)进行三维建模
无线传感器网络作为一种新兴的信息获取技术,已成为网络通信领域中备受关注的研究热点。无线传感器网络是一种无基础设施的无线网络,工作人员将一系列传感器节点随机部署于监