基于布谷鸟搜索算法的特征选择研究及改进

来源 :吉林大学 | 被引量 : 0次 | 上传用户:lihai_feng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今人工智能时代,特征选择是具有重要意义的大数据预处理的方式。特征选择可以避免维度灾难、减少学习算法在执行过程中的时间、有效地防止过拟合现象、过滤掉噪声数据。在这个数据量如此庞大的今天,我们需要从巨大的数据量中找到一些对我们有用的数据再进行训练或者学习,所以特征选择无疑是值得研究和探讨的。特征选择是一个需要从庞大的数据集中挑选出优质的特征的过程,因此也可以理解成是一个搜索过程。而如果我们用穷举的方法去进行特征选择显然失去了特征选择的意义。随机算法是一类优化求解方法,可以很好地应用到特征选择当中。随机算法一般包含群体智能算法,如蚁群和粒子群优化算法以及模拟退火算法等。近年来提出的布谷鸟算法同样也是一种应用广泛的随机算法。布谷鸟搜索算法在优化问题中取得了不错的效果,所以我们尝试将其离散化后应用到特征选择问题上,并且对其改进优化。最近研究表明,布谷鸟优化特征选择算法(BCS)具有较好分类效果。然而,BCS算法也有一些不足。第一,BCS算法初始化的随机性导致算法盲目性太大,而算法后面的过程都是依赖初始化的过程而进行的,所以如果初始化质量不好,会严重影响算法的更新迭代过程的效果;第二,BCS算法中适应度函数的局限性严重限制了该算法的分类性能和维度缩减能力;第三,迭代过程中优质的特征没有保留到下一轮迭代中。因此,根据以上说明的BCS算法缺点提出三点改进。首先,根据混沌序列可得到优质序列的特性重新构建了一种新的初始化策略。由于混沌序列有很多种类,不同种的混沌序列映射也有不同的性质。所以对不同的混沌序列映射进行测试,并根据实验结果判断哪种混沌映射更适合布谷鸟搜索算法的初始化。我们对近年表现比较好的Logistic混沌映射、Tent映射以及Chebyshev映射进行测试,得出Chebyshev映射更适合布谷鸟搜索算法初始化过程。采用Chebyshev混沌映射不但使随机性减小,增大算法的收敛速度,而且使用Chebyshev混沌映射初始化的布谷鸟巢内部结构也更精致,更利于后期算法的更新。其次,原始BCS算法中的适应度函数过于简单,我们用信息增益去衡量分类器的分类准确率,用L1范数衡量维度缩减的程度,重写了BCS算法的适应度函数。最后,我们希望将迭代中的优质特征可以保留至下一次迭代中,这样可以减少搜索无用空间,提高算法收敛速度。因此我们将二个优秀序列进行与运算得到优质特征,利用或运算可将优质特征添加到新一轮迭代产生的序列中,重新优化迭代过程。通过以上三点构建了一个新的特征选择算法FS_CSO。在实验阶段,FS_CSO使用KNN,J48和SVM分类器来指导学习过程并在小型,中型和大型的UCI数据集上进行测试。实验结果表明,与BCS对比,FS_CSO显著提高了分类性能和维度缩减能力。将FS_CSO算法与近几年提出的比较高效的特征选择算法进行比较,不论是准确率,还是维度缩减,FS_CSO都具有很强的竞争力。
其他文献
中国国土面积较大,农村分布较为广泛,因此,不同地域的自然地理环境、社会历史文化以及各区域经济发展水平全然不同。同时,由于我国是一个以农业人口为主体的农业大国,村域范围内人口较多,居民点用地比例大,形成我国农村居民点在空间上的分布有着巨大的差异性。因此,通过科学分析,对我国不同地域农村居民点布局进行分类,基于分析结果,对乡村规划和农村居民点布局进行优化,是研究我国农村居民点空间布局问题的首要任务。农
随着半导体技术的发展,市面上出现了越来越多支持超高清分辨率的播放设备,很多移动设备也开始支持2K甚至4K的分辨率。但是相应的采集设备价格昂贵,储存、传输超高分辨率资源
多目标跟踪是计算机视觉领域的一个研究热点,其在智能监控领域具有重要意义,通过计算机对感兴趣的目标进行检测和跟踪来代替传统的人工方式可以极大程度减轻人力资源消耗。最初的多目标跟踪是基于单视角环境进行研究的,迄今为止已有大量优秀的单视角多目标跟踪算法,但它们仍无法较好地解决遮挡问题,利用多个视角的冗余互补信息通过数据融合为解决遮挡问题提供了可能。与单视角多目标跟踪相比,多视角多目标跟踪不仅要解决时序上
能够检测有毒有害气体的全固态气体传感器在大气环境监测、微环境监控以及医疗诊断等领域具有良好的应用前景。基于固体电解质NASICON的气体传感器因其低检测下限、低功耗以及快速的响应恢复速度等特点而备受研究人员青睐。本文设计制备钙钛矿化合物材料作为敏感电极,进而开发出面向大气环境监测、室内微环境监控以及医疗诊断等多领域应用的NASICON基混成电位型二氧化硫、三乙胺以及丙酮传感器。本文主要内容如下:(
无线网络具有自主组网,多跳路由的特点,网络中的设备通过消息传递的方式进行通信,这将会产生大量冗余数据,可能引发网络风暴。为了增强网络的性能,提高资源利用率,需要对无线网络采取有效的拓扑控制,连通支配集作为无线网络实现拓扑控制的重要方式之一,能够简化网络路由表,节省能量,具有高效性、便捷性等优点,吸引了国内外众多研究者的关注。随着无线网络应用领域的不断扩展,对连通支配集的研究提出了更进一步的要求。本
近年来,通过虚拟现实技术还原虚拟场景和实现交互的研究越来越多,因此关于基于虚拟现实的文物复原方面的研究也逐渐成为热点。传统的文物碎片数字化展示多为静态的图像、模型,其沉浸感和交互性还不足。本文关于在文物虚拟挖掘这一交互式模拟中,针对探铲和泥土坑基的三维模型之间的交互性进行分析,以及土壤粒子的运动状态进行研究,动态真实的模拟其交互过程,展开相关工作。本文研究工作包括:(1)对于模拟泥土被翻动挖掘时的
基于模型诊断是人工智能领域的热门研究课题,弥补了传统诊断方法的多种不足。其理论研究成果丰硕,并广泛应用于实际生产中,加快了人工智能的发展速度。通常分两步对其求解:首先,求解给定电路系统的全部极小冲突集;然后,求解全部极小冲突集的全部极小碰集,即为给定电路系统的全部极小诊断解。可满足问题(SAT)是经典的NP问题,其理论研究及技术应用发展成熟。很多问题都可以转化为可满足问题求解。国际上定期举办的SA
单重态激子分裂(singlet fission,SF)是指1个单重态激子与1个处于基态的分子发生相互作用,单重态激子分裂生成2个三重态激子的过程。此现象在光催化、光伏和光探测等领域中的运用具有较好前景。SF过程多发生在各种并苯(包括anthracene、tetracene和pentacene)以及它们的衍生物中。作为并四苯衍生物之一的红荧烯(rubrene)材料,由于其具有较窄的能隙、较高的载流子
滨湖空间是具有生态功能的开放空间,由湖体和湖岸组成。湖体是雨水重要的调蓄载体,湖岸是雨水净化的载体。湖岸土壤和植物根系能够保持水土,其自然洼地在降雨时渗蓄和净化雨水,旱时将蓄存的雨水通过渗蓄作用回补湖体,错落有致的植物景观带可以保证自然生态系统具有稳定的自我修复功能,是城市居民可以接触到为数不多的自然生态区域。本次研究对象为天津市天嘉湖片区,该片区是以广阔的天嘉湖为中心的湖岛居住区,居住用地和配套
科研团队是高校科研创新的重要单位,在高校科学研究中占据核心地位。青年教师作为高校科研队伍中最积极、最活跃的有生力量,也日益受到各界的广泛关注。本研究以一所高水平研