基于粗糙集和Runner-root算法的特征选择

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:a596298067
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘、机器学习等领域,特征和模型相辅相成。特征过少,模型无法完成决策任务;特征过多,造成信息冗余,模型难以训练且训练成本高。特征选择是去冗余、降低空间维度的方法之一,是数据挖掘、机器学习等领域数据预处理阶段的重要步骤。特征选择方法有过滤法,包裹法和嵌入法。粗糙集是处理不确定性信息的数学工具,其核心是属性约简。基于信息熵、依赖度、重要度等表示条件属性与决策属性相关性的属性约简方法都属于过滤法。经典粗糙集只适合处理离散型数据,对于连续型数据,需要进行离散化处理,离散化处理会导致信息的缺失,引入邻域粗糙集和度量空间的概念,将粗糙集的等价关系转化为邻域空间上对信息粒子的覆盖关系。邻域粗糙集直接处理连续型数据,避免离散化导致原始信息的缺失。随着智能算法的不断涌现,粗糙集和智能算法结合进行特征选择,智能算法负责特征空间特征子集的搜索,粗糙集知识作为评价函数对特征子集进行评价。好的搜索算法能在特征空间中尽可能快而准确地找到最适特征子集,评价函数的好坏也影响着模型的建立。本文的主要研究工作:(1)对邻域粗糙集的前向贪心数值约简算法进行改进,前向贪心数值约简算法通过不断地向约简集合加入属性重要度大的属性,直到加入的属性重要度为零。通过实验发现,该算法的阈值设置为零不是一个好的选择,个体价值最大无法代表整体价值最大化,是贪心策略的不足之处。合适的阈值如何设定?本文引入轮盘赌算法进行改进,所有属性都有机会被选择,重要度大的属性被选择的概率更大,在设置的合理选择次数内,只要特征被选择过一次,就加入约简集合。设置迭代次数,分类器的准确率为评价标准,对每次选择的特征子集进行评分,选择分类效果最好的特征子集为最佳特征子集。基于轮盘赌算法改进的前向贪心数值约简算法是过滤法和包裹法结合的特征选择方法,实验结果证明,改进的前向贪心属性约简算法有更好的特征选择效果。(2)结合邻域粗糙集和Runner-root算法的特征选择方法。邻域粗糙集的属性依赖度和重要度是对条件属性和决策属性之间相关性的评价,Runner-root算法模拟了匍匐茎(枝)植物的繁殖过程,以独有的搜索策略,整体和局部结合,在特征空间中通过评价函数的评价不断地迭代寻优。本文设计的评价函数分为三个部分,包括决策属性对已选特征子集的依赖度,特征子集的大小及剩余未选属性的重要度。评价函数设计考虑了整个特征集合,没有忽略掉未选特征可能对决策结果的影响。实验结果证明,基于邻域粗糙集和Runner-root算法的特征选择分类效果最好。
其他文献
无线传感器网络(Wireless Sensor Networks,WSNs)作为智能科技领域研究开发的基础设施,因其具有感知性能强和运算处理快速等特点而被广泛应用于众多领域。随着网络应用环境的不断变化,传感器节点的种类变得多样化,节点性能得到高质量的提升。人工智能时代的到来,涌现了大量的智能产品,无线传感器网络作为基础构件,被广泛应用于物联网智慧城市、智能家居、自然灾害监测预报预警、智能医疗与健康
图像去模糊技术不仅是计算机视觉范畴内的研究热点之一,也是最基本且具有研究意义的课题。手持设备和被拍摄物体之间的相对运动会使图像产生模糊效应,而将复杂的模糊图像通过算法模型复原出清晰的图像是图像去模糊的主要目标。由于模糊核的生成不满足唯一性,因此图像盲去模糊即是一种不适定性问题,也是一种病态问题。随着深度学习技术在图像处理领域的不断应用,图像去模糊技术在评价指标、视觉效果上均有所提升。深度神经网络通
准确判断农作物病害是监控农作物长势长情的重要的环节,计算机视觉图像技术和深度学习技术的发展,为精准农业提供了技术条件,为农业发展智能化提供了可能性。本文以番茄图像病害分类为切入点,采用一系列的图像处理技术优化图像数据集,在此基础上提出两种神经网络算法完成番茄叶片图像的病害分类和病害程度分类研究。本文的主要内容包括:(1)对数据进行预处理。本文的实验数据来源于Plantvillage工程提供的番茄图
牛无形体病(Bovine anaplasmosis)又叫牛边虫病,是一种立克次氏体目、埃利希体科、无形体属的牛无形体(Anaplasma bovis,A.bovis)侵染所导致的在全球范围内广泛分布的致死性的疾病。其病原体主要寄生在红细胞与单核细胞内。该病每年的易感期分布在4-10月,其中在7-10月份的发病率到达顶峰。该种疾病暴发的严重程度主要与其传播媒介-蜱虫的活跃度相关,但是其它的一些吸血昆
干旱是自然灾害中最严重、破坏性最强的灾害之一。在全球气候变暖的驱动下,气候变化和人类活动对干旱的影响及其驱动因子逐渐成为科学研究的热点。为了更好地监测和预报我国的干湿程度,分析研究干旱的驱动因子具有十分重要的意义。本文采用了气象站点、环流指数、社会经济指标和温室气体等数据分析了气候变化、社会经济发展和人类活动对干旱的影响。基于水分亏缺/盈余指数(water deficit/surplus,D)对我
猪繁殖与呼吸综合征(Porcine reproductive and respiratory syndrome,PRRS)俗称蓝耳病,是由猪繁殖与呼吸综合征病毒(Porcine reproductive and respiratory syndrome virus,PRRSV)感染引起的一种以繁殖障碍和呼吸道感染为主要症状的传染病,严重危害猪业。PRRSV是一种易突变的RNA病毒,具有基因多样性,
降水在时空分布上的不稳定性是引起如干旱、洪涝等自然灾害的直接因素,想要更为准确地监测旱涝灾害,就要准确了解降水在时间和空间上的变化规律,因而需要优质的高时空分辨率降水数据集。近年来,已有大量全球范围内的格网降水产品,且根据其资料来源和估算方法,大致可分为3种类型:基于地面站、基于卫星和基于再分析的降水产品,掌握这些产品的精度特性对其准确应用与发展具有重要意义,此外,旱灾是造成经济损失最为严重且发生
山羊传染性胸膜肺炎(CCPP)是由山羊支原体山羊肺炎亚种(Mccp)引起的高度接触性纤维素性肺炎,是一种发病急、传染性强、发病率与致死率高的急性传染病。虽然临床上按照常规免疫程序进行防控,但由于个体和菌株之间的差异,部分地区的羊免疫后仍然有发病现象,抗生素对该病的治疗效果也一直不佳。为了分离出引起当地流行CCPP的病原菌并为制定防控策略提供参考,本研究通过采集临床中疑似CCPP发病羊鼻拭子和肺脏,
子宫内膜炎是奶牛养殖中一种常见产科疾病,造成奶牛业巨大的经济损失。引起子宫内膜炎的病原多种多样,且病原体存在地域间差异,给抗生素的选用带来困难;在菌种不明确的情况下,滥用广谱抗生素易使细菌产生耐药性,也给人类生活构成严重威胁。利用非抗药物治疗子宫内膜炎的研究越来越受到关注。甘露寡糖(Mannan oligosaccharides,MOS)被称为抗生素生长促进剂的潜在替代品,可以增强机体的免疫力。作
无线传感器网络(Wireless Sensor Networks,WSNs)通常用于低带宽和延迟容忍的环境。大多数应用中传感器节点受能源供应和通信带宽限制,为了达到节能的目的,使网络寿命最大化,在网络层中找到中继节点连接到基站的途径是十分必要的。传统的WSNs路由技术都存在传感器节点设计臃肿、路由局部优化和专网专用的问题,如何解决上述问题成为WSNs路由技术研究的关键。软件定义网络(Softwar