基于Lasso和互信息的特征选择算法研究

来源 :安庆师范大学 | 被引量 : 2次 | 上传用户:blueskygx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和网络技术的飞速发展,大数据和人工智能的浪潮也随之而来,数据越来越多,数据的特征也随之变得更加繁杂。当数据大量产生时,如何去处理这些数据就成了当下迫切需要解决的问题。在传统单标记方法无法满足现实需要的时候,多标记学习框架被提出,随着越来越多专家学者的深入研究,更多的基于多标记学习的研究方法相继被提出。特征选择在解决数据高维性问题具有很好的效果,在原始特征空间的基础上进行操作,去除冗余,得到一个性能优越的特征子集。有效的提高分类器的分类性能,减少运算时间,提高算法的计算效率。但是这些传统的特征选择算法却只能处理静态的特征数据,需要在运算前获取整个特征空间,然后才能加以处理得到相应的特征子集。而现实生活中,特征空间往往是动态产生的,并实时增加变化的,这就导致了传统的特征选择算法无法处理这类流特征选择问题。基于上述问题,本文提出了两种特征算法用以解决相应的特征选择问题,主要内容如下:(1)针对传统特征选择算法在删除冗余特征,进行特征子集的选择过程中,往往存在计算开销大的问题,本文引入了Lasso特征选择算法,用于快速处理高维数据,选择特征子集。此外鉴于传统的信息熵不具有补的性质,且计算较为繁杂,本文引入模糊信息熵来替代传统的信息熵,以提高分类性能。基于这两点本文提出了一种基于Lasso和模糊互信息的多标记特征选择算法,通过实验证明该算法是有效的。(2)针对动态特征选择问题,主要还是围绕着如何降低数据维度进行处理。基于“最大相关性,最小冗余性”的选择标准,考虑到实际情况下,特征空间往往具高维性和稀疏性的特点,而特征之间的冗余度相对是很小的。本文采用一种极限的思想,充分考虑筛选出与标记空间相关性高的特征,去忽略特征与已选特征之间的冗余性,计算实时产生的特征与标记空间之间的互信息,最后选出互信息大于阈值的特征得到最终的特征子集。基于此种思想,提出了基于互信息的快速流特征选择算法。通过实验证明该算法能达到节约运算时间的目标,同时也能提高分类效率。
其他文献
当前,高校的信息化程度在逐步提高,尤其是网络"微文化"的出现,为大学生了解公共事务、表达利益诉求提供了便利途径,网络舆情的影响力不断增强。如何保证高校网络舆情健康发展,
目的:比较用锎-252中子腔内放疗联合体外放疗与单纯体外放疗治疗中晚期食管癌的效果。方法:对2011年2月至2012年2月期间长治市肿瘤医院收治的60例中晚期食管癌患者的临床资料进
编辑同志:  我在2008年2月号《科学种养》杂志上看到“铡草机使用与维修”一文后,想了解有关铡草机的一些情况,同时想了解哪里能买到小型铡草机和养牛、养猪都能用上的秸秆揉搓粉碎机。  贵州省黎平县中潮镇 陈鹏  陈鹏同志:  您在家庭饲养牲畜过程中所遇到的两个购机难题是农民朋友普遍会遇到的问题,本刊愿为农民朋友发展畜牧业购机致富牵线搭桥。特请本刊老作者江西省南昌市李烈柳同志回答您提出的两个问题。 
【摘 要】 目的 探究硫酸镁湿热敷治疗产后会阴水肿的临床护理效果。方法 选取我院收治的100例产后会阴水肿患者(2012年12月~2015年6月)作为研究对象,随机将其分为治疗组以及对照组,对照组患者采用红外线照射方法进行治疗,治疗组患者在对照组基础上应用硫酸镁湿热敷进行治疗,对比2组患者治疗后的效果。结果 治疗组患者的治疗显效例数、症状改善时间与对照组患者的显效例数、症状改善时间相比较,具有显著
【摘 要】 目的:研究分析康复护理对脑出血患者生活质量改善的临床效果。方法:选取2011年8月-2013年6月在长沙市第一医院接受脑出血治疗的120例患者,将他们随机的分成康复护理组(观察组)和常规的护理组(对照组),每组各60例患者,两组的患者都接受常规的药物治疗,比较两组的护理效果。结果:观察组患者其肢体功能和生活质量的改善上都要明显的优于接受常规护理的对照组,(p0.05),具有可比性。