过滤式特征选择算法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:cf1987821
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的快速发展,不同行业产生了大量的行业数据。这些数据蕴含着行业的重要信息,然而这些数据过于庞大,不仅样本动辄千万计,而且数据维度较高,给数据挖掘工作带来极大不便。作为数据降维的重要手段之一,特征选择具有大幅降低数据维度、缩小数据规模、提高数据性能等特点。相较其他特征选择算法,过滤式特征选择又具有算法简单直观、易于理解、数据降维效果优良等优势。本文针对单标签与多标签两种数据类型开展过滤式特征选择算法研究,主要工作如下:(1)首先对特征选择算法进行总体概述,分别介绍了特征选择的研究背景、研究意义等,并从单标签与多标签数据特征选择算法两个方面,详细介绍了基于过滤式机制的特征选择算法研究。(2)单标签数据集环境下,针对已有算法对特征集合间相关性考虑不够充分等问题,提出了一种基于组策略的特征选择算法,MRMRE(MRMR Extension)算法。该算法基于互信息获得特征属性相间关系,基于典型线性相关度量特征组间关系,进而通过最大相关最小冗余MRMR算法框架得到特征组排序并获得合适的特征属性子集。实验结果表明MRMRE算法在特征性能与数据稳定性等方面具有较大优势。(3)多标签数据集环境下,针对相关算法对标签集合内部关系研究等问题,提出了一种过滤式多标签特征选择算法,ML-MRMR(Multi-Label MRMR)算法。算法基于特征间冗余、特征与标签间相关以及标签集合内部的重要度三方面关系,重新定义了能够更加全面评判特征性能的特征评价函数。继而,算法基于最大相关最小冗余算法框架获得全部特征属性的性能排序;同时,算法提出两种新型特征选择标准对排序特征属性进行选择,最终获得最优特征属性子集。实验结果表明,ML-MRMR算法所选择特征属性的结果在不同的数据评价标准中均优于原始数据的结果。
其他文献
近年来,超分辨率图像复原技术在图像处理和计算机视觉领域逐渐成为热点研究方向之一。这一课题在安全监控、卫星遥感、医学影像、航空航天以及流媒体等领域都具有广阔的应用
MPI群集通信中的多对多通信在并行计算中有着大量而且重要的应用,例如在FFT和矩阵的运算中。多对多通信性能的优劣对于并行计算的性能有着很大的影响。随着机群系统广泛应用
数据仓库和商业智能的作用在于为业务人员提供定制操作性和战略性业务决策所需的信息和工具,联机分析处理(OLAP)是数据仓库的主要应用之一。ROLAP是联机分析处理(OLAP)中使用
随着计算机网络技术的迅猛发展,互联网(Internet)已经成为人类社会重要的信息基础设施。传统网络服务如今越来越难以满足人们对信息业务的需求,以视频会议、视频点播、远程教育
通信技术的快速发展,通信网络规模的愈加庞大,结构的愈加复杂,给网络的运行维护造成了许多困难,增加了网络运维的工作量和网络运行中发现故障、确定故障以及处理故障难度,影
随着计算机、互联网以及移动通信技术的迅猛发展,互联网正逐步走出其原有的军事、科研、教育领域,深入到人们的日常生活工作当中。从技术的角度来看,网络技术的发展需要相应
互联网的快速发展使网络上的各种信息呈现出快速增长的趋势。如何从浩瀚的互联网文本中获取有效信息、分析网页数据之间的关联性等,是自然语言处理领域的一项挑战。网页导航
核磁共振成像作为一门新兴的影像学检查手段,能够非常准确地显示脑部解剖结构,确定或排除绝大多数病变组织,在医疗诊断上得到了广泛的应用。随着科技的发展,人们对成像的要求
随着多核处理器技术的发展,计算机已经从单核逐渐过渡到多核,未来的计算机将具有越来越多的计算资源。如何采用一种高效和灵活的方式管理和利用众多的计算资源以及如何充分发
对象存储系统作为近几年兴起的一种存储技术,越来越在高性能存储领域受到重视,研究对象的相关性对于优化对象存储系统的管理策略和性能都有着重要意义。在对象存储系统中,元