论文部分内容阅读
随着信息时代的快速发展,不同行业产生了大量的行业数据。这些数据蕴含着行业的重要信息,然而这些数据过于庞大,不仅样本动辄千万计,而且数据维度较高,给数据挖掘工作带来极大不便。作为数据降维的重要手段之一,特征选择具有大幅降低数据维度、缩小数据规模、提高数据性能等特点。相较其他特征选择算法,过滤式特征选择又具有算法简单直观、易于理解、数据降维效果优良等优势。本文针对单标签与多标签两种数据类型开展过滤式特征选择算法研究,主要工作如下:(1)首先对特征选择算法进行总体概述,分别介绍了特征选择的研究背景、研究意义等,并从单标签与多标签数据特征选择算法两个方面,详细介绍了基于过滤式机制的特征选择算法研究。(2)单标签数据集环境下,针对已有算法对特征集合间相关性考虑不够充分等问题,提出了一种基于组策略的特征选择算法,MRMRE(MRMR Extension)算法。该算法基于互信息获得特征属性相间关系,基于典型线性相关度量特征组间关系,进而通过最大相关最小冗余MRMR算法框架得到特征组排序并获得合适的特征属性子集。实验结果表明MRMRE算法在特征性能与数据稳定性等方面具有较大优势。(3)多标签数据集环境下,针对相关算法对标签集合内部关系研究等问题,提出了一种过滤式多标签特征选择算法,ML-MRMR(Multi-Label MRMR)算法。算法基于特征间冗余、特征与标签间相关以及标签集合内部的重要度三方面关系,重新定义了能够更加全面评判特征性能的特征评价函数。继而,算法基于最大相关最小冗余算法框架获得全部特征属性的性能排序;同时,算法提出两种新型特征选择标准对排序特征属性进行选择,最终获得最优特征属性子集。实验结果表明,ML-MRMR算法所选择特征属性的结果在不同的数据评价标准中均优于原始数据的结果。