论文部分内容阅读
特征选择是数据挖掘和模式分类领域的重要数据处理方法,广泛用于故障预测、疾病诊断、网络入侵检测和生物情感识别等众多领域。考虑外部环境和测量设备精度等因素的影响,很多实际问题中不同特征所对应的采样数据的质量往往相差很大,这类问题称为异质数据特征选择问题。由于该类问题不但具有维数众多的特征,而且不同特征所对应采样数据的质量各不相同,因此,面向无差别数据的传统特征选择方法难以使用。鉴于此,本文研究面向异质数据特征选择问题的微粒群优化理论和方法。首先,考虑数据质量完全可信的特征选择问题,提出一种知识引导微粒群优化特征选择方法。采用二进制方式对微粒编码,给出微粒适应值的计算方法;依据微粒适应值的大小,将整个微粒群分为优势微粒群和劣势微粒群,并根据特征被选择概率,给出特征的优劣分类策略;根据特征所属类型,改进Sigmod函数,进而确定特征被更新的概率。采用UCI数据库的10个典型测试数据集验证所提方法的性能,并与3种已有方法进行对比,实验结果验证了所提方法的优越性;同时,将其应用于国内某家医院的肝炎病临床诊断数据,结果显示,所提方法能够获得令人满意的分类结果。然后,考虑数据质量不完全可信,但其可信程度可以精确表示的情况,提出一种基于多目标微粒群优化的特征选择方法。该方法采用[0,1]之间的精确数表示数据集中每个特征的可信程度(可靠性),由被选特征的平均可信度,评价相应特征子集的整体可靠性,将问题描述为同时包含分类精度和可靠性的2目标优化问题。采用多目标微粒群优化方法求解该问题,为了提高算法的搜索性能及Pareto解集的分布性,结合网格划分和高斯采样,给出一种微粒全局引导者产生方法;为了提高微粒群的全局搜索性能,提出一种帮助微粒跳出局部最优的扰动策略。将所提方法应用于UCI数据库中6个典型测试数据集,并与已有4种方法对比,实验结果验证了所提方法的优越性。最后,考虑数据质量不完全可信,且其可信程度为模糊数的情况,提出一种数据质量模糊表示下多目标微粒群优化特征选择方法。该方法采用三角模糊数表示数据集中每个特征的可信程度(可靠性),相应地,特征子集的可靠性指标变为模糊数。处理上述包含模糊性能指标的2目标特征选择问题,首先,定义一种Pareto概率占优关系,用来比较微粒的优劣;然后,根据解的概率占优关系和定义的决策者容忍系数,给出一种有效的外部储备集更新策略。利用UCI数据库的4个典型测试数据集验证所提方法的性能,并与已有2种方法进行对比,实验结果验证了所提方法的优越性。