论文部分内容阅读
在数据分析和数据挖掘领域,经常会出现数据缺失问题,其中特征缺失是缺失数据问题的一个重要分支。医疗、社会调查等领域的数据由于自身的特性,特征缺失数据的比例往往很高。这些数据虽然含有缺失,但依然蕴藏着很多有价值的信息,如何解决特征缺失数据的问题并从中提取信息成为近年来研究的热点。目前解决特征缺失问题最常用的方法是填补法,是指在预处理阶段用特定的值来填充缺失的特征值。然而这种方法只有在处理缺失比例较低的数据时效果较好,并且只适用于处理符合完全随机缺失(MCAR,Missing Completely at Random)或随机缺失(MAR,Missing at Random)机制的数据。实际上,产生缺失问题的原因多种多样,几乎不存在完全随机缺失这种理想状态。针对不同领域的问题,如果不考虑缺失数据出现的原因和数据本身的特点,统一按照填补方法进行处理,只会扭曲数据原本的分布甚至产生误导的结果。本文主要研究医疗数据和社会调查数据中出现的特征缺失问题。在深入分析此类特征缺失的原因后,根据这些数据的特点,提出了一种基于缺失数据距离度量的支持向量机算法。这个方法的主要创新之处在于定义了一种新的可以处理缺失数据和完整数据的核函数,为了避免填补引入的误差,该核函数最大限度的利用已观测到的数据来获取更多信息,通过样本与其它样本之间的距离重新表示该样本,而不是直接计算缺失数据的值。我们在5个UCI数据集上对提出的方法进行验证,对比了均值填补法、EM填补法、回归填补法、KNN填补法、WKNN填补法等传统的填补方法,根据准确率、F值、Kappa统计量及召回率等指标衡量分类器的性能。实验结果表明,我们的方法相对于其他填补方法来说,分类性能得到了显著的提高。即使在缺失数据比例较高的情况下依然可以获得不错的分类效果。我们又在此算法的基础上进行了改进,在计算距离的过程中使用利用完整数据降低之前算法的极端性,实验结果表明,在连续型数据集上改进算法可以取得更好的效果。