论文部分内容阅读
分类问题在数据挖掘、机器学习和模式识别等很多领域中都是一个基础而重要的问题。目前为止,有很多算法都可以处理分类问题。然而,它们都是面向完整数据的。不完整的数据却广泛存在于各个领域,包括社会科学、计算机视觉和生物系统。例如,问卷调查中很多用户会选择部分回应的方式,避开一些问题以保护个人隐私,这就会导致数据集不完整且存在多种缺失模式。缺失值对于大数据分析有十分消极的影响。目前的方法大致为忽略法和填补法。忽略法是将数据集中有缺失值的样本忽略,只考虑完整的样本,但这种方法会造成信息的丢失,同时如果数据集中存在大量的缺失,分类性能严重降低。而在缺少额外知识抑或数据集的特征属性之间关联不强的情况下,对缺失值的填补也不精准。因此,考虑到应用场景众多且现有解决办法不完善,不完整的数据的分类是十分重要的一个课题。本文针对这一课题,提出了一个较为新颖的思路:不对不完整数据集进行填补或者忽略缺失样本,而是直接在不完整数据集上进行操作。本文将采用集成学习的方法,将不完整数据集中的每一个完整视图视作一个训练数据集,使用针对完整数据的分类算法训练成基本分类器。当待分类元组出现时,每个基本分类器会给出一个分类结果,然后采取合理的组合方式获得最终分类决定。本文着重作出了以下贡献:(1)由于不完整数据集的完整视图数目庞大,且会影响算法的效率和有效性。本文对完整视图进行了筛选,用合适的完整视图的组合去代替全部完整视图,有效缩减完整视图的个数,在分类精度小幅度波动的情况下,提高分类的时间性能。本文首先在?2的时间内找到全部的完整视图,接着形式化定义缩减完整视图个数问题,证明了该问题是NP难的,然后针对问题提出了近似算法,并证明出近似比为ln|?|+1。对比实验验证了筛选算法的有效性。(2)由于基本分类器在最终分类决定中的地位不尽相同,本文提出了两种合理的权重分配方法区分基本分类器之间的差异。其一使用了两个明显会影响基本分类器分类性能的因素,样本个数和特征属性与类别间的相关程度。其二使用了学习的方法,更为全面,有效避免了对于影响因素的忽略,也避免了复杂的定量工作。实验表明,两种权重分配方式对于基本分类器的组合都优于投票表决法。(3)由于本文前两部分的算法都是针对于待分类元组是完整的情况,本文还提出了面向不完整的待分类元组的分类方法。考虑到待分类元组中缺失值的存在,将会使部分基本分类器不可用。本文引入了MAT结构存放训练集,使待分类元组可以迅速确定自己可使用的完整视图,同时为了避免因基本分类器个数减少而造成的分类性能降低,本文将使用Boosting的组合方式,迭代训练基本分类器,获得分类结果。本文将此算法与现有的解决办法进行了对比,在时间性能和分类性能上验证了算法的有效性。