基于多分类器的不完整数据的分类关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:dragoncool
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类问题在数据挖掘、机器学习和模式识别等很多领域中都是一个基础而重要的问题。目前为止,有很多算法都可以处理分类问题。然而,它们都是面向完整数据的。不完整的数据却广泛存在于各个领域,包括社会科学、计算机视觉和生物系统。例如,问卷调查中很多用户会选择部分回应的方式,避开一些问题以保护个人隐私,这就会导致数据集不完整且存在多种缺失模式。缺失值对于大数据分析有十分消极的影响。目前的方法大致为忽略法和填补法。忽略法是将数据集中有缺失值的样本忽略,只考虑完整的样本,但这种方法会造成信息的丢失,同时如果数据集中存在大量的缺失,分类性能严重降低。而在缺少额外知识抑或数据集的特征属性之间关联不强的情况下,对缺失值的填补也不精准。因此,考虑到应用场景众多且现有解决办法不完善,不完整的数据的分类是十分重要的一个课题。本文针对这一课题,提出了一个较为新颖的思路:不对不完整数据集进行填补或者忽略缺失样本,而是直接在不完整数据集上进行操作。本文将采用集成学习的方法,将不完整数据集中的每一个完整视图视作一个训练数据集,使用针对完整数据的分类算法训练成基本分类器。当待分类元组出现时,每个基本分类器会给出一个分类结果,然后采取合理的组合方式获得最终分类决定。本文着重作出了以下贡献:(1)由于不完整数据集的完整视图数目庞大,且会影响算法的效率和有效性。本文对完整视图进行了筛选,用合适的完整视图的组合去代替全部完整视图,有效缩减完整视图的个数,在分类精度小幅度波动的情况下,提高分类的时间性能。本文首先在?2的时间内找到全部的完整视图,接着形式化定义缩减完整视图个数问题,证明了该问题是NP难的,然后针对问题提出了近似算法,并证明出近似比为ln|?|+1。对比实验验证了筛选算法的有效性。(2)由于基本分类器在最终分类决定中的地位不尽相同,本文提出了两种合理的权重分配方法区分基本分类器之间的差异。其一使用了两个明显会影响基本分类器分类性能的因素,样本个数和特征属性与类别间的相关程度。其二使用了学习的方法,更为全面,有效避免了对于影响因素的忽略,也避免了复杂的定量工作。实验表明,两种权重分配方式对于基本分类器的组合都优于投票表决法。(3)由于本文前两部分的算法都是针对于待分类元组是完整的情况,本文还提出了面向不完整的待分类元组的分类方法。考虑到待分类元组中缺失值的存在,将会使部分基本分类器不可用。本文引入了MAT结构存放训练集,使待分类元组可以迅速确定自己可使用的完整视图,同时为了避免因基本分类器个数减少而造成的分类性能降低,本文将使用Boosting的组合方式,迭代训练基本分类器,获得分类结果。本文将此算法与现有的解决办法进行了对比,在时间性能和分类性能上验证了算法的有效性。
其他文献
氮氧化物、硫氧化物是船舶尾气的重点治理对象,目前针对船舶尾气的处理方法主要有脱硫、脱硝、脱硫脱硝一体化处理三种。分别介绍了主流的脱硫脱硝技术,其中脱硝包括了机内脱
长期以来,由于医生操作不当、医疗过程不规范、用药不当等原因,医疗费用居高不下,医疗事故频发。随着医疗改革的不断深入,临床路径作为一种临床管理规范被提出,其目的旨在规范诊疗行为、保障医疗质量与医疗安全、最小化医疗成本。然而,临床路径通常是针对治疗单个疾病而制定的,无法应对合并症患者的治疗。随着人口老龄化问题的加剧,慢性疾病增多,合并症情况也日趋严重。为了解决合并症的临床路径问题,有人提出融合多个临床
探究性学习是学生在学习过程中,思维活动具有自主性,开放性,研究性的学习活动。它是高中数学新课标的基本理念之一,也是落实提高学生数学学科核心素养的有效方法。根据《新课
学位