论文部分内容阅读
分类技术是数据挖掘领域一项重要的任务。如何根据训练集建立分类器,并使用该分类器准确预测待测试实例的类别是衡量分类器好坏的标准。单级分类器通常只对训练集学习一次,在某些情况下测试时可能存在分类规则少,规则质量不高,从而引起分类准确率低的问题。此外,在现实世界里,存在大量不平衡数据。单级分类器在数据不平衡的情况下,更不能有效的提取足够少数类的分类信息,导致少数类实例极易被错误分类。多级分类器对训练集学习多次,可以提高分类规则数量,有效提高分类精度。同时,多级分类器是处理不平衡数据分类的有效方式。本文围绕多级分类器分类算法进行研究,提出三种新的多级分类算法模型。从单个分类器算法、不同训练方式及融合多分类器方法三个方面进行改进。改进的方法不仅可以提高分类准确率,而且可以有效的针对不平衡数据特点,提高不平衡数据分类精度。本文的主要研究工作如下:首先,提出基于实例多覆盖多级分类算法。实例覆盖算法是对决策树算法的改进,基于实例多覆盖多级分类算法是以实例覆盖算法作为基分类器,对训练集进行多次训练,生成大量分类规则,以达到使训练集中每个实例被分类规则多次覆盖,提高了分类准确率。其次,提出基于规则提取多级分类算法。不同于传统基于规则分类算法,基于规则提取多级分类算法一次产生较大规模候选集,一次生成大量规则。一次规则生成后,训练集中的实例至少被规则覆盖两次才被删除,并重复规则提取过程。最后,针对不平衡数据设计多级分类器。考虑不平衡数据中少数类实例难以提取规则且误分概率大等特点,设计不平衡数据的多级分类方法。生成多个训练集,对少数类实例反复训练,并使用证据理论方法将多个分类结果融合。通过F-measure、Gmean和AUC等度量,用实验验证该算法对不平衡数据的有效性。