论文部分内容阅读
聚类和分类是数据挖掘中的基本任务。长期以来,关于聚类技术在分类中的研究主要集中在应用聚类对训练数据进行数据预处理,期望通过减少噪音数据的影响提高最终的分类精度,因此,如何充分地利用聚类信息指导分类是一个值得研究的问题。 非线性数据由于分布复杂,因此用简单的分类模型难以得到满意的分类精度。如果使用复杂的分类模型去逼近训练数据,又会有过拟合的问题,使得分类模型的泛化误差偏大。 本文采用了一种新的分类方法:基于簇学习的分类模型。首先用聚类方法划分数据形成一棵聚类树,利用聚类信息训练基本分类算法。通过在模拟数据和真实数据上的实验,我们验证了该模型在非线性数据分类问题中有更高的分类精度。在此基础上,我们研究了模型选择的问题,提出了模型优化选择算法。 本文的主要工作贡献有: (1)提出了一种应用在非线性数据上的间接分类模型,以簇标作为分类标签,将基于类标的分类问题转化为基于簇标的分类问题。从分类训练的基本单位来看,新分类模型的基本单位是聚类后形成的数据簇,相比传统的以样本为基本单位的分类模型是一个创新。 (2)扩展和丰富了DCC分类结构。当前的关于DCC模型的研究,都是利用聚类形成的数据簇,根据最短距离分类。本文提出的DCC拓展分类模型,把数据簇用作后续的分类训练。分类算法的不同会派生出新的DCC分类结构。 (3)在模型选择问题上提出了优化算法,并且通过在UCI数据集上的实验,我们验证了这种模型选择策略的有效性。 基于以上研究成果,本文设计了基于聚类学习的分类系统。该系统由数据读入模块、数据预处理模块、聚类模块和分类模块组成。编程实现了这个原型系统,为算法研究打下坚实的基础。