论文部分内容阅读
近年来,带有概念漂移的数据流分类问题已经逐渐成为了数据挖掘领域的一个研究热点,涉及的具体应用包括信用卡欺诈分析、网络入侵检测等。不同于传统静态数据集上的分类模型,由于数据流存在数据量无限、可能发生概念漂移等特点,因此数据流上的分类模型要求算法不仅可以快速处理数据,而且能够自适应数据流上新的概念。本文探讨了现有数据流分类模型的特点与存在的不足,在改进传统KNNModel分类算法的基础上,将其核心思想拓展到解决概念漂移数据流分类问题上,设计并实现了相应的算法。主要的研究工作包括:1.面向复杂结构数据的改进KNNModel算法(IKNNModel)。IKNNModel算法改进了传统KNNModel分类算法中模型簇的构建方式,为了减少当不同类别的样本发生在全空间上重叠的现象时对模型簇构建造成的不利影响,提出了“类别簇”和“纯簇”的概念,即将同一类别样本的模型簇建立在它们对应的子空间上,提高了分类模型的性能。2.一种快速的数据流集成分类器算法(ECA)。当数据流发生概念漂移现象时,现有算法需要重建整个分类模型以适应当前概念。ECA算法将IKNNModel算法的分类思想运用于数据流特殊环境,算法在每个数据块上建立各个类别样本的中心点和对应的子空间,当数据流上少部分类别的样本发生概念漂移时只需更新相应部分的分类模型,加快了处理数据的速度。3.基于混合模型的数据流分类算法(KnnM-IB)。现有绝大部分数据流分类算法均假设数据流上的待分类样本一旦分类后类别便已知,利用所有样本的真实类别来检测可能存在的概念漂移以及更新模型。然而,这种假设在实际应用中是不成立的。KnnM-IB算法使用半监督学习技术和可变长度窗口机制,能够仅使用少部分数据流上待分类样本的真实类别来有效检测概念漂移以及更新模型,更符合实际应用的要求。人造数据集和真实数据集上的实验结果均证明了本文提出的IKNNModel算法以及运用其分类思想的数据流分类模型的有效性。