论文部分内容阅读
随着信息技术的快速发展,在诸如无线传感器网络、网络流量监测、信用卡欺诈检测等越来越多的应用领域产生了高速动态、数据规模宏大且连续不断的数据流。数据流挖掘已成为数据挖掘的前沿领域之一,而其中如何高效正确地处理不平稳数据流问题,是当前研究中富有挑战的课题。这里,不平稳数据流是至少存在下列特征之一的数据流:1)存在概念漂移;2)存在大量噪声数据;3)各类样本数量分布不平衡。本文也称存在概念漂移的数据流为进化数据流,各类样本数量分布不平衡的数据流为不平衡数据流。本文聚焦于不平稳数据流挖掘中的分类技术研究,围绕概念漂移处理的增量式学习方法(单分类器方法)和集成分类器方法,以及噪声数据与不平衡数据处理的集成分类器方法等问题展开研究。本文主要工作包括:1.分析研究了当前进化数据流的分类技术,总结了探测概念漂移的各种方法,详细分析了相关的处理系统与算法,探讨了当前数据流分类技术的发展趋势及所面临的挑战。2.研究了传统增量式学习算法在进化数据流挖掘中的应用。在决策树算法CVFDT的基础上,提出了基于跳表技术的单分类器算法SL_CVFDT。该算法利用跳表所具有的插入与搜索快速的特点,使它既能满足概念漂移处理所需要的在样本插入、搜索和删除时的快速性,又在最佳划分结点的选取上具有很好的效率。实验表明该算法对进化数据流的处理具有很好的扩展性与稳定性。3.针对现实不平稳数据流同时存在概念漂移与噪声数据的问题,基于可学习假设的平均概率AP集成分类器,提出了集成分类器WEAP-I与WEAP-II。WEAP-I结合基于权重的集成分类器与AP集成分类器,通过缓冲部分历史数据来解决噪声问题。实验验证了WEAP-I的良好抗噪性能。WEAP-II在AP集成分类器的基础上,通过分块技术,结合基于权重的集成分类器,有效解决了块内隐含渐进概念漂移、块间含连续突变概念漂移的噪声数据流分类问题。理论分析与实验验证表明:相比AP集成分类器,WEAP-II集成分类器更能适应同时存在概念漂移与噪声数据的数据流分类挖掘,其分类性能优于AP集成分类器,抗噪性能更强,并且具有与AP相近甚至更低的时间复杂度。4.针对稳态假设下不平衡进化数据流分类问题,在基于权重的AWE集成分类器基础上,综合利用过抽样与欠抽样技术,提出了IMDWE集成分类器模型。IMDWE集成分类器在集成学习过程中,根据分类性能的不同目标,采取了不同的权重确定策略。理论分析与实验验证表明:相比基于权重的AWE集成分类器,该集成分类器具有更低的时间复杂度——实验结果显示IMDWE生成分类模型的平均执行时间减少37.3%;更能适应存在不平衡进化数据流分类,其整体分类性能(G-mean指标)优于AWE集成分类器模型——实验结果显示相比AWE集成分类器平均提高为7.22%;能明显提升少数类的分类精度——实验结果显示相比AWE集成分类器平均提高为15.63%。5.针对噪声数据流分类问题,在可学习假设下,综合利用基于平均概率的AP集成分类器与抽样技术,提出了一种处理不平衡噪声数据流的集成分类器模型IMDAP。理论分析与实验验证表明:该集成分类器有效解决了概念漂移与噪声共存的不平衡数据流分类问题,并具有与AP集成分类器相近的时间复杂度,同时抗噪性能更强;其整体分类性能(G-mean指标)优于AP集成分类器——实验结果显示相比AP集成分类器平均提高为2.3%;能明显提升少数类的分类精度——实验结果显示相比AP集成分类器平均提高为7.1%。