论文部分内容阅读
随着信息时代的推进,在诸如网络安全、股票分析、气象监控、信用卡欺诈等领域产生大量无法长期存储的数据,这些随时间而无限增长的动态数据称之为数据流。数据流的分析与处理受存储容量和计算速度等因素的制约,同时数据流中隐含丰富的、有价值的知识,而且其隐含的知识概念可能会随着环境的变化、时间的推移而发生动态变化,也即概念漂移。数据流中的数据具有快速性、实时性、无限性、广域性同时还具有动态变化特性,加之客观存在的概念漂移,这使得在初始数据集上建立的模型很难适应当前数据分布特性,从而给流数据的分析和挖掘问题带来了严峻的挑战。其中,如何准确及时有效地检测流数据中发生的概念漂移并适应漂移变化已成为机器学习与数据挖掘领域的研究热点和难点问题。为此,本文针对动态流数据中的概念漂移的检测问题展开了研究,主要工作如下:(1)对近年来国际上关于流数据概念漂移检测方法的研究成果进行了总结,分析了已有漂移检测算法存在的优缺点。(2)为了能够准确快速地检测到不同类型的概念漂移和不同概念漂移发生的具体位置。提出一种基于交叠数据窗的在线概念漂移检测方法,该方法通过计算相邻交叠数据窗异构欧氏距离,并通过近邻原则判别数据窗中样本不一致程度,从而实现分布差异性评价和漂移的检测。为了评价该方法的有效性,在具有不同漂移严重程度和漂移速度的公开数据集上进行了实验,结果表明:交叠数据窗比非交叠数据窗更能及时准确地检测到漂移的发生。(3)研究了一种基于数据窗典型相关分析的在线概念漂移检测方法,该方法把当前到来的数据流序列看成一系列矩阵窗口,然后通过奇异值分解和典型相关分析技术处理实现分布差异性评价,并通过调整数据窗来适合于不同类型的概念漂移的检测。在包含不同严重程度和不同漂移速度的人工漂移数据集上的实验表明,该算法能够很好地检测到渐变式漂移的发生和较严重的突变漂移;在半人工数据集上进行的实验,验证了经过调整后的数据窗比固定数据窗的检测效果要好;最后,将算法应用到了真实数据集——意大利电力公司的Powersupply数据集的漂移检测,验证了算法的有效性。(4)除漂移检测外,概念漂移数据流处理过程中要解决的另一个基本问题是模型修正,论文探讨了如何利用在线集成学习的个体差异性学习策略对模型进行修正,并进行实验验证。