论文部分内容阅读
随着现代信息技术的飞速发展,数据每天或每小时以百万级的速度产生且呈现出爆炸式增长,大数据时代的到来给数据的实时在线处理及应用带来了前所未有的挑战。在这些持续产生的海量数据中,大部分是正常的信息价值不大,然而存在着小部分数据,却蕴含着更值得关注的信息和更大的价值。从海量数据中挖掘小部分不同数据的活动,称为异常检测,类似于从金矿中发现金子的过程,具有很大的研究意义和应用价值。然而,在大数据时代,流数据的海量、持续产生及动态特性使得传统的方法不能很好地适应实时环境下的异常检测。本文分析流数据的特点和处理流数据面临的挑战,研究并提出流数据的在线异常检测方法;并结合具体的流数据产生的应用场景,如无线传感器网络(Wireless Sensor Networks,WSNs),考虑网络拓扑结构特征和资源约束,提出适应于特定应用场景的流数据异常检测算法。本文的主要工作概括如下:首先,考虑流数据的在线处理需求,在分析现有方法的基础上,从异常数据的“少且不同”的本质特征出发,研究了基于隔离的异常检测算法。针对流数据的动态变化特性,引入在线集成学习理论,提出基于在线集成学习和隔离机制的流数据异常检测算法。该算法基于历史数据学习初始检测模型,在异常检测中能实时地在线更新模型,从而适应流数据的分布动态变化。在真实数据集的仿真实验结果表明,该算法在流数据异常检测方面具有较好的效果。在上述提出算法的基础上,进一步分析了算法中异常检测器的产生机制,发现采用随机机制构造检测器存在集成个体较多的缺点,引入统计直方图机制和滑动窗口机制,提出了基于统计直方图的在线自适应异常检测算法。同时研究了三个关键参数(窗口尺度、集成规模及统计直方图条目数)对算法性能的影响。仿真实验结果表明,该算法能适应在线的环境,和现有的基于流数据的在线异常检测算法相比具有一定的优势。其次,进一步探索属性值空间隔离机制,针对基于超格异常检测方法中存在的搜索邻域空间大而造成算法运行时间长的问题,对原始定义的超格结构一阶搜索邻域进行了优化并重新定义了一阶搜索邻域,给出了基于改进超格邻域的异常检测启发式规则。进一步考虑到在构建超格时,获取最优超格结构相对困难且流数据的动态变化特性,由于在线集成学习能很好地应对动态环境且能显著提高学习的泛化能力,提出了基于超格的在线集成异常检测算法,通过构建不同的超格结构的个体检测器来获得集成检测器。在模拟数据集和真实数据集上的仿真实验结果验证了该方法的有效性。再次,考虑到流数据的产生和应用的具体环境,针对无线传感网络中的流数据处理和应用问题,研究了无线传感网络环境中流数据的异常检测方法。在分析无线传感网络拓扑结构及其自组织特征基础上,探索了网络节点感知数据的时空关联特性,提出了一种分布式集成异常检测算法。算法的分布式特性使得网络节点资源耗费均匀,避免了数据通信过程中的资源瓶颈问题,延长了网络生命周期。进一步,考虑到在无线传感器网络中,相对于感知数据的计算和存储,数据的无线传输耗费的能量相当巨大,因此如何尽可能减少数据的传输量对网络的应用至关重要。在上述研究的基础上,考虑到集成学习虽然能带来较好的泛化性能,但在具体无线传感网络应用中,节点之间传递多个检测器将会造成通信量增加,引入集成剪枝理论和生物地理学优化算法,对初始集成进行剪枝处理,提出了资源约束环境下无线传感网络中流数据的异常检测算法。仿真实验结果表明,剪枝后的算法减少了通信代价,能适应于实际的应用需求。最后,基于上述研究的成果,在智慧车联网中,为了及时发现城市出租车绕行的不文明现象,对实时获得的出租车车载GPS数据进行了在线分析,基于超格理论提出了映射轨迹概念并设计基于超格的异常路径检测算法对行车轨迹进行实时判断,识别出租车绕行,及时发现不文明的出租车宰客现象。在真实的出租车行车轨迹数据集上的实验表明,提出的算法有一定的实用性,能实时发现出租车绕行或宰客现象,为城市文明监督和执法提供辅助决策依据。