论文部分内容阅读
随着互联网的飞速发展,人们的日常生活变得与网络密不可分。与此同时,频频出现的网络欺诈行为成为影响人们正常网络生活的重要因素。离群点检测技术是一种重要的数据挖掘技术,也是异常检测的重要手段,而基于距离的离群点检测是目前最常用离群点检测技术之一。本文对面向网络欺诈行为发现的不确定数据离群点检测算法展开研究。网络欺诈行为多发生在网络交易过程中并伴随着异常的网络交易行为。本文将每个用户的网络交易行为看做一个数据对象,将其映射到一个多维空间之中,网络交易行为的每个属性分别作为该空间的一个维度。一次异常的网络交易行为往往体现为偏离大多数数据对象的少数数据,对这些数据的检测即为该多维空间中的离群点检测。于此同时,由于数据不完整、噪声干扰、操作失误等原因,网络交易行为数据往往存在不确定性。本文对不确定数据集上基于距离的离群点检测算法展开研究,旨在高效、合理地检测出不确定离群点,为异常网络交易和网络欺诈行为发现提供帮助。本文首先使用x-tuple模型和可能世界语义模型对不确定数据集进行描述。每一个不确定数据对象表示为一个x-tuple,它的每一个可能出现的数据实例表示为一个tuple,来自不同x-tuple的若干tuple构成一个可能世界。一个可能世界是不确定数据集的一个实例。随后本文将不确定数据集上的离群点检测看做一个查询过程,针对不同的数据特征分别提出了不确定数据集上的期望离群点检测、半期望离群点检测、全概率离群点检测和相对离群点检测四种全新的概念。期望离群点检测是其中最简单的不确定数据集上离群点检测概念,它为每一个tuple和每一个x-tuple计算一个期望离群度,从整个数据集上查询得到期望离群度最高的K个x-tuple。半期望离群点检测是对期望离群点检测的改进,它解决了后者容易受到数据不完整性影响的问题。该检测方法只计算每个tuple的期望离群度而不再计算各个x-tuple的期望离群度,所以称之为半期望离群度。相对离群点检测解决了前面两种离群点检测概念容易受到阵发性数据和噪声影响的问题。它不再计算各个tuple和x-tuple的期望离群度,而是通过各个x-tuple两两比较找出最可能成为离群点的K个x-tuple。该方法还避免了一些参数阈值的确定,降低了离群点检测应用的门槛,特别适合不是特定应用领域专家的普通用户使用。本文最后提出了全概率离群点检测的概念。它借鉴不确定数据集上全局top-K查询的思想,计算各个x-tuple在任意可能世界中成为top-k1离群点的概率,概率最高的k2个x-tuple即为不确定数据集上的离群点。本文形式化地给出了上述四种不确定数据离群点的定义,提出了算法框架,在此基础上设计了剪枝优化策略并形成了高效的优化算法,最后通过在真实数据集和人工数据集上的实验对算法精度、效率、剪枝优化策略的有效性和算法可扩展性等进行了验证。已有的不确定数据集上基于距离的离群点检测研究往往存在不足,一是假设不确定数据数据服从某个已知的分布,特别是正态分布等存在概率密度函数的解析表达式的分布。但这在实际应用中往往难以实现,这限制了相关研究的应用。二是有些研究虽然同样采用了x-tuple模型和可能世界语义描述不确定数据集,但他们忽略了数据多样性,一个不确定数据并没有体现为多个可能出现的实例。本文提出的新的不确定数据离群点检测概念能够适用于各种概率分布环境,同时考虑了数据不完整性和多样性,能够高效、合理地实现离群点检测。