论文部分内容阅读
在数据集中,离群点是指那些相对于大量常规数据异常孤立的数据模式。在很多情况下离群点被认为是噪声而抛弃,但在实际应用中我们发现一些包含重要信息的数据往往就是离群点。离群检测就是利用统计学,机器学习,智能计算,可视化等多种技术来发现数据集中的离群点,供用户进行分析和处理。由于离群点可能蕴含重要知识,离群检测在预防电信和信用卡欺诈,医疗保险,市场分析,气象预测等领域有广泛的应用,相关研究将具有重要的学术和现实意义。然而面对日益复杂的大型高维数据集,如何迅速有效地发现并处理异常行为是一个具有挑战性的问题。本文尝试将聚类与分类方法用于发现数据集中的异常对象,同时研究离群检测相关的优化算法。我们提出了基于谱聚类以及RBF人工神经网络的离群检测方法,针对高维数据集定义了关键离群属性子集的概念并实现了属性约简来优化离群检测。主要工作和成果如下:①对谱聚类基本原理和典型算法做了较为全面的分析和研究,利用谱聚类的特性实现了在复杂数据集上的聚类。提出了一种改进的基于随机行走的谱聚类算法,该算法引入了密度敏感的距离量度来更精确地计算对象之间的相似性,并且通过计算随机矩阵相关特征值来自动确定数据集的最优聚类数。利用该算法获得的稳定聚类,是有效完成离群检测的前提。②首次将谱聚类用于离群检测,并通过定义扩展的多路剪切和分段常数特征向量证明了其可行性。提出了一种基于谱聚类的离群检测算法,该算法首先对数据集进行聚类,然后计算所有聚类中对象的离群因子并根据该值来确定离群点。在谱聚类过程中,利用共享邻居的邻接矩阵构造方法来获得较为稀疏的邻接矩阵,其特征向量可以用Lanczos算法来快速求解。③利用RBF人工神经网络来构造离群检测模型,该模型使用减法聚类来有效选择隐节点中心,同时获得更快的训练速度。网络训练过程中,在传统误差函数中加入了一个调整项,旨在消除隐层节点的波动。为每个输入样本定义离群度,在网络输出结果确定的情况下,可以根据离群度判断那些实际输出严重偏离其期望的样本为离群点。④针对在大型高维数据集中发现离群点效率不高的问题,我们引入粗糙集相关概念并提出了基于属性约简的离群检测方法。如果在某属性子集上得出的离群划分与在全属性集上得出的离群划分足够相似,则对于这样的数据集,可以直接在这些属性子集(即关键离群属性子集)上进行离群检测。此外,提出了高效的关键离群属性子集的查找方法,并通过实验验证了其有效性。