论文部分内容阅读
离群点挖掘随着数据挖掘的发展引起了广泛关注。通过对国内外离群点挖掘算法的研究情况分析可知,以往的离群点挖掘算法还存在诸多问题,例如用户定义的阈值往往直接影响着挖掘的结果;考查多变量之间的相似性来挖掘时序离群点的算法仍较少,或精确度较低。针对这些问题,本文主要研究了基于蚁群算法的离群点挖掘方法。首先,提出了一种在对蚁群构图进行切割的基础上挖掘离群点的算法。该算法在第一阶段对传统的蚁群算法进行改进,将不同属性数据之间的距离和分布情况纳入转移概率的计算之中,从而构建最优的图像。然后在一定的图像切割准则下对图像进行切割,最后通过计算各个簇,即切割图像后形成的各子图之间的差异以及同一簇中数据点之间的差异来找到top n离群点。其次,提出了一种基于改进的蚁群k-means聚类算法的多变量时序离群点挖掘算法。该算法把蚁群算法特有的信息素和转移概率引入对数据聚类的过程中,通过计算类内距离和类间距离找到符合聚类标准的最好聚类结果,然后通过查看各数据点在不同簇中的时刻点分布情况,以邻居相似性为标准计算各点的离群系数,从而实现时序离群点的挖掘。最后,在真实和合成数据集上对提出的两种算法进行了验证。实验结果表明,提出的算法在对离群点的检测精度上要明显优于其他同类算法,实现了预期的研究目标。