论文部分内容阅读
孤立点检测是数据挖掘的一个重要研究方向,随着其应用范围的不断扩大,传统的孤立点检测算法遇到了一个最大的障碍,不适应高维数据的特性。研究人员对此给出了几种解决方法,其中子空间挖掘是解决高维数据挖掘的一种有效方法。目前提出的子空间孤立点检测算法还存在很多问题,如算法的检测精度低,参数难以设置等。本文主要针对以上问题,对子空间孤立点检测算法进行了研究。首先,介绍了基于轴平行子空间的孤立点检测算法SOD,针对该算法中的两点不足,提出一种改进算法。一方面通过对每一维的聚集度进行量化,确定各维的参考价值,从而降低了算法结果对参数设定的敏感度。另一方面利用相对距离表示各点到中心值的偏离度,从而更利于不同密度子空间下的孤立点检测。其次,针对现实数据集中聚类个数的未知性,结合基尼熵提出一种基于基尼熵的相关子空间选择方法,并给出相关子空间孤立程度定义,在此基础上提出了基于相关子空间的孤立点检测算法RSOD。该算法降低了对数据集先验知识的要求,不受数据集中聚类个数的限制,无论数据集中包含一个或是多个聚类,算法均可以正确选择相关子空间,并有效检测出孤立点。最后,以四个数据集验证了所提算法的有效性,其中包括人工数据集和真实数据集。