论文部分内容阅读
随着互联网信息技术的发展,大规模数据的采集越来越便捷,数据的结构也越来越复杂,对大量复杂的数据集进行类别标注非常困难,如何从复杂无标签的数据中挖掘出有价值的信息成为无监督学习的研究重点。聚类分析和离群检测分析是无监督学习领域中非常重要的两个研究方向,并且有着十分广泛的应用,如图像分割、人脸识别、信用欺诈检测和网络入侵检测等领域。
密度核心这一概念的提出,使得聚类算法在处理复杂形状和多密度层次的数据集时表现出很强的优越性。DCore算法是基于密度核心的聚类算法中最具有代表性的一个算法,但是DCore算法存在参数难以设置和不适应密度层次差异较大数据集的两个缺陷。为了解决DCore算法存在的问题,本文提出了基于密度核心和局部合力的聚类算法DCLRF(A density-core-based clustering algorithm with local resultant force)。首先,将自然邻居和局部合力的概念相结合,重新设计局部中心度量(CE)来识别核心点和非核心点,并利用CE来提取核心点;然后,利用核心点的自然邻居结构来获得聚类结果。实验证明,本文提出的DCLRF算法在不需要手动设置任何参数的情况下能处理包含球形、复杂流形和密度层次差异非常大的数据集。
针对LOF算法无法检测出直线形、复杂流形和密度层次差异较大的数据集中的离群点的问题,本文提出了基于邻域加权的离群检测算法NWOD(A neighbor-weight-based outlier detection algorithm)。首先,本文基于自然邻居和加权近邻图提出了加权局部密度的概念,然后,通过对比数据对象与其邻域内数据对象的加权局部密度差异获取其相应的离群值得分,最后,将得到的离群值按从大到小排序。离群值得分越高,该数据对象越可能是离群点。实验证明,本文提出的NWOD算法在不需要手动设置任何参数邻居个数的情况下能检测出直线形、复杂流形和密度层次差异较大的数据集中的离群点。
密度核心这一概念的提出,使得聚类算法在处理复杂形状和多密度层次的数据集时表现出很强的优越性。DCore算法是基于密度核心的聚类算法中最具有代表性的一个算法,但是DCore算法存在参数难以设置和不适应密度层次差异较大数据集的两个缺陷。为了解决DCore算法存在的问题,本文提出了基于密度核心和局部合力的聚类算法DCLRF(A density-core-based clustering algorithm with local resultant force)。首先,将自然邻居和局部合力的概念相结合,重新设计局部中心度量(CE)来识别核心点和非核心点,并利用CE来提取核心点;然后,利用核心点的自然邻居结构来获得聚类结果。实验证明,本文提出的DCLRF算法在不需要手动设置任何参数的情况下能处理包含球形、复杂流形和密度层次差异非常大的数据集。
针对LOF算法无法检测出直线形、复杂流形和密度层次差异较大的数据集中的离群点的问题,本文提出了基于邻域加权的离群检测算法NWOD(A neighbor-weight-based outlier detection algorithm)。首先,本文基于自然邻居和加权近邻图提出了加权局部密度的概念,然后,通过对比数据对象与其邻域内数据对象的加权局部密度差异获取其相应的离群值得分,最后,将得到的离群值按从大到小排序。离群值得分越高,该数据对象越可能是离群点。实验证明,本文提出的NWOD算法在不需要手动设置任何参数邻居个数的情况下能检测出直线形、复杂流形和密度层次差异较大的数据集中的离群点。