论文部分内容阅读
聚类是数据挖掘的一个重要研究问题,它可以有效地帮助我们分析数据的分布、研究数据的特征、寻找隐藏在数据中的结构,以便作进一步分析和利用。聚类边界代表着那些归属明确,但又具备着脱离事物原属类别特征的对象。在医学隐性遗传疾病、基因表达谱数据、手写体签名、目标追踪等领域的研究中起着重要作用。本文在研究现有的聚类技术和聚类边界模式识别技术的基础上,针对高维空间中聚类边界理论还缺乏有效的研究工作这一问题展开研究,从面向空间和面向维度两个角度研究了高维边界检测模型及其有效性,并建立和引入多个高维测试数据集。论文的主要创新工作如下:(1)通过引入一种动态自适应kNN采样窗口降低固定采样窗口对密度估计敏感性的方法改进了核密度估计技术,并将改进的核密度估计技术作为邻域空间中均值漂移向量的权重,从而提出了面向高维空间的边界检测算法BorderShift。合成数据集和真实数据集上的实验结果表明该技术能有效地检测高维空间聚类边界模式。(2)为提高聚类边界的检测精度,采用面向维度的思想对霍普金斯统计量进行高维变换,提出一种新的描述高维空间均匀性的Symmetry统计量;通过引进物理学中的粒子空间对称性理论,即以当前数据点作为高维空间的中心原点,构建一个与数据空间维度相同的高维坐标系,并对中心原点的k近邻对象进行坐标反演,将近邻空间内的数据点投影到高维坐标系。以这两种技术为基础提出了Spinver算法。在合成数据集、医学数据集、手写体数据集、多姿态人脸数据集等上的实验结果验证了该方法有效性和具有较高的效率。(3)在证明了该杠杆上平衡支点存在的必然性和唯一性基础上,提出了从多个视角分析高维空间的思想,即将高维空间模拟为与空间维度数相同的多条杠杆,使用当前样本点在各维度上的投影坐标与平衡支点之间的距离计算平衡性系数,提出了Lever算法,人工合成数据集和真实数据集的实验表明,Lever算法能够较好的处理高维空间的聚类边界检测问题且具有更高的检测精度。(4)为解决更高维度空间中的聚类边界检测问题,提出了一种基于马尔科夫图模型的边界检测算法Knight。该技术将高维空间模拟为离散状态空间,并将状态空间内骑士巡游的马尔科夫过程转换为相应的图模型,并构造Hard系数判断图模型中路径求解的难度进行边界检测。在基因表达谱数据集、目标追踪、复杂人脸识图像数据集、万维人工合成数据集上的实验结果验证了Knigit算法的有效性。(5)提出了面向维度技术。将高维空间分解为与维数相同的多个一维子空间,从每个子空间分析数据分布特性。本文的研究工作展示了面向维度技术如何从面向全维空间至面向一维子空间的技术演变,丰富了高维空间聚类边界检测技术的理论研究,提高了技术的检测性能,降低了技术的实现难度,扩展了聚类边界的研究范围,特别是在基因表达谱数据、人脸识别、目标追踪、万维空间等领域的一些积极尝试和探索,进一步加速了理论研究向现实应用的转化。