面向维度的高维聚类边界检测技术研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:m6300
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是数据挖掘的一个重要研究问题,它可以有效地帮助我们分析数据的分布、研究数据的特征、寻找隐藏在数据中的结构,以便作进一步分析和利用。聚类边界代表着那些归属明确,但又具备着脱离事物原属类别特征的对象。在医学隐性遗传疾病、基因表达谱数据、手写体签名、目标追踪等领域的研究中起着重要作用。本文在研究现有的聚类技术和聚类边界模式识别技术的基础上,针对高维空间中聚类边界理论还缺乏有效的研究工作这一问题展开研究,从面向空间和面向维度两个角度研究了高维边界检测模型及其有效性,并建立和引入多个高维测试数据集。论文的主要创新工作如下:(1)通过引入一种动态自适应kNN采样窗口降低固定采样窗口对密度估计敏感性的方法改进了核密度估计技术,并将改进的核密度估计技术作为邻域空间中均值漂移向量的权重,从而提出了面向高维空间的边界检测算法BorderShift。合成数据集和真实数据集上的实验结果表明该技术能有效地检测高维空间聚类边界模式。(2)为提高聚类边界的检测精度,采用面向维度的思想对霍普金斯统计量进行高维变换,提出一种新的描述高维空间均匀性的Symmetry统计量;通过引进物理学中的粒子空间对称性理论,即以当前数据点作为高维空间的中心原点,构建一个与数据空间维度相同的高维坐标系,并对中心原点的k近邻对象进行坐标反演,将近邻空间内的数据点投影到高维坐标系。以这两种技术为基础提出了Spinver算法。在合成数据集、医学数据集、手写体数据集、多姿态人脸数据集等上的实验结果验证了该方法有效性和具有较高的效率。(3)在证明了该杠杆上平衡支点存在的必然性和唯一性基础上,提出了从多个视角分析高维空间的思想,即将高维空间模拟为与空间维度数相同的多条杠杆,使用当前样本点在各维度上的投影坐标与平衡支点之间的距离计算平衡性系数,提出了Lever算法,人工合成数据集和真实数据集的实验表明,Lever算法能够较好的处理高维空间的聚类边界检测问题且具有更高的检测精度。(4)为解决更高维度空间中的聚类边界检测问题,提出了一种基于马尔科夫图模型的边界检测算法Knight。该技术将高维空间模拟为离散状态空间,并将状态空间内骑士巡游的马尔科夫过程转换为相应的图模型,并构造Hard系数判断图模型中路径求解的难度进行边界检测。在基因表达谱数据集、目标追踪、复杂人脸识图像数据集、万维人工合成数据集上的实验结果验证了Knigit算法的有效性。(5)提出了面向维度技术。将高维空间分解为与维数相同的多个一维子空间,从每个子空间分析数据分布特性。本文的研究工作展示了面向维度技术如何从面向全维空间至面向一维子空间的技术演变,丰富了高维空间聚类边界检测技术的理论研究,提高了技术的检测性能,降低了技术的实现难度,扩展了聚类边界的研究范围,特别是在基因表达谱数据、人脸识别、目标追踪、万维空间等领域的一些积极尝试和探索,进一步加速了理论研究向现实应用的转化。
其他文献
车辆数量的迅猛增长导致交通拥挤甚至交通事故频繁发生,对交通事件进行检测能够有效地解决这一问题,而基于视频的检测方法更是重点研究领域。但是现有视频中存在很多降低检测
数字家庭是指以计算机技术和网络技术为基础,通过多种互连方式将家庭中的各类电器连接在一起,实现设备之间通信及数据交换,以方便人们的生活。然而数字家庭不仅仅是指家电设备,更
最近几年,嵌入式技术在集成电路大规模发展的带动下发展迅速,在工业控制、智能控制、医疗、电子等方面都发挥着重要的作用。近年来,嵌入式产品在医疗卫生方面的应用日渐广泛
图像噪声去除是图像恢复的主要内容之一,其主要任务是去除所观测到图像的噪声部分,从而得到理想的图像。近年来,基于变分方法的图像扩散技术成为图像去噪的主流方法之一。该
隐私保护是数据挖掘领域中一个重要的研究课题,其目标是在不泄露隐私信息的前提下,获得精确的挖掘结果。数据挖掘中的隐私保护通常有两种解决途径:安全多方计算和数据扰乱。
实时、准确的获取各种交通参数,是智能交通管理的前提。视频监控方法是通过分析拍摄的交通图像序列,对交通目标进行检测、识别和跟踪,并对其行为进行分析和判断。与其它检测
计算机网络的普及,使得针对互联网衍生的应用程序越来越多。同时随着电子商务与P2P (Peer-to-Peer)网络的出现,使网络用户对网络的安全性以及带宽需求提出了更高的要求。自20
无线移动设备的大量使用和普及,使容迟网络(Delay Tolerant Networks, DTN)成为目前无线网络应用研究的热点。这种靠移动设备自组织成的网络,其拓扑结构随着节点的高速移动不断
研究无线传感器网络一个重要目的就是在满足网络应用需求和保证数据通信安全的前提下,尽可能地延长整个网络的生命周期。在以分簇方式组织的传感器网络中,靠近基站的节点因转
数字视频属于国家重点发展的信息产业领域,随着宽带网络和数字电视的迅速发展,视频点播、交互电视、视频网站等应用需求将越来越广泛,这些应用都将共同面临大量涌现的数字化