基于相对熵的投影聚类算法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:suzengbiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类就是将数据对象分组成为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。相异度是根据描述对象的属性值来计算的。距离是经常采用的度量方式。 技术进步使得数据收集变得更加简单和快速,从而产生了大量复杂的高维数据。由于这种数据存在的普遍性,使得对高维聚类算法的研究有着非常重要的意义。传统的聚类算法受“维灾”的影响在处理高维数据时变的异常困难,主要表现为索引结果效率低、用于相似性度量的距离函数失效、聚类描述中存在冗余的维以及算法执行效率低等问题,使得聚类算法的应用受到很大的局限性。 发现高维空间中存在于不同子空间的聚类问题一般被称为投影聚类问题。在已有投影聚类算法 EPCH(Efficient Projective Clustering technique by Histogram construction)的基础上,本文提出了一种基于相对熵的改进算法 REPCH(Relative Entropy based Projective Clustering by Histograms construction)。在数据分布的特征空间中,将每一个 d 维子空间划分成网格结构。根据网格单元的密度构建每一个 d 维子空间的直方图。直方图的相对熵可以反映子空间中数据的实际分布与平均分布之间的相似度。相对熵会随着密集区域的减少而单调递增,并逐渐趋近于 1。根据这个原理,直方图中密集区域和稀疏区域可以被识别。 算法在人工数据集上进行了大量的实验,对算法的聚类质量、性能等指标进行了测试。与原有的 EPCH 算法相比,REPCH 算法是一种有效的投影聚类算法,且对数据量及维数有很好的可伸缩性,适用于高维数值数据聚类。
其他文献
现代化的武器装备在性能提高的同时,其复杂性也在日益增加,出现故障时的修复工作复杂性很高。武器的应用场景是战场,一旦出现故障,需要能够在现场及时修复。而战场环境中武器分布
随着互联网的发展,人们对于网络服务质量的要求越来越高,传统网络应用客户/服务器构架很难支撑起巨大的用户数量。对等网络极大的扩充了服务的外延,挖掘边缘网络上的资源,让
随着网络和智能设备的不断发展,互联网上的信息也越来越丰富和多样,人们可以在网络上获得各种各样的信息和服务,同时人们逐渐发现要在网上找到符合自己需求的东西也越来越麻
虚拟现实技术又称灵境技术,它是二十世纪末才兴起的一门崭新的综合性信息技术,它融合了数字图像处理、计算机图形学、多媒体技术、传感器技术等多个信息技术分支,从而大大推进了
分布式文件系统有效地解决了数据的存储和管理的难题,但却面临多用户并发访问数据的一致性问题,分布式锁机制为不同客户端正确访问服务器上的数据提供了保障。在多客户端同时
银行管理数据提取平台是根据银行工作的标准化、服务化、信息化、网络化、而建立的一种管理信息系统。银行的数据管理对象是金融行业大量的、随时更新的又需要高度保密的数据
有限单元法是一种有效的数值分析方法,是计算机辅助工程(CAE)的重要组成部分。随着工程问题复杂度的逐渐增加,CAD/CAE建模方法也在不断地发展。逆向工程是近几年发展起来的一种
混合云存储作为一种新型的数据存储模式,特别是随着大数据浪潮的到来,这一新型的数据存储模式已经逐渐被各行各业所接受、所使用。虽然这种存储模式看来潜力无限,但在实际使
目前,随着电子商务、物流行业的迅速发展以及国民消费水平的不断提高,网上购物规模逐年上升。相比传统购物方式,网上购物不仅具有方便、快捷、安全的优点,同时允许消费者对购买成
本文使用统一建模语言UML和统一过程RUP相结合的的面向对象软件工程方法学指导软件系统的设计与实现,将UML和RUP有机融合应用于项目--在线考试系统中。按RUP的核心工作流安排