基于信息熵的高维分类型数据子空间聚类

来源 :汕头大学 | 被引量 : 0次 | 上传用户:HELING0702
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大规模数据存储技术、信息技术和网络技术的发展,人们正陷入数据泛滥、知识贫乏的境地。为满足日益增长的信息需求,聚类分析作为一种主要的数据挖掘技术已经应用到各种领域之中。现有的算法大多是处理低维的数据,然而对于高维数据,这些算法往往不能取得令人满意的效果,特别是高维分类型数据,这是由高维分类型数据分布的复杂性及其特性导致的,现有的聚类算法满足不了处理高维分类型数据的需求。  子空间聚类是一种将搜索局部化在相关维上进行的聚类算法,它有效的克服了数据集因维度过高引起的一系列问题。本文针对高维分类型数据,提出了一种自底向上的子空间层次聚类算法,该算法在基于信息熵的意义上能够准确的搜索簇的子空间,通过维护一个最相似线性表(MSLL)在全局范围内进行簇的合并,以此保证每次所进行的簇合并都是最优的。在进行簇之间相似度的计算时采用了一种优化策略,让每个簇维护一张属性信息表为相似度的计算提供数据支持,大大减少了相似度计算的复杂度。通过Zoo,Soybean和Vote三个典型的分类型数据实验发现,相对于其它相关聚类算法,该算法在聚类的准确率和稳定性方面表现优异。
其他文献
PSO是一种基于群体智能的随机启发式优化算法,作为群体智能的典型代表,它具有原理简单、参数少、收敛速度较快等特点,并且算法程序实现简单,已被证明是一种行之有效的全局优
本文分别对电力通信网MPLS网络和变电站IEC61850网络进行研究。论文针对Linux内核中的流量控制机制进行分析,结合区分服务模型,通过分析区分服务(DiffServ)模型的体系结构,研
MUD的全称为Multiple User Dimension(多用户层面),即由计算机程序实现的多用户参与活动和交互的环境。也有人称之为Multiple User Domain(多用户虚拟空间游戏),因为就目前来
面向人的视频理解尤其是对人脸进行分析,是计算机视觉技术研究中的一个热点与难点。对于视频监控系统来说,大多数应用情况下主要的监控目标是人。因此面向人、尤其是人脸的视
以石化、钢铁、化工、冶金等为代表的流程工业是我国国民经济极为重要的基础支柱产业。然而,我国流程工业不同程度地存在着能耗高,成本高,劳动生产率低,资源利用率低的特点,能耗普
为简化发动机功率检测过程,提高无负荷测功的准确性和可靠性,针对目前常用的发动机无负荷测功技术和方法中所存在的问题和不足,本文分析了发动机无负荷功率检测的方法和影响
数据挖掘,又称数据库中的知识发现,是指从大型数据库或数据仓库中提取隐含的、事先未知的、潜在有用的信息或模式。它融合了数据库、人工智能、机器学习和统计学等多个领域的
电信增值业务的发展日益要求快速而灵活地提供各种丰富多彩的新业务。综合业务接入网关(ISAG)在此背景下应运而生,极大降低了CP(Content Provider)/SP(Service Provider)开发
“一站式”服务平台是近年来国内电子政务研究与应用的热点,而实现电子政务“一站式”服务平台的关键是要解决跨部门之间的应用集成问题和数据交换问题。就其实现技术而言,面向
现代科学研究和应用领域的需要正朝着高性能、大数据量的方向发展,由于Internet中存在着数据共享和协同的问题,使很多信息系统信息分散、数据难于查找,并且相互孤立,难于连通。数