分类属性数据聚类算法研究

被引量 : 23次 | 上传用户:qq912214209
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代数据库和网络技术的发展,使得人们面对的数据量以惊人的速度增长。为了获取有价值的信息,聚类分析已成为数据挖掘中一个十分活跃的研究领域。本文详细介绍了聚类分析的基本概念、数据类型和相异度测量方法,分类方法和特点,并对聚类结果的评价方法进行了讨论。随着数据类型的多样化,聚类分析也要求能够处理各种各样类型的数据。本文重点讨论的是对分类属性数据的聚类算法(Algorithms for Clustering Categorical Data,CCA)研究。围绕分类属性数据的聚类问题,研究较为深入的是划分法聚类。首先具体研究了典型的k-modes算法及其变形,并指出了它们的优缺点,对它的相异度作了一个小的改进,并应用在构建合作学习小组中;探讨了模糊k-modes算法和进化策略对属性进行加权的改进fuzzy k-modes算法,以及近似k-median分类属性数据聚类算法,用基于划分相似度的聚类精确度为聚类结果的评价准则,实验分析了它们的聚类效果。其次研究了引用熵的概念来对分类属性数据(categorical data)的聚类,简单地描述了熵的一些基本性质,介绍了三个基于熵的聚类算法,接着我们用增益熵作为引力模型的距离半径,构建的熵函数作为引力和加速度,聚类中的数目作为质量来形象地描述引力模型的分类属性数据的聚类算法的聚类过程。用分类的效率、期望熵值和纯度这三个聚类评价准则来衡量聚类的结果。为了有所比较,用UCI数据库中的两个分类属性数据集Mushroom dataset和Voting Record dataset,同时运行在k-modes算法和COOLCAT算法上,来比较这三者算法的聚类效果。最后是提出了一种在子空间里无重叠分类属性数据的聚类算法。新的无重叠聚类算法用紧凑函数和分散函数之和作为目标函数,最小化得到它的最终聚类结果。分别用在UCI数据库的3个分类属性数据集中,聚类的结果分别显示了它们的各个类别所在的子空间类集。随着数据库的发展,计算机的更广泛的应用,必然带动分类属性数据上更广泛的研究和应用,在基于熵的概念和高维子空间上的聚类研究也会得到更进一步的完善与发展。
其他文献
伴随经济的快速发展和人们生活质量的不断提升,旅游成为人们度假休闲、享受愉悦的一种方式,因此旅游逐渐走向一个大众化的时代。但是从目前旅游发展形式来看,单纯的游览景区
我国当代传记存在种种不足。本文试以别尔嘉耶夫的自传为范例,中西比较,分析我国当代传记作品的四种主要不足。
黎朗推介词Recommendation on LiLang’s Works推介人:李妙多Recommender:Li Miaoduo1每次,当电影里终于派出众望所归的一位人物,推开一扇门或窗,带领观众暴露在一片像雾像泡
城市公共空间是城市最基本的外部区域之一,既是城市居民与自然进行物质、能量和信息交流的重要场所之一;也是城市形象的重要表现之处,扮演着城市“起居室”和“橱窗”的角色;
近年来,外资并购我国上市公司步伐加快,主要基于绕开行业壁垒,分享行业收益,完成在华产业布局,投机并购受获取短期利益等动机趋动,外资并购我国上市公司主要经历了起步期、过
三峡库区的传统城镇,拥有优美的环境景观、悠久的历史传统、鲜明的个性特色、丰富的文化积淀和人文景观。然而,由于三峡工程的建设,淹没了众多的土地和城市(镇),这些城市(镇)
公共服务型政府的构建是政府职能转变与行政管理体制改革的前沿课题,它更突出政府的“公共服务理念”,它不仅仅是政治体制的改革,而且涉及到政治理念的转变。但政府职能转变
通过分析货币政策转向的现实原因,认为货币超发是造成此轮通货膨胀的直接成因。利用经济学理论,研究了"稳健"货币政策的积极作用与政策困境,并用数据分别加以论证。最后,在权
前人治唐代大曲研究,多关注俗乐大曲曲目、曲名、创作者等方面之考证,对《唐六典》所载"雅乐大曲"鲜有研究。本文通过对《唐六典》、《唐会要》、《通典》等文献的梳理认为,
目的探讨脑血栓合并糖尿病患者的临床护理体会。方法该研究选取2012年2月—2014年10月该院收治的88例脑血栓合并糖尿病患者为研究对象,按照护理方法的不同将其分为常规护理组