结合距离的基于密度的k-means算法研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:WOAILANTIAN112358
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。而聚类作为数据挖掘重要的一个分支,具有重要作用。聚类是指将数据集中的样本划分为不同的簇或类,使得簇内的对象具有很高的相似性,但与其他簇中的对象具有相异性。  k-means是划分方法中最基本的方法,它的优点是操作简便,快速。但是其本身也存在着其它缺点,如k值的不确定性以及初始聚类中心的随机选择性,并且只能发现类球状簇。而基于密度的方法,是根据密度条件对邻近对象分组形成簇,这样的方法可以用来过滤“噪声”或孤立点数据,发现任意形状的簇。针对k-means聚类算法本身具有的k值不确定性以及初始聚类的随机选择性的缺点,本文的主要工作以及创新点如下:  1.k-means算法的初始聚类中心是随机选取的,会对聚类结果造成误差。在数据集中,初始聚类中心,一般都分布在数据比较密集的区域。通过结合密度的方法,选取高、中密度区域的数据点。此外,以距离和以及绝对比值为约束条件,选取初始聚类中心;  2.对于密度系数的统计,需要给定 Eps邻域,本文在DBSCAN算法的最优解下对Eps数值进行了加权和求平均值,得到较优的Eps数值;  3.聚类后,本文根据密度算法中的密度相连概念,处理高密度集和低密度集的数据点,合并小簇,处理低密度区域的数据点,划分噪声点。同样以k-means算法的误差平方和准则函数为准则,得到较优的聚类结果。
其他文献
本课题在对仪表识别系统结构、图像预处理技术、Hough变换算法和神经网络的研究基础上,设计了图像预处理流程,实现了图像预处理算法,对Hough变换算法和BP算法进行了改进。设
目前隧道排水系统主要功能是对隧道排水系统运行时数据的采集和隧道排水系统可控设备的控制,尽管功能丰富,但是对于排水系统的故障检测部分却过于简单,大多是依靠人工或者单传感
随着我国市场经济体制的不断发展,我国二手车产业正处于迅猛发展阶段。功能完善的二手车信息管理系统,在规范业务流程的同时,还可以有效地提高二手车业务人员的工作效率,从而促进
目前,类人智能在全球蓬勃发展,比较有代表性的项目有日本的Todai Robot项目——目标是让机器人参加高考并取得高分,IBM的Waston项目——已经拓展至医疗等领域,这类类人智能项目对
防御分布式拒绝服务(DDoS)攻击是当今网络安全领域最难解决的问题之一,研究DDoS攻击及其对策是非常重要的。许多研究人员对拒绝服务攻击和分布式拒绝服务攻击作了深入的研究,
本文研究了GIS和模式识别的相关技术,通过分析常用的地图匹配算法,提出了一种新型的综合地图匹配算法,并针对目前巡更系统的弊端及发展趋势,采用GIS、地图匹配、曲线拟合、跨平台集成地图、OLE自动化等技术,设计开发了基于GIS的巡更系统,实现了巡更机与监控中心主机通信、数据采集与提取、巡更轨迹模式识别、地图显示及巡更评判等功能。通过大量测试验证了本系统采用的地图匹配算法能有效提高匹配精度,取得了很好
随着计算机、网络和图像处理技术的发展,医学图像处理技术在临床诊断、教学科研等方面发挥了重要的作用。医学诊断要借助对医疗图像(如CT、X光、B超等)的分析来实现。但许多
随着P2P计算模式的兴起、网络带宽的增加和Internet计算能力的迅速增强,如何充分利用这些资源,在动态的P2P网络环境中构建高可扩展、高可靠、高性能的分布式计算系统,是近年
语音服务的特点是亲切,互动性强、受众面广。因此,作为语音服务的主要承载者,呼叫中心受到了越来越多的重视。目前的呼叫中心大多采用以语音为中心的实现方式,而这种方式未能与业
MPLS的流量工程采用已有的路由选择算法和链路流量分配算法,通常会造成流量在资源不足的链路上传输,而资源充足的链路却占用率很低,并最终造成链路拥塞。本研究的主要目的是如何