基于数据场的划分聚类算法研究

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:meheaven
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘和机器学习领域中的研究热点之一,其目的是根据物理或者抽象对象间的相似性将数据对象划分成不同的类别,使同一个聚类形成的簇中的对象具有较高相似度,不同簇中的对象相似度较低。聚类技术在图像分割、文本分析、空间数据知识挖掘以及其他诸多领域都有广泛的应用前景。  聚类算法主要分为基于划分的方法、基于层次的方法、基于密度的方法、基于模型的方法和基于网格的方法等等。基于划分的方法简单有效,易于操作,但由于算法需要预先指定聚类数目,极大地影响了原始数据聚簇的形态分布,同时算法还存在聚类结果对初始簇类中心选择敏感、对噪声适应性差、不能发现任意形状的簇等缺点。基于密度的方法主要优点是具有良好的可扩展性,可以发现任意形状的簇,对噪声数据不敏感,但是聚类结果严重依赖于用户参数的合理选择。  因此,本文结合数据场理论,利用数据场反映数据间多对一作用关系的优势,研究了基于数据场的聚类算法。主要工作内容包括以下三个方面:  (1)结合数据场理论,依照簇类中心被具有较低势值的邻居点包围,且与具有更高势值的其它数据对象有相对较大的距离的规律,计算每个数据对象的势值和距离值,作出势值与距离的分布图,并从中确定数据的聚类中心,不需要预先设置聚类中心的数量,同时能够自动聚类中心的位置。等聚类中心确定后,将其余点按到最近邻的更高势值对象的最小距离进行划分,只需要一次划分就可以完成整个聚类过程,获得最终结果。通过与K-means算法、DBSCAN算法和数据场聚类算法的性能比较,结果表明提出的算法具有较好的聚类结果。  (2)为了解决传统聚类算法对混合属性数据聚类时存在结果不稳定、随机性大、准确度不高等缺陷,对现有算法进行扩展,提出了基于数据场和属性重要性的混合属性数据聚类融合算法(DF_SPCA),根据获取的数据对象信息,利用欧式距离计算数值属性相似性,对于分类属性,根据分类属性间的共现概率,分析分类属性的重要性,以此计算分类属性间的距离,采用现有的数据场聚类算法对数值属性和分类属性分别获得聚类成员,采用基于交集的融合策略获得最终的聚类结果。通过与K-prototypes算法、K-modes算法以及SBAC算法的性能比较,结果表明提出的算法具有较好的聚类结果。  (3)为了探索DF_SPCA算法的实际应用能力,研究了如何利用DF_SPCA算法基于基站定位数据进行商圈分析。通过基站得到定位数据,将数据规约并变换成需要利于挖掘商圈信息的数据形式,主要分析基站覆盖范围的人流量及人均停留时间等重要特征,利用聚类算法对定位数据进行聚类分析,能够识别出不同的商圈,并分析了不同的商圈具有的典型特征及其消费习性,以便于研究潜在顾客的分布以制定适宜的商业对策。  本文结合数据场理论,为解决传统聚类算法需要预设聚类个数,聚类中心难以确定以及参数敏感性等问题提供了新的思路,利用融合策略处理混合属性数据,最后对基站定位数据进行商圈分析的研究。
其他文献
在工业控制网络技术和嵌入式技术的发展促进下,智能数字仪表、传感器、执行机构等智能设备在工业控制中应用越来越广泛。通用组态软件作为当今工业控制中的重要组成部分,对工
现代工业生产的自动化程度日益提高,生产过程也越来越复杂,传统的故障检测与诊断方法已经不再适用。为了及时、准确的诊断故障,避免生命财产损失及环境污染,急需提出行之有效
生物特征识别技术,是当前生物测定学领域中最具代表性和最富有挑战性的重要研究内容。生物特征识别的研究如今进入一个新的发展高峰,各种新的技术和方法被持续不断地开发出来。
当前轨道交通的多层次、网络化建设正在逐步推进。针对地铁车站机电设备监控系统EMCS(Electrical and Mechanical Control System)存在的运行可靠性、安全性差及系统机电设备
传统的机器人系统往往采用封闭式的控制系统结构,这限制了机器人系统的扩展性和灵活性。本文以三轮式(两轮差动驱动)移动机器人为研究对象,提出了一种基于PCI总线的轮式移动机
自从1975年Honeywell公司推出第一套分散控制系统DCS到现在现场总线FCS的广泛应用,分布式控制系统已经走过了35年的风雨,从初生走向成熟。基于开放式标准的现场总线控制系统F
本文主要对中央空调冷冻水的节能控制进行研究,本课题欲突破传统的空调水系统的控制模式,建立空调水系统的系统控制与末端工况关联型的新型控制模式,在空调末端设备不变且满
行走是一种常见的生物体的整体运动。运动分析是对生物体行走方式的一种检查方法,旨在通过运动学手段,揭示步态异常的环节和影响因素,从而指导康复评定和治疗,也有助于临床诊断和
在模式识别领域的特征提取过程中,流形学习是一项有效的降低维度的技术。它旨在保护给定样本集中各邻域结构。本文重点研究了近年来比较热门的特征提取技术,如:鉴别分析技术,
远程监控系统近年来发展迅速,系统也越来越复杂。目前远程监控系统存在的问题主要有网络传输带宽有限、多种网络结构并存、GPS与视频信号的不同步和网络通信技术的不足等,同