【摘 要】
:
数据聚类就是将一个数据集中的数据按照某种条件聚成若干个簇,使得簇中的数据相似性较高,而簇间的数据则相异性较高的过程。聚类分析已被确认为是知识发现方面主要的数据挖掘
论文部分内容阅读
数据聚类就是将一个数据集中的数据按照某种条件聚成若干个簇,使得簇中的数据相似性较高,而簇间的数据则相异性较高的过程。聚类分析已被确认为是知识发现方面主要的数据挖掘工具并应用在众多领域,如模式识别,基因组分析和市场研究。K-means聚类算法应用在聚类任务的很多方面,但是K-means本身存在着以下的缺点。首先,初始化问题,即随机选取的初始值可能会导致不同的聚类结果,甚至会造成无解;其次,用户必须输入先验的类数;再次,K-means算法是噪声敏感的;最后,K-means算法处理大型数据集的效率和结果往往是不能接受的。相对于K-means算法,大多数现有的网格聚类算法具有线性的时间和空间复杂度,从而可以很好地实施在大型数据集。在本文中,我们提出了一种基于网格的划分式算法,以克服K-means算法的缺点。这个新算法基于两个主要的思想:1)极大化一组网格的平均密度代替K-means算法目标函数中使用的极小化最小平方误差; 2)使用基于网格的聚类算法彻底改变K-means算法中对象驱动的目标(数据)分配方式。因此,比起K-means算法,我们提出的算法获得了大约10~100倍的平均加速,同时能获得更好的划分结果。相比K-means算法,我们提出的算法还具有能处理类数未知的数据集的能力。通过与包括K-means算法在内的四个典型聚类算法在具有不同特征数据集上的聚类效果相比较,我们提出的算法的效率已被成功地验证。聚类有效性在聚类分析中有重要的研究价值。许多聚类有效性指标已经被提出用来估计类数。然而,面向不同的聚类算法和数据结构,没有一个聚类有效性指标能够完全工作的很好。在本文中,定义了一种新的基于网格结构的距离测度,来代替欧式距离(或其他距离)。结果,现有有效性指标的效率获得极大的改善,实验证明了新指标的有效性和稳定性。
其他文献
随着经济迅速发展与人民生活水平的不断提高,现代化建筑不断增多,人们对生活舒适度的要求逐渐提高,造成了国家对能源有巨大的需求。再加上我国能源紧缺,能耗高的现状,节能已经成为热点话题。据统计,建筑能耗在社会总能耗中占的比例非常大,而空调能耗占建筑能耗的45%左右,而冷水机组的能耗通常又占到空调系统总能耗的60%左右,因此中央空调冷源控制方案在建筑节能中显得尤为重要,方案中控制策略的好坏直接关系到系统是
近年来,随着自动化控制系统的不断完善和无线传感器网络技术的飞速发展,采用先进的温度检测技术,利用蓄热式加热工艺改进加热炉的点火控制,优化加热炉工艺流程、提高热利用率
随着MEMS(Micro Electro Mechanical System,即微电子机械系统)技术的发展,电容式MEMS传感器具有结构简单、分辨率高等优点,它广泛应用于位移、振动、角度、加速度等物理量的
工业机器人在焊接领域的应用是工业现代化的客观要求。本文结合“昆山一号”工业机器人项目研发和江苏省科技成果转化项目——“焊接机器人成套装备”项目的实施,设计实现了焊
目前,随着北斗卫星导航系统全球化进程加快,北斗在各领域应用的广泛展开,国内外不少高校和科研机构对北斗接收机的研究空前热烈,为我国的北斗行业良好发展贡献力量。其中基带
在高炉炼铁生产中,热风炉是重要的加热鼓风设备,为高炉连续地提供高温热风。提高热风温度有利于高炉生产过程的正常、高效地进行,同时可节省能源消耗,降低炼铁成本等。传统的
轨道电路是铁路重要的基础设备,随着我国列车速度的不断提高,为了确保铁路运输的安全畅通,铁路系统对列车自动控制的要求越来越高,轨道电路的使用负荷也不断增大。在高负荷运行和
智能监控系统因其全天候、无间断、低误报实时监控的优点而广受关注,其中的目标检测、目标跟踪和行为识别等关键技术是学者们研究的热点。针对室内固定场景,深入研究了目标检
机器人是自动执行指定工作的机器装置。它可以根据周围的环境信息,自主的完成某些特定的任务,从而将人类从危险或繁杂的工作中解脱出来。移动机器人要想感知外部环境,最主要