基于FCM的类合并聚类算法研究

被引量 : 0次 | 上传用户:taixiangle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。数据供给能力和数据分析能力间的矛盾日益突出,迫切需要一种能够对数据进行深层次加工的自动化技术。数据挖掘技术应运而生。聚类分析技术是数据挖掘中的经典内容,是各学科研究的重要工具。模糊聚类由于能够描述样本类属的中介性,能够客观地反映现实世界,己逐渐成为聚类分析的主流.在众多的模糊聚类算法中,模糊C-均值算法可以说是应用最为广泛、最为灵敏的一种算法。但是该算法对初始化特别敏感,很容易陷入局部极小值或者鞍点,而得不到全局最优解;当我们使用这一聚类算法时,必须事先指定数据集的聚类数,然而聚类个数C一般是很难预先知道的,对于一些不规则的簇形状,用欧式距离的类中心描述是不适当的;并且FCM算法一般只能发现球装簇。本文重点针对FCM算法进行了详细的研究和分析;应用了多中心思想,提出了一种新的类合并方法对FCM算法进行了改进。改进算法将整个聚类过程分为二个阶段。第一阶段,采用最大最小距离算法结合数值规约技术进行初始聚类中心的选择。最大最小距离算法可以实现输入参数的知识领域最小化,即不用用户给出聚类数C。数值规约可以大大减小原始数据集的样本个数,并保留样本分布情况。使最大最小聚类算法的运行数据集大大减少。提高改进算法的执行效率。第二阶段,利用FCM隶属度矩阵的物理意义,实现将相邻小类合并成大类。最终完成整个聚类过程。改进算法的主要思想:“任何一个大簇或者延伸形状的簇都能用多个中心表示”。先把一个大类用多个中心点来表示,然后再合并那些适当的小类。这种冗余初始化聚类中心的方法,可以在一定程度上降低对初始中心和聚类数目的依赖。因为改进算法并不关心聚类数目选择是否正确,我们只需要提供一个足够大的初始聚类个数C,最终的聚类数目是通过合并了各个小类之后才确定,这样更加符合聚类的思想。为了验证本文提出的改进算法的有效性和可行性,本文将其与FCM算法在多个数据集上进行了对比实验,验证了改进算法在聚类质量和聚类稳定性上都远优于FCM算法。从而验证了本文对FCM的改进,是有效的可行的。
其他文献
寡头统治铁律是政党的内生倾向。打破的根本途径在于制度化,以制度化保证竞争。新加坡人民行动党以制度保证开放性,抵消封闭性;打破更新下降铁律,建立自我更新机制;用政治征
托尼·莫里森的《宠儿》是美国文学史上的一部鸿篇巨著,通过描写塞丝杀婴的故事阐述黑人妇女在奴隶制度下饱受身体、精神和情感的摧残和劫掠的事实。本文旨在从生态女性主义
铁路隧道洞门作为隧道结构的一部分,对于确保洞内安全施工和隧道的正常运营有着重要作用。但是由于事物的不确定性,单纯采用安全系数法来进行洞门的设计和对洞门承载能力的判
现代高技术条件下战争作战样式、作战手段发生的巨大变化,对战争系统的研究理论、研究方法都提出了新的要求。近年来蓬勃兴起的复杂适应性理论、以及复杂适应系统理论为基础
准移动闭塞信号系统研究的追踪列车间的安全间隔距离与旧的信号系统下相比较短,缩短了列车的追踪间隔时间,有利于提高铁路通过能力。但列车在运行途中要遇到大量令其偏离运输
目的观察进展性缺血性卒中(PIS)患者血清氧化应激指标超氧化物歧化酶(T-SOD)、8-羟基脱氧鸟苷酸(8-OHdG)以及丙二醛(MDA)的水平。方法急性缺血性脑卒中起病后第1、3、5和7天动态监测3
在当前信息化建设的过程中,电力行业的信息化系统得到了很大的发展,但是由于缺乏全局的规划管理,使得部门内部、部门之间的信息化系统的数据交流和部门协作存在着问题,各个系
近年来,信息技术的发展和应用给中国S银行的发展带来了深刻的影响,同时银行对信息科技的依赖也越来越强,这使得信息系统的安全性、可靠性和有效性直接影响到了S银行的安全和
2008年5月12日发生在四川省汶川县的里氏8.0级地震不仅造成了重大的人员伤亡和巨额的财产损失,同时也对震区的生态环境造成了严重的破坏,给当地灾后重建进程、生态建设和社会
微机械陀螺是一种测量角速度或角位移的惯性传感器,具有体积小,可靠性高,价格便宜的优点,在汽车,电子和惯性导航领域有广泛的应用。由于陀螺仪等传感器输出的是微弱的小信号,