基于计算智能的聚类组合算法研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:awubang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet的迅速发展,使得Web成为人们获取信息的重要手段。如何帮助用户从Web这样海量的、动态的、半结构化的分布式环境中发现潜在有用的知识已成为信息技术领域的热点问题。Web数据挖掘就是为解决这一问题而产生的研究领域,研究范围涉及关联分析、分类分析、聚类分析、特征分析、模式序列分析、趋势分析等。其中聚类分析作为数据挖掘的一种强有力的分析工具,得到了人们的广泛关注,近来不断有新的聚类分析算法出现。计算智能作为智能信息科学发展最有生命活力的一个研究方向,正受到人们的强烈关注。它从模拟自然界生物体系和人类智能现象发展而来,用计算机模拟和再现人类的某些智能行为。计算智能包含人工神经网络、模糊逻辑和进化计算三个主要方面,它已在医疗诊断、图象处理、模式识别、计算生物学、财经分析、Web分析等领域获得成功应用。为改善聚类分析算法的性能,本文对基于计算智能的聚类组合方法进行了较为系统的研究,提出了基于多蚁群聚类组合以及基于自适应谐振理论(ART)聚类组合两种新算法;并分析了聚类性能评价方法,提出基于有效性指数的蚁群聚类算法,它在评价性能的同时求得最佳聚类数目,并且减少孤立点。实验结果表明,本文提出的一系列有关聚类组合的新思想和新方法都取得了良好的效果,并对文档聚类有一定的指导意义。归纳起来,本文的研究工作和创新内容主要表现在以下几个方面:(1)改进用于聚类分析的传统蚁群算法。蚁群聚类算法首先将数据对象随机地投影到一个平面,然后每个蚂蚁随机地选择一个数据对象,根据该对象在局部邻域的相似性而得到的概率,决定蚂蚁是否“拾起”、“移动”或“放下”该对象,最后数据对象按其相似性而聚集。本文将蚂蚁运动速度由单一常数设计成几种不同类型,使之更加符合蚂蚁运动规律;采用Sigmoid函数作为概率转换函数,运算中只需调整一个参数,收敛速度更快;针对孤立点,通过参数的分时调整加快算法收敛。(2)提出蚁群聚类与蚁群优化结合的新算法。蚁群优化算法是模拟蚁群觅食的群体行为而提出的。如果把聚类中心看作是蚂蚁所要寻找的食物源,则数据聚类过程就看作是蚂蚁寻求最短路径过程。依据这一思想,本文提出基于蚁群聚类与蚁群优化结合的聚类算法,它先由改进的单蚁群聚类算法进行聚类,生成聚类中心,再由基于蚁群转移概率的K-means算法进行二次优化。两种蚁群算法巧妙结合,可以改善聚类性能。(3)提出基于聚类有效性指数的蚁群聚类算法,该算法能求得最佳聚类数目,同时减少孤立点。聚类分析是一种无监督的学习,没有关于分类的先验知识,因此对它们的性能进行评价非常困难。常用的评价方法分为:外部评价法、内部评价法和相对评价法。外部评价法基于预先指定的结构,如F-measure法。内部评价法利用数据的固有性质进行评价。相对评价法用于评价相同算法的参数设置不同时的结果,主要有聚类密集性、聚类邻近性等指标。本文用基于外部评价法的F-measure和相对评价法的有效性指数评价聚类性能,同时利用基于多代表点的评价指数自动求得最佳聚类数目,并减少孤立点,克服大多数聚类算法需要事先输入聚类数目的难题。(4)提出基于超图的蚁群聚类组合算法和多蚁群并行聚类组合算法。聚类组合的思想借鉴于分类组合,其目的是从多个聚类结果中找到一个最佳的共识聚类。这是一个具有挑战性的工作,已被证明是一个NP完全型难题。一方面,聚类的模式是未标记的,由不同聚类算法得到的标记之间无明显的联系;另一方面,各种划分可能含有不同的聚类个数,这就涉及到标记对应问题。本文提出两种基于蚁群的聚类组合新算法:一种是考虑运动速度类型各异的多个蚁群,独立进行聚类分析,然后组合其聚类结果为超图,再用蚁群算法对超图进行二次划分。另一种考虑多蚁群和蚁王并行模型。两种算法均能明显改善聚类质量,且能处理文档数据集。(5)借鉴神经网络组合思想,提出基于自适应谐振理论的聚类组合算法。自适应谐振理论是一种能自组织地产生对环境识别编码的神经网络理论模型,是无教师的学习网络。本文提出一种基于自适应谐振理论的聚类组合方法,由任意聚类算法如蚁群算法得到的初步聚类结果,作为ART神经网络的输入,用ART模型进行学习,即可得到最终的目标聚类,其聚类性能得到提高。(6)建立Web文档主题发现与可视化系统从文档聚类结果中发现主题是一项极具挑战性的工作,本文采用在簇中重新计算词条权值,从而进行主题发现的方法。并以本文提出的各种聚类新算法为基础,开发出集Web文档下载、预处理、聚类分析、主题发现与聚类结果可视化为一体的实际应用系统。
其他文献
<正>儒家学说自西汉被尊为中国的文化正统,甚至成为东亚地区文化之表征:孔子也被后世尊为圣人。吴宓颂之为:其前数千年之文化,赖孔子而传;其后数千年之文化,赖孔子而创。向来
随着社会经济的不断发展和医疗体制改革的逐步推进,城镇弱势人群医疗保障问题凸显。探讨新时期城镇弱势群体医疗保障问题,对保障弱势人群的利益及构建和谐社会具有重大的现实意
十八届三中全会正式提出完善金融市场结构,允许具备条件的民间资本依法发起设立中小型银行等金融机构。截至2015年5月,祖国大陆已有5家民营银行获准成立。大陆发展民营银行从
作为计算机动画的主要手段,渐变(morphing或metamorphosis)技术近年来成为研究热点。渐变技术除应用于计算机动画外,在工业造型设计、虚拟现实、科学计算可视化、电影特技制
信息技术的飞速发展改变了和改变着我们的生活方式,我们的生活理念,冲击着社会的各个领域,许多领域和行业已经发生和正在发生巨大的变革,这是一个信息的时代。在当今信息社会
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
本文围绕手写体汉字识别研究的难点,从结构识别方法、统计识别方法以及神经网络识别方法三个方面对手写体汉字识别进行了综合的研究,主要工作包括:1、手写体汉字样本库的收集
随着我国经济不断发展,城市的建设用地储量明显不足,与农村的闲置土地形成了鲜明的对比。阜平县作为国家扶贫攻坚试点县,备受国家政府的重视,国土资源部在2015年《支持乌蒙山
用氢气和氧气这两种构成水的物质燃烧,取得无尽的能源,这是人类很久以来的梦想.今天,这种清洁、高效的氢能,正逐步发展成为应用广泛的全新能源,被用于制造氢能冰箱、氢能空调