谱聚类中特征向量的选取与集成算法

来源 :烟台大学 | 被引量 : 0次 | 上传用户:linxi054
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
谱聚类算法能对任意形状的样本空间聚类出较好的结果,近年来在数据挖掘、机器学习等领域得到了广泛关注。选择性集成能降低存储需求,提高预测速度,改善集成学习机的预测效果,由此成为研究热点。本文在谱聚类的背景下采用选择性集成方法,以期达到更好的聚类效果。现有研究表明,谱聚类中前k个最大特征值对应的特征向量不一定使聚类结果达到最好,因此有必要研究特征向量的选取问题;而一组特征向量也未必能充分表达原数据的结构信息,因此需要考虑集成策略。本文采用特征向量组的选择性集成方法来提高谱聚类性能,其中涉及对特征向量的评价、基特征向量组的选取、选择性集成策略等问题。首先,提出了谱聚类中特征向量的Bagging选取方法。利用基于成对约束的特征向量评估函数Constraint Score对训练数据集的特征向量进行评价,选取较好特征向量;然后采用Bagging策略将不同约束下选择的特征向量进行集成,得出较好特征向量的组合;最后对测试数据集进行谱聚类。通过实验证实该算法选取的特征向量对测试数据集可以得出较好的预测结果。其次,提出了谱聚类中特征向量的动态选择性集成方法。对于一个数据集,利用上述的Bagging选取方法,给出较好的基特征向量组来有效区分同类别和不同类别的数据,此时区分能力强的基特征向量组会多次被发现;然后以测试数据在训练数据中的l-最近邻的聚类性能来动态评价每组特征向量,选出少量几个参与投票的特征向量组;对测试数据集的这几个特征向量组数据进行谱聚类,并对结果进行簇配准,给出最终的聚类结果。以上动态选择性集成方法在选择基特征向量组时考虑了特征向量组的区分性和多样性,同时考虑了特征向量组对测试数据的l-最近邻的聚类性能,因此也注意到特征向量组的聚类精度。实验表明,采用该方法能进一步提高测试数据的聚类性能。最后,以实验方法研究了集成学习中准确率和多样性的关系,判断二者之间是否存在某种关联。综上,本文主要研究谱聚类中特征向量的选择与集成方法,通过实验验证了所设计的选取算法与集成策略的有效性。
其他文献
毕业设计是本科教学的重要组成部分,毕业设计管理是教学管理的重要环节,而软件学院由于自身的特点,其毕业设计过程与普通高等学校的毕业设计有很大不同。东北大学软件学院是国家
网络的规模呈几何级数增长,网络中的各种应用也越来越普及,在人们生活中有着不可或缺的地位。与此同时,由于可信网络的自治性、动态性、匿名性,网络中的恶意节点的攻击行为对网络
为适应可持续发展的战略发展目标,能源必须得到有效和充分的利用,电力系统中的无功冲击和谐波作为一种“电网污染”,严重影响了电力系统中各种设备的正常运行,在造成能源浪费
随着网络规模的扩大和异构程度的增加,网络故障管理越来越重要。网络故障诊断作为网络故障管理的核心内容成为当今研究热点。本文对网络管理中的简单网络管理协议SNMP及其与
数据挖掘是在海量的数据中提取隐含的、未知的、潜在有用的知识或信息模式的决策支持方法。聚类与孤立点检测是其中的重要组成部分。算法的两个重要评价标准是算法的可伸缩性
随着网格、普适计算等网络计算形式的出现,现代网络技术使人们的工作方式更多地具有群体性、交互性、分布性和协调性,开放、协作和智能成为计算系统的重要特征。近年来,计算
随着世界大多数国家电子政务的大力推进、人口的频繁流动和政府向服务型政府的加速转型,使得建立一个全国范围内的计划生育综合服务管理系统成为必然,其快捷的服务和科学有效地
随着电子商务的快速发展,网络服务提供商为用户提供不同服务器上运行的各种服务。因此,人们开始广泛使用移动客户端——服务器环境和多服务器环境。另一方面,越来越多的人开始通
随着计算机技术和通信技术的发展,网络拥塞问题和带宽的急剧消耗越发突出。多播通信以其低带宽占用率,高数据传输率得到越来越广泛的应用。与传统的单播相比,多播能够实现单
随着人们认识和管理水平的提高,对客观世界的描述越来越全面,存储的数据量也越来越大。然而,现有数据库系统的开发应用无法适应人们对信息系统的高要求,无法从现有数据资源中