基于局部密度的谱聚类算法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:wanghuaifei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是数据挖掘中的一个重要分支,因为其能够在无监督情况下从大量数据中发掘出有用的知识而引起学者们广泛的关注,产生了大量理论和方法。谱聚类作为聚类算法的一种,将对数据集的划分转换为对图的划分,由于将样本数据映射到拉普拉斯矩阵特征向量来进行聚类,算法能够识别出任意形状的样本数据构成的簇。传统谱聚类算法采用的是图割目标函数,即使少量的噪声点都可能会极大地影响聚类效果。谱平均密度聚类算法采用最大平均结点度之和作为目标函数对所有簇进行优化,减少了噪声点对聚类结果影响,且效果稳定,算法保持了传统谱聚类算法的优势,同时弥补了它的不足。本文的主要研究工作包括:1.针对共享近邻方法需要设置近邻参数N的问题,本文提出一种动态共享近邻方法,以动态确定近邻参数N。该方法借鉴h-index的设计思路,采用倒置的经验分布函数与上升曲线的交点来动态确定近邻参数N,避免了人工选取参数的盲目性,能够动态确定近邻参数N。2.针对谱平均密度聚类算法存在对参数ε较为敏感的问题,本文提出一种基于动态共享近邻的谱平均密度聚类算法。首先,根据高斯核函数设计一种自适应距离测量,自适应距离测量由于考虑了数据点周围的稀疏程度,所以能够处理不同密度的簇。然后,将这种自适应距离与动态共享近邻方法构建一种基于动态共享近邻的相似性度量,这种相似性度量充分考虑了数据点周围的局部密度。最后,将完全连接图取代谱平均密度聚类算法的ε近邻连接图,采用基于动态共享近邻的相似性度量计算完全连接图的权值,避免了参数ε的设置。3.针对簇数目的选取会对聚类结果造成的影响的问题,本文提出采用本征间隙方法来改进谱平均密度聚类算法。根据矩阵扰动理论从三种情况出发分析了扰动对特征值造成的影响以及相似性度量和扰动的关系,通过以上分析发现,本文所提出的基于动态共享近邻的相似性度量能够有效减小扰动,非常适合采用本征间隙方法来确定簇数目。
其他文献
<正>在第五次全国金融工作会议上,习近平总书记指出,做好金融工作必须遵循回归本源的重要原则,要服从服务于经济社会发展。何谓金融业的本源,近年来金融业的发展是否某种程度
为降低患者术中压疮发生率,通过品管圈活动调查患者术中发生压疮的危险因素,通过要因分析、采取对策、改进流程形成预防患者术中压疮的流程,同时护理人员的综合素质也得到提
面对国家能源安全和煤炭和水资源在地势上呈逆向分布的现状,中国既要大力发展煤化工产业,又要解决煤转化工业因巨大耗水量而带来的严峻挑战,煤化工废水的“零液排放”俨然成
生物炭在提高土壤肥力、提高土壤的pH和保护土壤生态安全等方面具有重要的研究意义。为考察了生物炭对土壤环境的安全性,本论文以污泥、莲杆和花生壳为原料,在450℃、550℃、650℃以及750℃温度下制备生物炭,实验选取天津西青区独流减河旁的农田土壤为研究对象,按照不同浓度比例(0%、2%、4%、6%、10%和20%)添加到土壤中,系统研究了其对土壤的理化性质、微生物种类、种子发芽以及对土壤生态安全性
<正>2006年10月国务院发布《关于积极稳妥降低企业杠杆率的意见》及其附件《关于市场化银行债权转股权的指导意见》,标志着本轮市场化债转股的启动,继东北特殊钢集团有限责任
本文介绍了无障碍人工现实技术和虚拟人与虚拟环境相互感知、认知的发展趋势。提出了相关的技术基础和初始阶段的研究内容,最后给出了探索性研究举例。
<正>一、引论:何谓蒙古族电影概念的界定是任何研究的前提和基础,只有研究对象明确,研究范围清晰,才能保证研究结果的真实可信。在开始讨论蒙古族电影的文化与艺术问题之前,
会议
目的在2015年发布的《北京中医药文化传播发展报告(2015)》蓝皮书中,明确显示了一个现状:中医“治未病”严重缺乏上工。到目前为止,各级医院组建“治未病”中心或“治未病”科时,依然存在不少仓促上马、带有一定迎合性的组建方式等问题,在“治未病”专业人才的整合上捉襟见肘。中医“治未病”专业人才的缺乏,归根结底在于“治未病”理论在传承的过程中由于战乱、迁徙等原因逐渐丧失模糊。本文通过论文整理、总结、归
基于泰尔指数和GIS地图分析技术,对陕西区域经济和区域金融空间结构变化做对比分析。结果表明:陕西金融发展对经济增长的促进作用仍处于较低水平,存在很大的提升空间;地域间
目的:观察整脊手法配合中药独活寄生汤治疗胸椎相关性疾病的临床疗效。方法:将386例胸椎相关性疾病病人随机分为治疗组与对照组,每组193例,治疗组施以理筋与膝顶复位手法,并