基于自表达的子空间聚类算法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:w53839250
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析作为数据挖掘领域的重要分析工具而得到广泛的应用。随着应用场景的不断变化,特别是进入“大数据”时代,数据的高维性变得越来越普遍。由于高维数据包含大量无关属性,传统基于原始特征空间的聚类方法变得不再适用,因此子空间聚类算法应运而生。近年来出现的一种基于自表达的子空间聚类算法,由于其高效的聚类性能而成为新的研究热点。本文在研究了自表达子空间聚类算法的基本原理与方法的基础上,进一步分析现有算法的优势与不足,提出了相应改进方法。论文的主要工作如下:最小二乘子空间聚类是自表达子空间聚类中的经典算法之一,由于算法在求解时,将所有数据点同等对待,没有考虑数据之间的相关信息,导致求解的表示系数存在类间过于稠密、不够稀疏的缺点。针对该问题,本文提出基于空间约束加权的最小二乘子空间聚类算法,即将空间约束信息引入到原始最小二乘子空间聚类求解的目标函数中,对含表示系数的正则项进行加权重构,使得表示系数在加强类内数据点联系的同时,减弱类间数据点的联系。通过与当前流行算法的对比实验,验证了本文所提算法的有效性。此外,当前对于自表达子空间聚类算法的改进大多是针对系数矩阵的,而对于相似矩阵的研究尚存在不足。自表达子空间聚类是一种基于谱聚类的算法,而相似矩阵作为谱聚类算法的核心直接影响着聚类的结果。基于此,本文研究了相似矩阵的构造方法对于聚类性能的影响。本文首先系统总结和比较了当前主要的相似矩阵构造方式,然后分别从两个不同的角度对相似矩阵的构造方式提出改进的方法:其一是从建立方式上,针对基于全局法构建的相似矩阵容易引入噪声的问题,提出基于局部法的建立方式;其二是从聚类集成的角度,针对单一构造的相似矩阵聚类效果不够好,提出一种基于系数矩阵集成的相似矩阵构造方法。最后,在大量数据集上的实验表明了本文所提改进方法的有效性,同时,分析了算法稳定性、参数设置等问题。
其他文献
公开课是一种教学组织形式,其本质仍然是一种普通课,只是以开放课堂形式呈现.有效公开课的功能有二:一是公开课的内在本质功能,即作为特殊形式普通课的教学功能;二是公开课的外
波浪荷载作用下饱和砂质海床液化是影响海床及海洋构筑物稳定性的重要原因。然而当前针对波浪作用下饱和砂质海床液化过程的研究大量集中在液化前,且仅仅根据现场观测或试验
研究服装需求,弄清人们的服务心理,以设计制造符合人们需求的服装,是激活服装市场,扩大内需的重要方面,也是应对国内市场国际化发展趋势,在全球化的服装市场竞争中生存和发展的一个
曲轴是内燃机中用来传递动力和承受冲击载荷的关键部件,通过曲轴和连杆连接,把活塞的往复运动转化为曲轴的旋转运动,从而输出发动机的功率,整个机械系统的驱动力都依靠曲轴的
目前,中国农村基础设施薄弱,与城市相比存在巨大差距。只有抓住农村基础设施这个最薄弱和关键的环节,才能为加快发展农村生产力提供坚实物质基础,才能确保新农村建设稳步向前推进
伴随着湍流环境下光信息传输和检测技术应用需求的激增,研究人员对采用特殊激光束的结构抵抗湍流干扰的研究也越发深入和完善。在光信息传输和检测技术中最常遇到的湍流介质
近年来,随着非正常信访现象的突出,涉诉信访开始成为诉讼程序的副产品,不仅损害了法院和审判人员形象,也影响了司法审判的正常秩序,阻碍了我国社会主义法治化进程。为妥善解
传感器在发动机的控制系统中举足轻重,并且在飞机的整个运行过程中发动机的工况变化非常大,这期间难免会有故障发生,相对其他零部件而言,传感器较容易发生故障。为了减少发动机飞行事故,同时指导飞机的维修工作,则必须提高航空发动机的传感器故障诊断能力,为了提高控制系统的容错能力保证飞行安全则需要对故障的传感器进行信号重构。由于本文主要是以实验台DGEN380的实验数据为基础进行的研究,而神经网络方法具有数据
期权定价问题一直是金融领域研究的热点。幂型期权作为一种新式期权其收益结构与传统期权不同,与传统期权相比,幂型期权的价值对标的资产价格的变化更为敏感,放大了期权风险
语文教师的专业化发展是一种动态发展的过程。对教师来说,接受新的教育理念并不难,难的是如何把理念落实在教学实践中。这需要培训者给予切实可行的、具体的实践指导。教师要在