【摘 要】
:
随着信息技术日新月异的发展,数据的规模和维度都在不断增长,数据呈现出高维特性。聚类是数据分析最常用的一种手段,但是由于高维数据中存在大量无关属性、分布稀疏和计算复杂等原因,K-means等传统的聚类算法在高维数据上表现不理想。针对高维数据的聚类问题,子空间聚类算法是一种直观的解决方案,即将高维特征空间转化到低维特征空间进行聚类,可以用主成分分析(PCA)、稀疏子空间聚类算法(SSC)和低秩表示算法
论文部分内容阅读
随着信息技术日新月异的发展,数据的规模和维度都在不断增长,数据呈现出高维特性。聚类是数据分析最常用的一种手段,但是由于高维数据中存在大量无关属性、分布稀疏和计算复杂等原因,K-means等传统的聚类算法在高维数据上表现不理想。针对高维数据的聚类问题,子空间聚类算法是一种直观的解决方案,即将高维特征空间转化到低维特征空间进行聚类,可以用主成分分析(PCA)、稀疏子空间聚类算法(SSC)和低秩表示算法(LRR)等方法来实现。虽然这些子空间聚类也取得了不俗的效果,但是这些通过浅层模型学习的数据表示可能无法捕捉高维数据的复杂的潜在结构;其次需要整个数据作为字典来学习特征,难以处理大规模据集。深度学习由于其出色的特征学习能力和快速推理能力,被认为是解决这些问题的有效手段。针对上述的问题,本文研究了子空间聚类算法和自编码器,提出基于局部结构保留的级联子空间聚类算法(Improved Cascade Subspace Clustering Based on Local Structure Preservation ICSC)。ICSC算法通过最小化样本点在两种距离度量空间下分布的差异微调特征空间,为特征学习需要整个数据集作为字典的问题提供了一种研究思路;此外,ICSC利用解码器使得特征数据和原始数据保持了局部结构的一致性,能够捕捉高维数据的潜在结构。本文对ICSC算法进行相关实验,对其中一些参数进行了评估,找到一个使该算法性能最优的参数;最后将ICSC同其他聚类算法在多个数据集上进行了对比实验,并采用三种常用的聚类评价指标进行实验结果分析,结果表明了ICSC算法的有效性和优越性。
其他文献
为了能够更好的培育学生的生活情感体验,加强教师与学生之间的课堂互动,激发学生参与学习的乐趣,文章围绕制定明确的课堂体验活动目标、丰富小学品德课堂体验活动形式两大主题探
在互联网应用的传播和信息技术日益变革深入的今天,电子商务更是蓬勃地发展。厨柜行业的发展也是如此,在这类企业中,一个良好的销售订单管理系统可以帮助企业实现市场的精准
依据均匀加宽四能级结构速率方程组和光功率传输方程组,数值模拟了1520~1620nm波段范围内碲基掺铒光纤放大器(EDTFA)增益谱特性,以及EDTFA增益谱特性与输入信号光功率的关系.
当前,颗粒型产品已经成为饮品行业的发展方向。无论是可口可乐的“美汁源”,蒙牛的“真果粒”,还是伊利的“谷粒多”,都以饮中有“料”为基础,倡导“健康、自然”的时尚生活方式,受
研究了添加MgO的Ba0.6Sr0.4TiO3(BSTO)可调谐微波器件用铁电陶瓷材料的结构和低频下的介电性能.结果发现:随着MgO添加量的增加,BSTO材料的相对介电常数大幅度下降,材料的密度
陕南地区具有“两山夹一川”的独特地形地貌特征,同时又以移民为主形成了东西交融、南北互通的多元地域文化,这些地域文化在一定程度上影响着传统乡村聚落的选址。在地域文化回归和传统村落保护的趋势下,如何使得近几年陕南移民搬迁聚落选址营建中传承地域文化成为本文要解决的问题。基于上述背景,本文以陕南地区传统乡村聚落为研究对象,挖掘陕南多元地域文化,着重研究其多种地形条件下的选址类型及特征,并解析选址与地域文化
PMF级联模型是进行PMD研究广泛采用的模型.从PMD矢量在Stokes空间的运动入手,推导出了PMF级联模型的DGD的统计分布并给出了整体特性与局部特性之间的关系,所得结果用JME法验
采用快冻法测定了普通混凝土在新疆、青海、内蒙古和西藏盐湖卤水环境中的抗卤水冻蚀性, 提出了混凝土在盐湖卤水的物理化学腐蚀和冻融循环双重因素作用下的冻融破坏机理, 定