基于近似有效电阻的属性聚类

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:renbinf4
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
给定一个样本点的集合,聚类的一般目的是将它们分配给多个组(称为簇),使得同一组中的点彼此之间比在其他组中的点更相似。“点”可以是一些具有距离概念的实体集合,能够使得任何一对实体之间存在距离。在这种意义上,这样的“点”的例子包括具有适当距离度量的图中的顶点和欧氏空间中的点。当一组点被聚类,例如,a和b为组1中的点,而c和d为组2中的点时,我们希望a比c或d更类似b,而c更类似于d,而不是a或b等。我们有很多理由想要进行这样的操作。考虑一个名为Massive Online Shop的虚拟的在线购物服务。对他们来说,给用户提供一些推荐使得用户能够找到相关商品是非常有益处的。因为当这种情况发生时,他们的用户更有可能购买,从而使得卖家获得更多利润,并且顾客也能够获得更高的满意度。顾客在未来进行购物时就会认为Massive Online Shop是有帮助并且是值得信赖的,因为它有能力提出相关商品的建议。提供商品建议的一种方法便是使用聚类。如果网站上的顾客可以被分成簇,以便同一组中的人有相似的兴趣并且倾向于购买类似的产品,那么,举例来说,Massive Online Shop便可以尝试向购物者推荐某个商品,因为她所在的簇中的许多购物者购买了这个商品。也就是说,Massive Online Shop推测她也可能想要那个商品。聚类的其他应用可以在图像分割和压缩[4]、社交网络中的社区检测以及并行和分布式算法的设计[25]中找到。在前面的讨论中,我们描述了当所有给出的信息是点和它们之间的连边(或者关系、距离)时的聚类问题。然而,有时数据可以由其不同的方面来表示。例如,视频可以由它的音频部分以及它的图像帧部分来表示;网页可以由它们所包含的文本以及指向这些页面的链接的锚文本来表示,例如[3];节点(通常是人,但可能是动物,如[23]),在社交网络中除了可以由它们之间的直接联系表示(这些联系来自于好友关系、合作关系或其他这样的相互作用),可以由他们的偏好、人口统计和传记数据来表示。在这种情况下,我们说数据有多个视图。我们研究这种类型的数据的子集,称为属性图。当处理图或网络数据时,存在点之间的关系(由链接或边表示),明确地表征相似性或相异性。如果有关于节点的其他信息,从中我们可以推断出未明确表示或实现的关系,我们将该图称为属性图。由于这种数据的大量增长,近来这种聚类范式受到越来越多的关注。当我们试图在这种情况下进行聚类时,涌现出的一些问题包括如何有效地组合视图、如何处理大量数据,以及如何推断不同视图和属性的相对重要性。在这篇论文中,我们对所有这些问题进行了一定程度的探索。利用多个数据视图的一种方法是将所有的数据视图连接在一起,并像单视图情况一样使用表示每个节点的结果向量继续进行聚类[6]。然而,使用这种方法的算法忽略了数据的不同视图之间的复杂关联[32]。此外,他们没有考虑到不同的视图倾向于具有不同的统计特性[32]。其他一些方法使用结构和属性信息的间接组合来构造复合图,从而获得更好聚类结果。在这方面,一些方法(例如[36]和[6])采用了一些在聚类过程中更新图的边上的权重的规则,其他一些方法(例如[14]和[16])在聚类之前通过一些预定义的方法组合视图。这两种方法的缺点是显而易见的。虽然前者更具适应性,但由于边权重被调整以改善聚类结果,使得数据集强制产生聚类,在一些情况下可能会产生偏差。后者也容易错误地估计不同视图的相对重要性,可能导致比其他方式获得的结果更差。然而,寻求解决这个问题的方法往往偏向于第一个策略—因此必须在这两种方法之间进行权衡。多视图聚类采用的方法多种多样。因此,对于多视图聚类,现有算法可以分为不同的类别,这些分类原则都有一定的意义。Xu等[32]基于使用一致性原则的方法和使用互补性原则的方法来对这些算法进行分类。一致性原则基于这样一种观点,即数据的不同视图表示图中的相同隐层结构,并且在每个视图中存在的信息存在于其他视图中。因此,在基于这一原理的算法中,目标是最小化数据的不同视图之间的不一致。另一方面,互补原理是基于这样一种想法,即数据的不同视图可能包含未被数据的其他视图捕获的信息。因此,基于这一原理的算法的目标是通过提供视图中没有的信息来改进聚类。然而,我们注意到,大多数多视点聚类算法模糊了这两个原则之间的界限。这些算法通常试图对来自多个视图的数据进行聚类,以便得到比单视图聚类更好的效果,因为其他视图提供了附加信息。这是在保持每个节点的特征之间的同质性下完成的。多视图聚类算法,如在[6]中提出的鲁棒多视图k均值聚类(RMKMC)和后续提出的改进算法[33]在不同视图上学习权重,在聚类过程中增量地调整权重。这是为了说明一些视图可以更准确地表示我们想要发现的图的隐层结构。除了视图对聚类具有不同的重要性,视图内的各种属性也往往对当前的聚类问题具有不同的相关性。因此,可以通过属性筛选来筛选出较少相关的属性或相应地减少它们的贡献来获得更好的聚类。在这方面,克鲁兹等人[9]使用自组织映射[19]来决定哪些属性对于集群是重要的。在用Louvain方法[5]进行聚类之前,他们将同一簇(自组织映射)中的节点中的边缘的权重调整成一定的常数。Cai等[6]指出了k均值聚类算法的效率,并将其推广到多视图聚类问题。他们提出了一种称为鲁棒多视图k均值聚类(RMKMC)方法,适合大规模数据。他们的方法的创新是在算法优化中实现了类似于单视图k均值方法的计算复杂度。虽然该方法能够选择对集群应用程序很重要的视图,但它并不适合于数据维度高的情况下[33]。这是因为所有视图中的所有特征都假定为相关的。在这个前提下,[33]提出了一种替代的多视图k均值聚类算法,该算法引入了强制特征选择的参数。该算法以增加模型复杂度为代价,在聚类过程中过滤掉冗余特征或属性,从而产生更好的结果。其他作者(如[8]和[30])提出了使用加权参数α组合两个距离函数的方法。这样的方法的一个例子是[8]:d(i,j)= α · ds(i,j)+(1-α)· dA(i,j)其中i和j是两个节点,ds(i,j)是结构距离,而dA(i,j)是它们之间的属性距离。也有使用随机游走合并结构和属性信息的方法。这种方法的一个例子是SA-Cluster算法[36]。它通过为每个属性值对引入新的节点来生成增强图。例如,如果属性affiliation具有三个值faculty,student,和other,则将创建三个新节点,每个值分别为一个节点。所有具有相同属性值的节点都连接到表示该值的节点上。这样,共享一个属性的相同值的节点变得距离更近。[36]然后利用节点的邻域上的随机游走在新的图上获得距离度量。通过调整不同属性边(包括原始结构边)的不同权重,其算法控制了不同属性在聚类中的贡献。谱方法尽管比较简单,但在单视图聚类问题中的巨大影响力也使得其被应用于多视图聚类问题。例如,在假设数据的不同视图中的聚类应该一致的情况下,de Sa提出了一种算法,该算法通过对数据的每个视图形成图并连接相应视图来形成二分图,然后对组合二分图进行谱聚类[10]。我们提出了两种结合图的结构和属性信息的方法,并将它们与余弦相似性进行比较,这是一种广泛使用的相似性度量,用于将节点的属性值转换成节点对之间的相似性。这两种方法,平方余弦相似性和频率归一化属性相似度(在实验中也称为方法2和方法3),试图解释在真实图形数据中观察到的一些特性。频率归一化属性相似度确定了共享属性的相对重要性。其采用的思想是通过对稀有属性进行更多的加权,而对常见属性进行更少的加权。而平方余弦相似度放大了较大相似度的贡献,从而相应减少较弱连接对聚类的贡献。我们将这些方法与该任务广泛使用的余弦相似性进行了比较,并讨论了方法的相对优势和弱点。我们还把一种近似谱聚类算法从单视图聚类问题拓展到多视图聚类问题。使用[28]和[17]的结果,我们展示了如何将新的复合图嵌入到低维空间中。当一个节点被视为电阻网络时,一对节点之间的距离是它们之间的近似有效电阻。该算法的优点是能够处理比传统谱算法更大的图,而传统方法没有对数据进行采样以减小其数据大小或近似求解特征向量。为了在图中找到两个节点之间的有效电阻,我们将图看作是一个电阻网络,其中每个边具有与其重量的倒数相等的电阻。这意味着边的权重越大,其阻力越小,反之亦然。这就体现了具有较大权重的边比具有较小权重的边具有更强的相似性。两个节点之间的有效电阻定义了它们之间的距离[18]。这个距离的一个特性是,随着两个顶点之间的替代路径的数目增加,它会随之减小。例如,如果从节点a到节点b有三条路径,并且最短路径在它们之间通过,但是还有另外两条路径经过两组不同的顶点,那么a到b之间的测地线距离是1。然而有一种情况,其中a和b比另一对顶点更近,例如c和d,它们之间只有一条直接链边。换言之,即使在a和b之间的测地线距离与c和d之间相同,但是将a和b断比将c和d断开更困难。所以实现一个更好距离度量是有必要的,它能够通过实现a和b之间的距离小于c和d之间的距离来达到这个目的。有效电阻放在在给出节点之间的距离时考虑了两个顶点之间的可能的替代路径的影响。这是该度量的一个重要性质,它与图上的随机游走的关系已经被证明(例如在[12]中),并且是近似算法和基于k-medoids的方法的嵌入思想的核心。我们将近似算法的结果与来自Ng Jordan和Weiss[26]的频谱k均值算法的结果进行比较,并观察结果是否更好。特别地,在具有几千个节点的图中,使用相对较少的随机向量(小于顶点数的2%)来表示图,我们能够获得与基准算法实现的聚类效果近似的结果。最后,我们提出了一种基于k-medoids的算法,该算法使用一个距离度量将图的不同视图上的不同距离集成到一个距离度量中,然后使用该距离度量进行聚类。在结构视图中,我们使用有效电阻,而在属性视图中,我们使用平方余弦相似性或频率归一化属性相似度。然后,我们使用加权方案来重新加权两个视图的相似性,该加权方案考虑了在不同视图上获得的相似性的大小的差异实验结果表明,该方法对聚类有数百个节点小数据集是有效的。
其他文献
幼儿图书配套的动画、游戏、增强现实应用等电子资源以图文并茂、形声并举的多媒体优势提升了纸质书本的表现力和感染力。然而,当前纸质图书与电子资源之间普遍缺乏自动化关
2017年10月18日,习近平同志在十九大报告中指出中国特色社会主义进入新时代,这是对中国历史方位的新定位。今日的中国,在经过全党及全中国亿万人民的砥砺奋斗下发生了翻天覆地的变化。人民告别了过去,创造了从“一穷二白”到世界第二大经济体的“中国奇迹”。“建设生态文明,是关系人民福祉、关乎民族未来的长远大计。”自党的十八大首次提出美丽中国这一概念以来,中国共产党坚持将生态文明建设置于突出的位置,以前所
密切联系群众、紧紧依靠群众是中国共产党最大的政治优势,也是我党一以贯之的优良传统。在陇东革命根据地,中共因地制宜采取了一系列措施,开展了许多卓有成效的党群关系建设活动。而事实证明,中共在陇东所实施的各种党群关系建设举措是非常成功的,它不仅使我党赢得了广大工农群众的拥戴,使革命根据地的党群关系日益密切,也使党的各项革命活动得以顺利开展,为新民主主义革命的胜利奠定了坚实的群众基础。追根溯源,通过对陇东
目前,在国内山地观光旅游中,齿轨铁路是大力推广的交通运输方式。齿轨铁路具有爬坡大、适应性好等优势,但在线路设计时要充分考虑沿途的地质环境及生态环境的保护。本文通过在无人机低空遥感影像上构建齿轨的三维线路模型,寻求一种简洁高效的设计手段,减少线路初测与定测的外业工作量,让设计师在设计线路时直观感知线路建成后的效果图,以便做出相应调整,也可为未来贡嘎山海螺沟山地度假旅游线的建设提供设计方向。本文中的主
"现在大家已经习惯在受监督的环境中工作,认识到监督是对我们的严管,更是对我们的保护。"回忆起今年疫情期间重点募捐活动全程受监督的情况,山东省德州市慈善总会副会长、办
随着大数据时代的来临,云存储已被更加广泛的应用。相比于本地存储,云存储具有灵活性,可扩展性和易管理的特点,且可以保障用户在不同设备间共享数据。然而,云存储为用户带来
滚动轴承作为旋转机械的关键零部件在机械设备中广泛应用,滚动轴承的健康状态监测也至关重要。针对基于深度学习方法的故障诊断的局限性,即训练和测试数据必须来自相似的概率分布。本文通过引入迁移学习方法,实现深度学习模型利用源域的轴承健康状态数据进行训练,然后将模型迁移应用于相对独立的目标域轴承数据的故障诊断中。具体内容如下:(1)结合轴承故障实验,从故障机理的角度出发,分析轴承结构特性和失效形式,并通过频
青少年时期是个体逐渐独立走向社会的过渡阶段,这一时期发展的好坏决定着其青年及成年期是否能顺利适应社会。社会支持是研究社会适应和心理健康问题的关键因素之一,是影响个体行为的外部系统。心理韧性作为积极心理学研究的热点被证实与社会适应存在密切关系,心理韧性是个体的内部系统。社会支持作为心理韧性重要的外部保护性因子能够促使个体自信、乐观和坚韧,有利于促进个体心理韧性的培养。社会支持和心理韧性是研究青少年社
工业控制领域所涉及的受控对象通常是多输入、多输出、有约束高维复杂系统,因而往往难以建立精确数学模型。在诸多先进控制理论中,模型预测控制(Model Predictive Control,MPC)方法在处理多输入输出、有约束等类型特点的复杂大系统控制问题时具有诸多优势,因此已被广泛应用于交通、机器人、飞行器等高新控制领域中。模型预测控制需要在每个采样时刻反复在线求解优化问题。因此,如何在计算能力有限
移动社交媒体在人们生活中扮演着越来越重要的角色,带给人们社交、信息、娱乐等众多丰富的享受与满足。然而随着人们与社交媒体长时间、高频率的接触,社交媒体的强迫性使用现象也愈来愈严重,给人们的工作、学习以及身心健康都带来严重的消极影响。鉴于社交媒体强迫性使用现象的普遍性及严重性,研究该现象背后的原因变得尤为必要与紧迫,有助于帮助用户理解行为产生的根源,从而能从根源上有效抑制强迫性使用的产生。本文结合使用