论文部分内容阅读
一方面,随着互联网上数据和信息的迅速增长,人们被淹没在数据的海洋里。如何从这些海量的数据中获取人们想要的信息,成为当今数据挖掘和机器学习面临的主要任务。由于大数据的4V特征(Volume、Variety、Value、Velocity),使得如何对这些海量的数据进行降维处理成为人们关心的主要问题之一。非负矩阵分解由于其能发现数据内在的维度和结构、具有较好的可解释性、可以直接对数据进行聚类分析等优点,受到了人们的广泛关注。另一方面,现实世界的诸多系统都可以表示为复杂网络的形式,而从复杂网络中发现连接紧密的社区结构(即对节点进行聚类分析)具有重要的意义。近年来,复杂网络社区检测引起了人们极大的兴趣,随着复杂网络社区检测方法研究的深入,涌现出许多基于非负矩阵分解方法的社区发现模型,并取得了一些鼓舞人心的结果。但基于非负矩阵分解的社区发现模型仍然存在以下问题:(1)非负矩阵分解模型本身对初值敏感,面对网络社区检测问题需要考虑网络自身结构特性设计有效的初值选择策略。(2)现有的用于网络社区检测的非负矩阵分解模型的有效性还有待进一步提高,已有模型没有考虑对分解出的基向量进行正交约束,以增强分解结果的稀疏性。(3)现有的基于网络社区检测的非负矩阵分解方法没有考虑节点自身的特性,如当网络表示视频之间的共观看关系时,节点上的属性即是视频的标题短文本,需要研究基于非负矩阵分解的社会媒体短文本聚类及网络和节点属性相结合的非负矩阵分解方法。针对以上问题,本论文的贡献如下:(1)提出了一种新的矩阵分解初始化方法(CALS),该方法使用Pagerank方法对原始矩阵进行排序,考虑节点的重要性和节点间的距离双重因素选取k(社区个数)个初始值对基矩阵进行初始化。然后,使用最小二乘方法求解出隶属度矩阵。在人工和真实数据集上的实验结果表明:CALS不仅可以提高算法的稳定性,而且提高了非负矩阵分解方法用于社区检测的精度。(2)提出了一种基于正交约束的非负矩阵分解模型(ALSOC),正交约束的引入实现了分解的低秩性、稀疏性。基于最小二乘的方法的迭代求解方法在真实数据集和人工合成数据集上的都表现出较好的性能。相关实验结果证明了:ALSOC方法不仅可以保证结果的稀疏性,还可以提高算法的准确性。(3)本文初步尝试了非负矩阵分解方法在短文本聚类上的效果,并将非负矩阵分解方法用于优酷UGC(User Generated Content)数据的搜索结果聚类。在优酷内部搭建一个视频主题分析原型系统,以便对搜索结果进行二次整理,提高搜索结果的多样性并为用户提供多层次的选择。