论文部分内容阅读
信息网络的迅速发展,使得用户数据日渐增多,基于网络数据进行用户画像构建研究,对精准推荐等个性化服务研究领域具有重要意义。针对现有群体画像构建方法多基于用户在网络上发表的文本内容,较少考虑网络结构信息所造成的用户建模精度低、网络群体相似性和紧密性差的问题,提出了一种融合网络结构和文本内容的群体画像构建方法。首先,采用LINE模型的一阶邻近度和二阶邻近度建模局部和全局网络结构,通过目标函数优化合并局部和全局结构建模向量;借助注意力机制,在神经网络的隐藏层引入注意力矩阵对文本内容的上下文进行表示,进而实现文本内容建模;融合两种模型并采用卷积神经网络方法训练,将网络用户表示为空间向量。其次,采用密度峰值聚类算法对用户空间向量聚类,通过计算每个用户的局部密度和距离,确定用户类别标签,并利用结构-内容模块度对聚类结果迭代优化,实现网络群体构建。最后,采用LDA主题建模法进行主题划分,得到每个群体的关注话题标签,并利用可视化工具刻画群体画像。采用知乎、Cora和Hep Th三种数据集,进行建模精度和群体构建效果对比实验。本文方法同Deep Walk、LINE、Node2vec、SDNE、TADW六种网络用户建模方法比,precision@k均取得最优值,MAP分别提高0.1、0.12、0.14,AUC平均提高0.02、0.04、0.03。同Louvain、SA-Cluster和基于K-means聚类的三种群体构建方法相比,本文方法的密度值平均增加0.27、0.073、0.05,群体间紧密性较好;同Louvain和SA-Cluster两种基于结构的方法相比,熵值平均减少0.35、0.46,群体间相似性较高。该论文有图23幅,表14个,参考文献57篇。