论文部分内容阅读
随着互联网行业的蓬勃发展,一个平台能够始终保持对用户的吸引力并为之提供优质的网络服务质量成为对各个大互联网厂商的首要任务。推荐服务由于其可以帮助用户从大量的数据中挑选满足用户需求的数据信息,因此可以说是能够增强用户体验、并提升平台对用户黏性最重要的工具之一。早期的推荐系统是通过分析评分矩阵,利用用户与项目的隐特征表示进行推荐,由于其考虑因素片面,同时获取的数据信息常常过于稀疏,导致推荐的结果往往无法达到理想的效果。因此后续很多研究考虑在以往经典的模型中增加辅助信息以提高推荐结果。在真实的推荐系统中,用户与项目的交互动作(包括购买、收藏、评分),及用户与项目的属性信息的集合,可以看作是由不同含义的边及节点构成的网络,即异质信息网络。异质信息网络由于其可以表达复杂信息,在推荐系统中可以捕捉更加精准的特征表示,因此在推荐领域中受到越来越多的重视。多数基于异质网络的推荐模型都是先通过预设好的元路径提取节点的特征向量表示,然后对评分矩阵进行拟合实现评分预测。虽然现有的基于异构网络的方法在提升准确度方面已经有了一定的成效取,但大多数方法依然存在以下问题:(1)仅利用单一元路径提取节点信息,面临稀疏数据时无法得到节点的精准表示;(2)融合多条元路径信息时忽视了用户对于不同路径语义的偏好,造成复杂网络中节点表示不够精确;(3)在交互信息量庞大的密集数据集中,融合多条元路径信息容易引入噪声信息,造成节点偏好表示不准确;(4)基于异构网络的推荐容易过多的考虑节点之间偏向结构关联的表示,而忽视对包含具体语义的标签相似度信息。为了达到在海量数据构成的多关系网络中引入全面的结构信息进行精准推荐的目标,针对以上4个问题,本文完成了如下工作:1.针对问题(1)、(2)本文提出了融合元路径网络表示学习的推荐算法(A recommendation algorithm for representation learning based on meta path network),简称ME-Rec。我们发现用户对项目的评分偏好与元路径的隐特征表示有很强的关联,因此先利用随机游走策略获取基于不同元路径的节点序列,针对不同路径利用metapath2vec++算法学习用户与项目在统一维度空间的隐向量表示,然后基于注意力机制利用多层感知机MLP学习节点对于不同元路径的偏好权重,并计算出全局表示向量,最后结合矩阵因子分解的推荐模型,利用路径结构Hetesim相似度对评分矩阵分解出的隐因子向量进行约束,对项目评分进行预测。通过在两个被广泛使用的不同密度真实数据集Movielens和Amazons进行参数分析与对比实验,得到模型在不同密度数据集上性能最优时的参数设置,在对比实验中验证了该模型较传统矩阵分解和基于异质网络的推荐算法都有一定的提升,尤其是可以提高数据稀疏时的是预测精度。2.为了进一步解决在交互密度大的数据集中,融合多条元路径的推荐容易引入过多噪声的问题,也就是针对问题(3)、(4)本文提出了一个在多关系网络中融合网络重叠社区与标签相似度的推荐算法(A recommendation algorithm combining overlapping community partition and label similarity),简称CPLS-Rec。我们通过社团划分领域中的种子扩张与社区标签传递概念,对异质信息网络中的用户、项目节点分别进行聚类,根据网络结构信息划分重叠社区,同时引入标签相似度作为社交正则化约束,结合经典矩阵分解模型进行协同过滤推荐。我们发现该方法可以有效地根据用户的社会关系与拓扑结构挖掘出用户的社团归属,不仅降低了大规模数据集时的计算复杂度,还可以提高当用户项目交互信息稀疏时对用户偏好提取的准确度。通过在两个被广泛应用于融合社交网络的不同密度真实数据集Douban Movies和Yelp上进行了参数分析实验,得到模型在不同比例训练集下使性能达到最优时的参数设置,然后与其他同类型算法进行对比实验,证明该模型较经典基于社交网络的算法和基于异构网络的推荐算法都可以有较为优异的表现,可以提升对项目评分的准确度,尤其是在信息密度大的推荐环境中可以避免噪声数据带来的影响。