论文部分内容阅读
大众标注网站的广泛应用使基于标签的推荐算法逐渐成为推荐系统研究领域中的热点。标签数据中含有大量的资源特征信息,同时包含用户对资源的偏好信息,将标签数据应用至推荐系统中有利于缓解用户物品评分矩阵的数据稀疏问题,提高推荐质量。传统的基于标签的推荐算法无法将用户、项目、标签三个元素在三维空间上的相互关系完整地表示,因此张量分解模型被引入基于标签的推荐算法中。现有的基于标签与张量分解方法的推荐算法因标签系统中标签数据的稀疏性难以实现理想的推荐效果。本文将用户间的信任关系与基于标签与张量分解方法的推荐算法相结合,提出一种改进的基于标签信息和用户信任的张量分解推荐算法,较好地缓解了标签推荐系统中的数据矩阵稀疏问题。本文主要工作如下:(1)介绍了本文的研究背景以及课题相关内容的国内外发展现状,并分析了推荐系统中的几种主流的推荐算法,着重介绍了基于标签的推荐算法。(2)介绍了标签共现、二分K-means聚类(Bisecting K-means)、张量分解及用户信任等与本文相关的内容。(3)提出了一种基于标签共现和二分K-means聚类的张量分解模型。该模型利用标签共现深度挖掘标签间的关系,形成标签的特征向量并作为二分K-means聚类算法的输入,得到聚类后的K个标签簇。将得到的标签簇与系统中的用户数据及资源数据构成(用户,资源,标签簇)三元组,进行高阶奇异值分解(HOSVD),得到张量分解数据。基于标签的推荐算法中的数据矩阵往往都十分稀疏,该模型有效的缓解了数据稀疏问题。(4)提出了信任相似度概念,并将其与张量分解结果融合。本文利用用户评分数据计算用户间的全局信任度与局部信任度,利用线性加权方式将二者结合作为用户在推荐系统中的总体信任度,并将信任度与用户的兴趣相似度相结合,形成用户信任相似度。最后将用户信任相似度与基于标签聚类和张量分解的标签算法相融合,形成基于标签信息和用户信任的张量分解推荐算法。(5)利用Movie Lens网站中的数据集对本文所提出的算法与其他几种基于标签与张量分解方法的推荐算法进行对比。实验结果表明,相比于传统的基于标签与张量分解方法的推荐算法,本文所提出的将信任信息、标签聚类与张量分解算法相结合的推荐算法在基于标签的推荐算法中的具有更好的推荐效果。