论文部分内容阅读
协同过滤是当前应用最为成功也最为有效的推荐算法之一,对于纯数值化信息的处理,使得此类算法与其他推荐算法相比具备诸多优势。然而互联网上数据量的快速增长也使得协同过滤所面临的挑战尤为严峻,其主要问题包括数据稀疏性问题,冷启动问题,以及延展性问题等等。本文对协同过滤中的数据稀疏性问题进行探讨。近年来,将迁移学习的方法应用于协同过滤从而改进数据稀疏性问题成为了研究热点之一。协同过滤中现有的迁移模型验证了此类方法在改进数据稀疏性上的高效性,然而一些算法本身固有的缺陷限制了其实用性。这些缺陷主要包括辅助域和目标域用户或项目空间的一致性要求、辅助域和目标域中低维特征维度的一致性假设、迁移模型中待调整的参数过多导致算法调试的运算量太大等等。本文主要围绕这些问题展开,工作内容可分成如下两块:(1)针对用户或项目空间,以及低维特征维度的一致性要求,本文提出了一种基于非负矩阵分解的的图谱迁移算法(Feature-Based Graph Transfer for Collaborative Filtering,FBGT算法)。该算法在现有基于图的矩阵分解模型的基础之上,提出利用图谱结构来迁移辅助域中用户和项目的邻域关系。基于图结构的迁移方式不仅能有效地保持辅助域中高维数据在几何空间上的关系,缓解目标域的稀疏性问题,提高算法的推荐精度,而且能有效地规避上述的一致性约束。在该模型中,我们提出了两种迁移图谱的构造方式,基于评分的和基于低维特征的图结构。在实验阶段,我们在三种数据集上进行大量的对比实验,验证了FBGT算法的有效性。(2)针对待调整的参数过多的问题,在FBGT算法的基础上,考虑到其非凸特性,我们提出了另一种基于图谱迁移的协同过滤算法:基于图正则项的矩阵分解协同过滤算法(Graph Regularized Matrix Factorization for Collaborative Filtering,GRMF算法)。该算法将凸优化模型RMF(Regularized Matrix Factorization)与图正则项相结合,一方面继承了FBGT模型的优越性;另一方面我们对算法中的平衡参数采取自适应调整的策略,有效地降低了算法调试的计算代价,使得模型的实用性更强。在实验验证中,相较于传统的协同过滤算法和一些现有的基于迁移学习的算法,GRMF也表现出了较高的预测精度。