论文部分内容阅读
互联网技术的不断普及以及大数据时代的到来使人们可以通过众多渠道获取大量的信息,在为人们带来无限便利的同时产生了“信息过载”问题,而推荐系统可以帮助人们从繁杂的信息中挑选出有价值的信息,很好的缓解了“信息过载”问题。然而传统的推荐存在数据稀疏和用户冷启动问题,跨领域推荐可以很好的解决这一问题,它将其它领域丰富的信息迁移到目标领域,帮助目标领域提高推荐的准确性。但目前大多的跨领域推荐工作均采用评分,忽略了包含着更为丰富的用户和项目信息的评论文本。为此,本文对跨领域推荐方法展开了深入的研究,主要工作如下:(1)考虑到推荐系统存在数据稀疏和用户冷启动问题,本文针对评论文本提出一种基于卷积神经网络的跨领域推荐模型(CNN-based Cross-domain Recommendation,CNCR)。首先将评论文本生成用户评论文本文档和项目评论文本文档,并生成对应的词向量文档;然后利用卷积神经网络(Convolutional Neural Network,CNN)有效的提取用户和项目评论文本文档中丰富的信息,得到用户特征和项目特征;其次利用迁移学习的思想,构造共享域作为知识迁移的桥梁,利用共享域的CNN提取源域和目标域的共享特征,同时利用源域和目标域的CNN提取领域特有的特征;最后将不同领域的特征融合进行评分预测,从而实现跨领域推荐。(2)考虑到数据不均衡的现象会导致模型预测结果偏向于样本数据较多的类别,本文在CNCR模型的基础上融合代价敏感学习方法,提出了基于CNN和代价敏感的跨领域推荐模型CNCR-CS(Cost-Sensitive and CNCR)。CNCR-CS模型将代价敏感学习方法用于模型的训练过程,提出了融合代价敏感策略的L2损失函数CSL2(Cost-Sensitive and L2),使得模型的错分代价和最小,从而缓解了上述问题。(3)本文在Amazon的不同领域的数据集上进行了相应的实验,验证本文提出的模型的有效性。实验结果表明,相较于对比模型,利用评论文本和神经网络的本文模型在MAE和RMSE上均有提升,取得了较好的评分预测结果。同时验证了本文提出的CSL2函数的有效性以及本文迁移方法的有效性,此外本文通过控制评论数目的方法设计了其它的实验验证了本文模型缓解数据稀疏问题的能力以及缓解用户冷启动问题的能力,对模型的重要参数进行了相应的分析,同时验证了模型的泛化能力。本文充分的利用了评论文本,合理有效的挖掘了评论文本中蕴含的用户和项目信息,提高了跨领域推荐性能,同时使跨领域推荐的方法在深度学习和评论文本上有了新的发展。