论文部分内容阅读
近年来,因特网已经成为有史以来存在的最大的信息源,电子零售商提供了大量的产品可供人们选择。在这种情况下,人们常面临着大量选择,例如阅读什么样的在线新闻,看什么样的电影,或者是买什么样的商品。推荐系统是一种根据人们特定的喜好和兴趣把那些对用户有用的项目推荐给他们的工具和技术。因为把用户和最适合他们的项目匹配起来是提升用户满意度和忠诚度的关键,所以如今许多商家都对个性化推荐系统很感兴趣。这样的系统对电子商务网站尤其重要,因此电子商务领导者,比如Amazon.com和Netflix都拥有它们自己的推荐系统,以此来提升用户体验。协同过滤(CF)是在推荐系统中广泛使用的一种技术,它基于其他用户对项目的评分来为指定的用户推荐项目。这种通常以数量形式出现的评分(比如1-10星)代表了用户对项目的总体意见。然而,这种总体的意见并不能给我们提供更详细的信息。某用户对一部电影的评分为2,这可能表明该用户认为这部电影总体上是比较差的。但是他很有可能非常喜欢这部电影的其中一些方面(比如故事情节,配乐等)。大部分网站允许用户对他们购买过的项目发表文字评论,并且研究者在意见挖掘领域所做的大量工作已经允许我们从评论文本中抽取主观意见。但是,现存的大部分协同过滤算法都是仅仅利用用户对项目的总体评分来完成推荐过程,而忽略了用户可能对项目的各个方面发表的意见。鉴于这种情况,本文提出了一种能把评论文本中包含的对项目各方面的意见整合到推荐过程的新的协同过滤框架,该框架能够把评论中丰富的情感信息整合到协同过滤的流程中,并缓解数据稀疏和冷启动的问题。具体来说,该框架主要包含两个部分:(1)意见挖掘部分,(2)评分推算部分。第一个部分从评论中抽取并总结用户表达的关于项目各方面的意见,然后把这些意见转换成数字形式的评分。第二个部分使用张量分解技术来预测用户对给定项目的总体评分,该部分构成了推荐过程的基础。这种张量分解的方法可以看作是协同过滤中广泛使用的二维矩阵分解技术的扩展,此外,张量分解能够保留数据的高维特征并在每一维上抽取隐含的语义。总体上,本文主要做了如下的工作:(1)本文提出了一种新的协同过滤框架,该框架能在较细粒度上抽取评论文本中包含的关于项目的各方面的意见信息,并将此信息整合到框架中。(2)本文提出了利用张量分解技术来捕捉用户、项目以及项目各个方面的内在联系并以此预测用户对项目的评分。由于张量中包含了用户对项目的总体评分和对项目各个方面的评分,对张量的分解能提供更为准确的预测结果。(3)在电影数据集上进行的大量实验证明了本文提出的框架是有效的,实验结果显示,相对于两种基准方法,本文提出的框架能够提高评分预测的精确度。