论文部分内容阅读
随着网络互通技术的逐渐成长,人们已从信息量较少的时代跨入到信息量很多的时期,在这数据量庞大的时间点,如果想从许多的信息中找到自己比较喜欢的内容,这无疑很难,这些网络内容也越来越难展示给可能喜欢它们的人。为了解决这个问题,推荐类的应用就应运而生,它的使命就是连接每个人和网络内容,寻找它们之间的联系,从而进行个性化的推荐。作为时下比较热门的推荐算法:协同过滤推荐算法(CollaboratIve Filtering,CF),它的主要功能就是预测和推荐。该推荐方式的实现原理是根据网络使用者的曾经在网络上产生的数据来发掘他可能喜欢的东西,根据大家喜欢内容的差别对网络上的使用者实行分成不同的小组并举荐喜好相近的商品。CF算法通常分成两个不同的方式:基于使用者的协同过滤算法(User-Based CollaboratIve Filtering,UserCF)和基于商品的协同过滤算法(Item-Based Collaborative Filtering,ItemCF)。通常可以用人按照喜好来分,商品按照类别来分。本文基于ItemCF来进行研究,做的主要工作如下:(1)针对当前CF算法存在的数据稀疏以及新使用者或者新商品加入造成的问题,该文设计了一种结合评分比例因子及商品本身特有的属性改进的CF方式。利用加入的商品本身属性来降低数据稀疏带来的问题,然后再使用计算热门商品排行来为网络使用者进行推送以此达到商品(或使用者)新加入时的推送问题。(2)由于传统的ItemCF算法当商品数量较多时,算法耗时较长,所以根据ItemCF的运行原理,在结合评分比例因子及商品属性的CF算法上,又设计了一个结合聚簇改进的推荐方式。通过减少相似度计算所耗费的时间,在不降低算法精确率的基础上来提高算法的运行处理速度。(3)算法使用较经典的数据集:Jester和MovieLens以及Book-Crossings等数据源进行试验,MovieLens包含了很多个网络上的使用者对多部影片的打分信息,同时也有影片本身的一些信息如导演、演员等信息和网络打分使用者的自身信息;Jester推荐系统数据是从Jester Online Joke Recommender System抓取的,它是使用者对笑话的评分数据;Book-Crossings是根据bookcrossing.com的数据设计的图书评分数据集,主要包含使用者对书本的打分信息。使用本篇文章设计的推荐方法与传统的CF推荐方法以及当下结合使用者或者商品标签的方式实行对比,来验证本文改进的CF推荐方法有效性。