论文部分内容阅读
互联网拥有全世界最全最大的信息资源,丰富的资源给人们的生活和学习带来了便利的同时,也引发了信息过载的问题。如何让没有明确目标的用户能准确找到满意的信息资源,成为目前信息生产者所面临的问题之一。推荐系统的出现可以解决这个问题,推荐系统的关键是推荐算法。本文要构建个性化电影推荐系统,常用的基于内容的推荐算法不适合电影信息的特征提取,电影系统也不存在好友关系,社交网络推荐也不适合电影系统推荐,所以该系统使用协同过滤推荐。随着个性化电影推荐系统的推广用户会越来越多,电影每年增长的数量没有用户多,所以基于项目的协同过滤算法显然更适合基于用户的协同过滤方法。传统的基于项目的协同过滤算法只考虑了用户评分矩阵,没有考虑到项目类别矩阵,所以推荐质量不高。本文在相似度计算方面改进了基于项目的协同过滤算法,主要工作如下:1)提出了综合相似度是项目与项目间的相似度和项目类别间的相似度以一定权重组合在一起。传统的综合相似度计算,项目与项目之间的相似度的系数和项目类别间的相似度的系数和为1,并不能很好的解释能够组合的理由。本文改进了权重的配比方式,对于组合方式有很好的解释。平均绝对误差MAE是评判推荐算法优劣的一种标准,通过比较传统算法和改进算法的MAE,来验证传统算法和改进算法的优劣。2)推荐算法计算复杂,自然而然花费的时间也多,利用Hadoop技术可以对基于项目综合相似度计算和Top-N推荐并行化。通过时间上的提高率证明了并行化计算减少了时间复杂度,提高了用户体验效果。