论文部分内容阅读
伴随着互联网进入互联网+的时代,网络数据的产生速度发生了惊人的变化。推荐系统能够实时地了解用户的需求变化以及用户兴趣变化,实现了动态向用户推荐感兴趣的内容,推荐系统已经成为一种当代大数据信息过载的解决方案。协同过滤(Collaborative Filtering,CF)算法是当前推荐领域应用表现最为突出的算法之一。推荐算法利用用户在互联网中的行为数据分析用户或项目之间的相似性,通过分析相似性关系,向用户推荐可能会感兴趣的项目。由于数据量大,且数据维度多,有必要使用一个高效的大数据处理平台对数据进行相应的计算。由于用户的评分矩阵十分稀疏,传统协同过滤算法出现了预测精度低、可扩展性差问题,从而导致项目间的相似性与实际情况偏差大。论文针对传统推荐算法候选集不合理问题,提出一种新的用户评分预测算法New Item-based Collaborative Filtering(NItem-based CF),以提供高准确性的推荐。Item-based CF算法首先将关联规则添加到相似度算法计算中,改进传统的皮尔森相似度计算方法,来计算项目之间的相似性关系,进而构造项目间关联矩阵,然后通过关联矩阵预测出用户对项目的评分矩阵。论文使用平均绝对误差和均方根误差对预测结果进行评估,实验证明NItem-based CF算法提高了预测精准度。针对网络环境运行效率低下的问题,论文使用Spark分布式计算平台对NItembased CF算法进行并行化的实现。实验结果表明,并行化后提高了算法的计算效率。另外,针对推荐数据集维度大的问题,交替最小二乘法(Alternating Least Squares,ALS)实现了矩阵分解,并在Spark平台上对ALS算法进行了实现。实验结果表明,ALS算法在一定程度上缓解了数据维度过高的问题。