论文部分内容阅读
互联网技术的飞速发展使得当今进入大数据时代,爆炸性增长的数据量也使得“信息过载”问题日益严峻,如何快速高效地从过量信息中筛选过滤出有用信息成为当前困扰人们的一个难题,由此,推荐系统应运而生。传统推荐系统的工作原理是利用过往数据发现不同用户的兴趣偏好特征,依赖这种功能为用户进行个性化推荐,但当其面临海量数据时,传统推荐算法需要消耗大量时间,可能无法满足用户需求。在这种形势下,分布式Spark技术的实现能够有效地解决这一技术缺陷。面对传统推荐算法在应用中暴露出的稀疏性、冷启动、可扩展性差等实际问题,本文在Spark技术的支撑下,结合传统的协同过滤推荐算法进行改进,并在此基础上构建了一个Hybrid推荐模型,可应用在电影推荐领域,使得推荐效果明显改善。本文主要研究内容如下:(1)简述了推荐算法和Spark技术相关理论知识,重点分析了协同过滤推荐算法的分类、推荐原理及其相应特性,并阐述了Spark核心技术及其工作架构。(2)基于邻域的协同过滤推荐算法的研究与改进。针对相似性计算只依据评分信息的单一性,提出包含用户特征的局部相似性和全局相似性概念相融合的改进相似度模型,对基于用户的协同过滤算法进行改进;对于基于项目的协同过滤算法,引入标签关联性相似度,将其与物品评分间相似度相结合,从而更加精准地筛选相似物品,进而提高推荐的准确性。最后在Spark平台上设计实验,并验证了该算法的可行性,实验结果表明改进后算法有效提高了推荐的准确性与可扩展性。(3)基于矩阵分解的协同过滤推荐算法。针对评分矩阵稀疏性问题,采用交替最小二乘法进行矩阵分解,并根据其迭代分解的特性利用Spark技术实现并行化,设计分组实验验证了不同参数取值对推荐效果的影响,得出该模型的最佳参数组合。(4)Hybrid推荐模型。将一般加权混合转化为最优化求解问题,基于改进的邻域协同过滤算法和交替最小二乘法来构建Hybrid模型,通过求解最优解集为该模型动态赋予权值,设计实验,通过分析预测准确性和分类准确性指标验证了Hybrid模型的推荐效果。该模型可应用于电影推荐领域。