论文部分内容阅读
现代社会信息越来越庞杂,人们生活在一个信息过载的时代,通过某种方式为用户过滤掉无用信息是研究者不断追求的目标。推荐系统就是用来满足用户需求或者服务的系统,它能够满足用户个性化的需求,在用户获取和查询信息中占据着重要的地位。但是推荐系统在发展过程中,也存在一系列的难题需要解决,例如业务调整频繁,系统响应速度慢,推荐结果准确度低下以及海量数据的处理与分析时较慢等问题。为了解决以上问题,需要对推荐系统不断的研究改进。一个良好的个性化推荐系统一方面需要拥有较好的扩展性,能够随着业务需求的不断变化对系统进行调整和更新;另一方面还需要采用大数据处理相关技术来解决推荐过程的效率问题。目前Hadoop及Spark分布式处理平台是解决大数据处理的重要方案,通过分布式的计算与处理实现对海量数据的管理与分析,本文的研究正是基于这些方案。推荐系统现在面临的主要问题是数据的稀疏性,它也是导致推荐系统结果不准确的重要原因。随着数据量的不断增加,对于数据的处理过程也变得更为复杂。为了更加有效地解决以上问题,本文设计并完成了一种基于Spark框架的推荐系统。在文中对本系统的总体结构和具体算法进行了介绍,并对不同算法的优势和缺点进行了分析,最终选择了基于用户偏好实现个性化推荐的方法。论文首先描述了课题研究的背景及国内外研究现状,并分析了论文的主要内容;随后分析了协同过滤算法的相关情况和Spark大数据处理框架的相关技术;课题分别从相似度传递和语义分析算法两方面来改善推荐效果;为了做到“实时”推荐,提升推荐速度,采用了Spark大数据处理技术;在分析设计相关算法之后,本文的系统设计从系统总体框架、推荐引擎总体框架和推荐引擎设计三个部分予以分析设计实现;为了证明推荐算法的有效性,文中进行了大量的试验和测试。最后实现了一个利用本文算法的电影网站。实验表明,本文的协同过滤推荐算法具有良好的推荐效果,由于采用了Spark大数据处理框架,速度优势明显,此外本课题的推荐引擎在电影网站的应用取得了一定的成功,该研究具有一定的理论价值及现实意义。